Bevezetés a K-Means klaszterezésbe

Az "Utolsó megjegyzésem" azt vizsgálta, hogyan használhatók a neurális hálózatok "osztályozási modellekhez". Ezen a héten eltekintünk a felügyelt tanulástól (amely az utolsó 7 jegyzet középpontjában állt), és megvizsgáljuk a „felügyelet nélküli tanulás” egy sajátos típusát, az úgynevezett K-közepű klaszterezést.

Mi az a K-Means klaszterezés?

A K-means klaszterezés egy nagyon egyszerű algoritmus, amely egy adathalmaztK számú csoportra szegmentál.

Hogyan működik a K-Means?

A K-means működésének igazán nagyszerű látványvilágához ajánlom, hogy nézze meg Andrew Ng előadásának első 3 percét és 45 másodpercéta témában.

Ez az egyik legegyszerűbb gépi tanulási algoritmus, és csak néhány egyszerű lépésből áll:

Vegye ki az összes olyan adatpontot, amelyet klaszterezni/szegmentálni szeretne.
Cluster inicializálása:Véletlenszerűen helyezzen el K számú „fürtcentroidot” az adattérbe az adatpontokkal. Használhatja ugyanazt a helyet, mint K véletlenszerű adatpontot a klaszterközpontok kiindulási helyeként.
Klaszter hozzárendelése: Rendeljen hozzá minden adatpontot ahhoz a fürthöz, amelynek a legközelebbi súlypontja van.
Centroidok mozgatása:Vegye az egyes klaszterek adatpontjainak átlagát a fürt középpontjának megtalálásához, majd helyezze át a fürt súlypontját a fürt közepére.
Ismételje a 3. és 4. lépést, amíg a klaszterek tagságai nem változnak (azaz amíg a fürtök stabilizálódnak).

Mire használható a K-Means?

A K-means segítségével szegmentálható sokféle adatkészlet. Még ha egy adatkészletben nincsenek is természetesen elválasztott klaszterek szóközzel, a K-means segítségével fürtöket hozhat létre az adatok különböző dimenziói/tulajdonságai alapján, ahogy az gyakran előfordul a piacok, ügyfelek vagy termékek szegmentálásánál. .

Például a K-means segítségével létrehozhatja a vállalkozás ügyfeleinek viselkedési szegmentációját olyan jellemzők alapján, mint az átlagos heti költés, az átlagos vásárlási költség és a vásárlások gyakorisága.

Honnan tudhatom, hogy működött?

Mielőtt a K-középpontokat egy adathalmazra alkalmazná, mindig jó, ha megpróbálja megjeleníteni az adatokat. Ezt követően megjelenítheti az adatokat, és megnézheti, hogy a fürtözés megfelel-e a józan ész tesztjének.

Többször is futtathatja a K-meanst az adatkészletén, hogy megnézze, nagyjából ugyanazok a fürtök vannak-e.

Kipróbálhatja a K különböző értékeit, hogy megnézze, az egyik jobban működik-e az adatkészlethez, mint a másik. Például, ha 3 helyett 4 fürtöt használ, akkor stabilabb (azaz más iterációkhoz képest hasonló) fürtökhöz jut.

Nagyítás

Andrew Ng videójában olyan adatokat vizsgálunk, amelyek 2 dimenzió (azaz két "funkció") alapján vannak csoportosítva, de a K-means annyi sok funkcióval fog működni, amennyit csak szeretne a szegmentálásod. Egy kompromisszum az, hogy nehezebb lesz elképzelni.

Továbbra

A sorozat következő megjegyzése azt mutatja be, hogyan használható a felügyelt tanulás az rendellenességek észlelésére.

Korábbi jegyzetek ebben a sorozatban:

„A gépi tanulás magas szintű megértése felé”
„Intuíció építése a felügyelt gépi tanulás köré gradiens süllyedéssel”
„Segítség a felügyelt tanulási modelleknek jobban és gyorsabban tanulni”
"A szigmoid funkció, mint fogalmi bevezetés az aktiválási és hipotézis funkciókba"
„Bevezetés az osztályozási modellekbe”
"Túlszerelés és rendszeresítéssel elkerülése"
"Bevezetés a neurális hálózatokba"
„Neurális hálózatokat használó osztályozási modellek”

hasonló anyagok:

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS ChatGPT Javascript Development Statistics Data Java Science Golang Code Data Structures Open Source Software DevOps Programming Languages