Az "Utolsó megjegyzésem" azt vizsgálta, hogyan használhatók a neurális hálózatok "osztályozási modellekhez". Ezen a héten eltekintünk a felügyelt tanulástól (amely az utolsó 7 jegyzet középpontjában állt), és megvizsgáljuk a „felügyelet nélküli tanulás” egy sajátos típusát, az úgynevezett K-közepű klaszterezést.
Mi az a K-Means klaszterezés?
A K-means klaszterezés egy nagyon egyszerű algoritmus, amely egy adathalmaztK számú csoportra szegmentál.
Hogyan működik a K-Means?
A K-means működésének igazán nagyszerű látványvilágához ajánlom, hogy nézze meg Andrew Ng előadásának első 3 percét és 45 másodpercéta témában.
Ez az egyik legegyszerűbb gépi tanulási algoritmus, és csak néhány egyszerű lépésből áll:
- Vegye ki az összes olyan adatpontot, amelyet klaszterezni/szegmentálni szeretne.
- Cluster inicializálása:Véletlenszerűen helyezzen el K számú „fürtcentroidot” az adattérbe az adatpontokkal. Használhatja ugyanazt a helyet, mint K véletlenszerű adatpontot a klaszterközpontok kiindulási helyeként.
- Klaszter hozzárendelése: Rendeljen hozzá minden adatpontot ahhoz a fürthöz, amelynek a legközelebbi súlypontja van.
- Centroidok mozgatása:Vegye az egyes klaszterek adatpontjainak átlagát a fürt középpontjának megtalálásához, majd helyezze át a fürt súlypontját a fürt közepére.
- Ismételje a 3. és 4. lépést, amíg a klaszterek tagságai nem változnak (azaz amíg a fürtök stabilizálódnak).
Mire használható a K-Means?
A K-means segítségével szegmentálható sokféle adatkészlet. Még ha egy adatkészletben nincsenek is természetesen elválasztott klaszterek szóközzel, a K-means segítségével fürtöket hozhat létre az adatok különböző dimenziói/tulajdonságai alapján, ahogy az gyakran előfordul a piacok, ügyfelek vagy termékek szegmentálásánál. .
Például a K-means segítségével létrehozhatja a vállalkozás ügyfeleinek viselkedési szegmentációját olyan jellemzők alapján, mint az átlagos heti költés, az átlagos vásárlási költség és a vásárlások gyakorisága.
Honnan tudhatom, hogy működött?
Mielőtt a K-középpontokat egy adathalmazra alkalmazná, mindig jó, ha megpróbálja megjeleníteni az adatokat. Ezt követően megjelenítheti az adatokat, és megnézheti, hogy a fürtözés megfelel-e a józan ész tesztjének.
Többször is futtathatja a K-meanst az adatkészletén, hogy megnézze, nagyjából ugyanazok a fürtök vannak-e.
Kipróbálhatja a K különböző értékeit, hogy megnézze, az egyik jobban működik-e az adatkészlethez, mint a másik. Például, ha 3 helyett 4 fürtöt használ, akkor stabilabb (azaz más iterációkhoz képest hasonló) fürtökhöz jut.
Nagyítás
Andrew Ng videójában olyan adatokat vizsgálunk, amelyek 2 dimenzió (azaz két "funkció") alapján vannak csoportosítva, de a K-means annyi sok funkcióval fog működni, amennyit csak szeretne a szegmentálásod. Egy kompromisszum az, hogy nehezebb lesz elképzelni.
Továbbra
A sorozat következő megjegyzése azt mutatja be, hogyan használható a felügyelt tanulás az rendellenességek észlelésére.
Korábbi jegyzetek ebben a sorozatban:
- „A gépi tanulás magas szintű megértése felé”
- „Intuíció építése a felügyelt gépi tanulás köré gradiens süllyedéssel”
- „Segítség a felügyelt tanulási modelleknek jobban és gyorsabban tanulni”
- "A szigmoid funkció, mint fogalmi bevezetés az aktiválási és hipotézis funkciókba"
- „Bevezetés az osztályozási modellekbe”
- "Túlszerelés és rendszeresítéssel elkerülése"
- "Bevezetés a neurális hálózatokba"
- „Neurális hálózatokat használó osztályozási modellek”