Az "Utolsó megjegyzésem" azt vizsgálta, hogyan használhatók a neurális hálózatok "osztályozási modellekhez". Ezen a héten eltekintünk a felügyelt tanulástól (amely az utolsó 7 jegyzet középpontjában állt), és megvizsgáljuk a „felügyelet nélküli tanulás” egy sajátos típusát, az úgynevezett K-közepű klaszterezést.

Mi az a K-Means klaszterezés?

A K-means klaszterezés egy nagyon egyszerű algoritmus, amely egy adathalmaztK számú csoportra szegmentál.

Hogyan működik a K-Means?

A K-means működésének igazán nagyszerű látványvilágához ajánlom, hogy nézze meg Andrew Ng előadásának első 3 percét és 45 másodpercéta témában.

Ez az egyik legegyszerűbb gépi tanulási algoritmus, és csak néhány egyszerű lépésből áll:

  1. Vegye ki az összes olyan adatpontot, amelyet klaszterezni/szegmentálni szeretne.
  2. Cluster inicializálása:Véletlenszerűen helyezzen el K számú „fürtcentroidot” az adattérbe az adatpontokkal. Használhatja ugyanazt a helyet, mint K véletlenszerű adatpontot a klaszterközpontok kiindulási helyeként.
  3. Klaszter hozzárendelése: Rendeljen hozzá minden adatpontot ahhoz a fürthöz, amelynek a legközelebbi súlypontja van.
  4. Centroidok mozgatása:Vegye az egyes klaszterek adatpontjainak átlagát a fürt középpontjának megtalálásához, majd helyezze át a fürt súlypontját a fürt közepére.
  5. Ismételje a 3. és 4. lépést, amíg a klaszterek tagságai nem változnak (azaz amíg a fürtök stabilizálódnak).

Mire használható a K-Means?

A K-means segítségével szegmentálható sokféle adatkészlet. Még ha egy adatkészletben nincsenek is természetesen elválasztott klaszterek szóközzel, a K-means segítségével fürtöket hozhat létre az adatok különböző dimenziói/tulajdonságai alapján, ahogy az gyakran előfordul a piacok, ügyfelek vagy termékek szegmentálásánál. .

Például a K-means segítségével létrehozhatja a vállalkozás ügyfeleinek viselkedési szegmentációját olyan jellemzők alapján, mint az átlagos heti költés, az átlagos vásárlási költség és a vásárlások gyakorisága.

Honnan tudhatom, hogy működött?

Mielőtt a K-középpontokat egy adathalmazra alkalmazná, mindig jó, ha megpróbálja megjeleníteni az adatokat. Ezt követően megjelenítheti az adatokat, és megnézheti, hogy a fürtözés megfelel-e a józan ész tesztjének.

Többször is futtathatja a K-meanst az adatkészletén, hogy megnézze, nagyjából ugyanazok a fürtök vannak-e.

Kipróbálhatja a K különböző értékeit, hogy megnézze, az egyik jobban működik-e az adatkészlethez, mint a másik. Például, ha 3 helyett 4 fürtöt használ, akkor stabilabb (azaz más iterációkhoz képest hasonló) fürtökhöz jut.

Nagyítás

Andrew Ng videójában olyan adatokat vizsgálunk, amelyek 2 dimenzió (azaz két "funkció") alapján vannak csoportosítva, de a K-means annyi sok funkcióval fog működni, amennyit csak szeretne a szegmentálásod. Egy kompromisszum az, hogy nehezebb lesz elképzelni.

Továbbra

A sorozat következő megjegyzése azt mutatja be, hogyan használható a felügyelt tanulás az rendellenességek észlelésére.

Korábbi jegyzetek ebben a sorozatban:

  1. „A gépi tanulás magas szintű megértése felé”
  2. „Intuíció építése a felügyelt gépi tanulás köré gradiens süllyedéssel”
  3. „Segítség a felügyelt tanulási modelleknek jobban és gyorsabban tanulni”
  4. "A szigmoid funkció, mint fogalmi bevezetés az aktiválási és hipotézis funkciókba"
  5. „Bevezetés az osztályozási modellekbe”
  6. "Túlszerelés és rendszeresítéssel elkerülése"
  7. "Bevezetés a neurális hálózatokba"
  8. „Neurális hálózatokat használó osztályozási modellek”