Az állami szintű demográfiai adatok szerkezetének feltárása R.-ben

A klaszterezés megpróbálja megtalálni az adatok szerkezetét azáltal, hogy hasonló jellemzőkkel rendelkező adatcsoportokat hoz létre. A leghíresebb klaszterező algoritmus valószínűleg a K-közép, de számos módszer létezik a megfigyelések klaszterezésére. A hierarchikus klaszterezés a klaszterezési algoritmusok egy alternatív osztálya, amely 1–n klasztert hoz létre, ahol n az adatkészletben lévő megfigyelések száma. Ahogy lefelé halad a hierarchiában 1 klaszterről (az összes adatot tartalmazza) n klaszterbe (minden megfigyelés a saját klasztere), a klaszterek egyre hasonlóbbá válnak (majdnem mindig). A hierarchikus klaszterezésnek két típusa van: osztó (felülről lefelé) és agglomeratív (alulról felfelé).

Megosztó

Az osztó hierarchikus fürtözés úgy működik, hogy 1 fürttel kezdődik, amely a teljes adatkészletet tartalmazza. A legnagyobb átlagos eltérést mutató megfigyelést (a klasztertől valamilyen mérőszámmal legtávolabb lévő) a rendszer a saját klaszterébe rendeli vissza. A régi fürtben az új fürthöz közelebb eső megfigyelések az új fürthöz lesznek hozzárendelve. Ez a folyamat a legnagyobb klaszterrel ismétlődik, amíg minden megfigyelés a saját klasztere nem lesz.

Agglomeratív

Az agglomeratív klaszterezés minden megfigyeléssel saját klaszterként kezdődik. A két legközelebbi klaszter egy klaszterbe egyesül. A következő legközelebbi fürtök egy csoportba kerülnek, és ez a folyamat addig folytatódik, amíg csak egy fürt nem tartalmazza a teljes adatkészletet.

Mit jelent közel lenni?

A fenti részben elhanyagoltam annak meghatározását, hogy mit jelent a „bezárás”. Számos lehetséges mérőszám létezik, de felsorolom a 4 legnépszerűbbet: egyszeri kapcsolat, teljes kapcsolat, átlagos kapcsolat és súlyponti kapcsolat.

Egyetlen kapcsolat

Az egyszeri kapcsolat (legközelebbi szomszéd) a legrövidebb távolság két klaszterben lévő megfigyeléspár között. Néha olyan klasztereket hozhat létre, amelyekben a különböző klaszterekben lévő megfigyelések közelebb vannak egymáshoz, mint a saját klasztereiken belüli megfigyelések. Ezek a klaszterek szétterülten jelenhetnek meg.

Teljes kapcsolat

A teljes kapcsolódás (legtávolabbi szomszéd) az a hely, ahol a távolságot mérik a két klaszter legtávolabbi megfigyelési párja között. Ez a módszer általában szorosabb klasztereket hoz létre, mint az egyszeri kapcsolat, de ezek a szoros klaszterek nagyon közel kerülhetnek egymáshoz. Az átlagos kapcsolat mellett ez az egyik legnépszerűbb távolságmérő.

Átlagos kapcsolat

Az átlagos kapcsolódás az, amikor az egyes klaszterekben lévő megfigyeléspárok közötti távolságot összeadják, és elosztják a párok számával, hogy megkapják az átlagos klaszterközi távolságot. Az átlagos kapcsolódás és a teljes összekapcsolás a két legnépszerűbb távolságmérő a hierarchikus klaszterezésben.

Centroid-kapcsolat

A központos kapcsolat két klaszter centroidjai közötti távolság. Ahogy a centroidok az új megfigyelésekkel együtt mozognak, lehetséges, hogy a kisebb klaszterek jobban hasonlítanak az új nagyobb klaszterhez, mint az egyedi klasztereikhez, amelyek inverziót okoznak a dendrogramban. Ez a probléma a többi csatolási módszernél nem merül fel, mivel az összevont klaszterek mindig jobban hasonlítanak önmagukra, mint az új, nagyobb klaszterre.

Hierarchikus klaszterezés használata állami szintű demográfiai adatokon az R-ben

A régiók felfogása erős az Egyesült Államok államainak kategorizálásában. A régiók a földrajz által meghatározott államcsoportok, de a földrajz további gazdasági, demográfiai és kulturális hasonlóságokhoz vezet az államok között. Például Dél-Florida nagyon közel van Kubához, így ez az Egyesült Államokba tengeren utazó kubai menekültek fő célpontja. Így Dél-Floridában a legnagyobb a kubai amerikaiak koncentrációja.

Annak tanulmányozásához, hogy manapság (valójában 2017-ben) mennyire hasonlítanak egymáshoz az államok, letöltöttem a 2017-es American Community Survey adatait, és hierarchikus klaszterezést alkalmaztam a csoportosításukhoz. Az adatkészletnek sok változója van, ezért a „sajátvektor-bontást, a kvantummechanikából származó fogalmat használtam, hogy szétszedjem az egymást átfedő „jegyzeteket” a demográfiai adatokban (tudom, hogy elkéstem a kutyahalomtól, de muszáj. mondd el mindenkinek, hogy vettem egy lineáris algebra órát is). Az eredményül kapott dendrogramok (R kóddal) alább láthatók.

Agglomeratív hierarchikus klaszterezés teljes kapcsolással

hc.complete = hclust(dist(pc.state.full$x[,1:5]),method=’complete’)

plot(hc.complete, labels = X_state$State, main=’Regionális klaszterek dendrogramja 2017-es ACS-adatokat használva (agglomeratív)’, xlab=’’, sub=’’,cex=0,7)

Megosztó hierarchikus klaszterezés

könyvtár (klaszter)

div.hc = diana(pc.state.full$x[,1:5], diss = inherits(pc.state.full$x[,1:5], "dist"), metrika = "euklideszi")

plot(div.hc, labels = X_state$State, , main='Regionális klaszterek dendrogramja 2017 ACS-adatokat használva (Divisive)', xlab='')

A klaszterek között az agglomeratív és a felosztó megközelítésből adódó különbségek vannak. Az agglomeratív megközelítés Georgiát és Észak-Karolinát Illinois-szal, Delaware-rel, Pennsylvaniával és Rhode Island-nel, míg a megosztó megközelítés Dél+Ohioval, Michigannel, Missourival és Indianával csoportosítja. Nagy vonalakban ugyanazok, amit elvárnánk.

Néhány eredmény ezekből a dendrogramokból:

- Virginia közelebb van az Atlanti-óceán középső részéhez, mint a délhez

- Alaszka van a legközelebb az Upper Plains államokhoz (vidéki, fehér, viszonylag nagy bennszülött lakossággal)

- Ohio, Michigan, Missouri és Indiana közelebb vannak délhez, mint a többi középnyugati állam

- Hawaii és DC nagyon különbözik a többi államtól

Remélem, tanultál valami újat, és láttad, milyen egyszerű ezeket a technikákat az R-ben megvalósítani. A hclust() elérhető az alap R-ben, míg a diana() a fürt könyvtár.

Az adataim és a kódom "itt" érhető el.