Szia! Ezt a blogot azért írom, hogy megosszam tapasztalataimat egy jelfeldolgozási probléma megoldásában az érzékelők időbeli adatai és a gépi tanulás segítségével. Lehet, hogy látott vagy használt már egy fitneszszalagot, a fitneszszalag érzékelői segítségével, amelyek elsősorban gyorsulásmérő és giroszkóp, nyomon követik tevékenységét. A gyorsulásmérő és a giroszkóp általában háromtengelyű, és tevékenységként értelmezhető jelet generál.

Ugyanezt a problémát próbáljuk megoldani. Gyorsulásmérőből és giroszkópból gyűjtött időbeli adatokkal rendelkezünk, és egy osztályozási modellt építünk hagyományos gépi tanulás és neurális hálózatok felhasználásával, hogy előre jelezzük egy személy aktivitását. Egy okostelefon vagy fitneszszalag érzékelőiből származó adatokat fogjuk felhasználni.

Végig végzünk implementációt az adatkészlet letöltésétől, a feltáró adatelemzéstől, az egy- és többváltozós elemzéstől, a jellemzők tervezésétől, a modellválasztástól, a hiperparaméter-hangolástól és a modellválasztástól kezdve. Tehát kezdjük.

Mindenekelőtt jegyzetfüzetünk elejére írjuk az üzleti követelményt, amely tartalmazza a probléma leírását, az adatkészlet forrását, az algoritmikus célokat és megszorításokat, valamint a probléma megoldásához használni kívánt teljesítménymutatókat.

A következő lépésünk az adatkészlet letöltése és megértése lesz.

Az adatkészlet megértését gyakran EDA-nak vagy feltáró adatelemzésnek nevezik.

A Feltáró adatelemzés az adatkészlet megfigyelésének és értelmezésének statisztikai módja. Általában az EDA a következőkből áll:
1. A különböző osztályok közötti adatok egyensúlyhiányának megfigyelése.
2. Az adatkészlet jellemzőinek egyváltozós elemzése, és egy adott jellemző fontosságának megfigyelése az osztályozásban boxplotok vagy hisztogramok segítségével.
3. Az adatkészlet kombinált jellemzőinek többváltozós elemzése, amely pár használatával történik ábrák vagy méretcsökkentési technikák, például PCA vagy T-SNE

Az adatkészlet szinte kiegyensúlyozottnak tűnik, a többiekhez képest kevesebb gyalogos lépcsőházi adatunk van, de ez rendben van.

Egy box plot ábrázolásával könnyen meg tudjuk különböztetni az osztályokat.

A leíró statisztikákban a box plot vagy boxplot egy módszer a számadatok csoportjainak grafikus ábrázolására a kvartiliseiken keresztül (a Wikipédiából származik).

Egyes jellemzők feltárásával egyértelműen megfigyelhető, hogy egyszerűen megkülönböztethetünk egy osztályt a többitől, ha egyszerűen csak egy küszöbértéket írunk. Az 504fBodyAccMagstd() jellemző első diagramját tekintve az emeleten, a földszinten és a séta könnyen elválasztható egymástól, és 75%-os pontosságot kaphatunk egy if-else utasítás megírásával. Hasonlóképpen, az 554. jellemző elemzésével a gyaloglás elkülöníthető a többi osztálytól, és az 559. jellemző önmagában is megkülönböztetheti a „FEKEZÉS” osztályt a többi osztálytól.

Az összes többi szolgáltatásra továbbra is szükségünk lesz más osztályok besorolásához, és folytatjuk az adatkészlet többváltozós elemzését. A többváltozós elemzéshez írunk egy „perform_tsne” függvényt, amely egy T-SNE reprezentációt ábrázol számunkra.

A t-SNE a t-elosztott sztochasztikus szomszédsági beágyazás rövidítése. Ez egy hatékony méretcsökkentési technika, amelyet elsősorban adatvizualizációra és klaszterezésre használnak. A t-SNE csökkenti a dimenziót, és eltér a PCA naiv megközelítésétől azáltal, hogy megőrzi az adatok szomszédsági struktúráját. A beágyazási térben közel lévő adatok közel maradnak, a távol pedig távol marad.

Néhány TSNE dimenziócsökkentési technika után megfigyelhetjük, hogy az összes többi osztály meglehetősen elválasztható az „álló” és „ülő” osztályok helyett, a szenzorértékek hasonlósága miatt, és ez várható is, mivel mindkettő statikus cselekvés és emberi felső testtartás. ahol az érzékelő található (okostelefon vagy csuklópánt), szinte hasonló.
Talán más érzékelők, például a szívverés, segíthetnek ennek megkülönböztetésében, mivel a pulzusszám különbözik nyugalmi és álló testhelyzetben. Bármilyen módon továbbléphetünk a gépi tanulási megvalósítások felé.

Ez a blog egy probléma feltáró adatelemzésére összpontosított. A blog egy másik részét kiegészítem a klasszikus gépi tanulási megvalósításokkal és a fejlett mélytanulási alkalmazásokkal. Ha kihagytam valamit, ami kiegészíthető, vagy ha valami jobbat tudok megvalósítani, kérem jelezze. Ha tetszett ez a bejegyzés, nagyon hálás lennék, ha segítené a terjedését és megosztását. Az elismerés mindig biztató :)

Köszönjük, hogy eljött…