Tíz hét múlva a „Lambda Iskola” tapasztalatom, és befejeztünk egy teljes körű gépi tanulási projektet. A projektet egy hetes Kaggle versenyként hoztuk létre osztályunkon belül, a „DrivenData.org” tanzániai vízszivattyú adatainak felhasználásával. Célunk egy olyan osztályozási modell felépítése volt, amely a megadott adatok alapján megjósolja, hogy a vízszivattyúk működőképesek, működőképesek, javításra szorulnak-e vagy nem működőképesek.

Ez a projekt tesztelte az eddig megszerzett tudásunkat: adatgyűjtés, adatfeltárás, adatcsere, modellépítés, hiperparaméter-optimalizálás, modellellenőrzés, modellértelmezés és vizualizációk készítése. Ez a blogbejegyzés a modellértelmezésre összpontosít. Ha érdekli a további technikai szempontok, a notebookokat a GitHub tárhelyemben "itt" találja.

Insights from Data Exploration

Egy modell felépítése után lefuttattam egy permutáció fontossági jelentést. Ez a jelentés azt jelzi, hogy a vízmennyiség van a legnagyobb hatással a modellre. A vízmennyiség öt kategóriába sorolható: elegendő, elégtelen, száraz, szezonális és ismeretlen. Az alábbi grafikonon azt látjuk, hogy több mint 5000 működő vízszivattyú van elegendő vízzel. Azonban több mint 2000 vízszivattyú van elegendő vízzel, de nem működik.

A fenti diagramból azt is látjuk, hogy a nem működő szivattyúknál van a legtöbb szárazvízforrás. Ez logikus, mert a száraz kutat elhagyják és elhanyagolják.

A fenti táblázat több mint 4000 nem működő vízszivattyút mutat, amelyek vízminősége jó. Elképzelhető, hogy a 2000 nem működő, elegendő vízellátással rendelkező vízszivattyú egy része vagy mindegyike (az előző táblázatból) ivóvízzel is rendelkezhet.

A fenti diagramból azt látjuk, hogy közel 2000 olyan vízszivattyú van, amely nem működik, jó vízminőséggel és elegendő vízmennyiséggel. Természetesen ezek a vízszivattyúk elsőbbséget élveznek a javítás során, de honnan tudhatná, hogy melyik szivattyút kell először megjavítani?

Véletlenszerűen kiválaszthat egy mintát a vízszivattyúkból, és mindegyiket felkeresheti, hogy megtudja, nem szorul-e javításra. Ez logikusnak tűnhet, de lehet, hogy teljes idő- és erőforráspazarlás. Valójában az alábbiakban látható oktatási adatokban a vízszivattyú állapotának megoszlása ​​alapján tudjuk, hogy körülbelül 46% az esélyünk arra, hogy helyesen választunk egy olyan vízszivattyút, amely nem működőképes vagy működőképes javításra szorul. Ezek szörnyű esélyek.

Hogyan javítsuk az eredményeket?

Prediktív modellt kell felépíteni, hogy az új adatok alapján javítsuk a vízszivattyúk helyes osztályozásának képességét. Korlátozott erőforrások mellett nem lehet mind a 14 000+ vízszivattyút felkeresni, ezért célzott megközelítésre van szükség.

A fenti két diagram egy osztályozási jelentés és egy összetévesztési mátrix. A nem funkcionális és a funkcionális javítási igényeket kombináltam az egyszerűség kedvéért. Az osztályozási táblázat modellünk pontosságát, visszahívását és f1-pontszámát mutatja; a zavaros mátrix pedig a valódi pozitívok, a valódi negatívok, a hamis pozitívok és a hamis negatívok számát mutatja a modellünk alapján.

Amint az alábbi képen látható, a pontosság az előrejelzett pozitívumok százalékos aránya, amelyek valódi pozitívak voltak, a visszahívás pedig a modellünk által helyesen osztályozott tényleges pozitívumok százalékos aránya. A zavaros mátrix azt mutatja, hogy modellünk 6805 vízszivattyút helyesen jósolt működőképesnek és 5030 vízszivattyút nem működőnek. A modell azonban tévesen jósolta 1530 nem működő vízszivattyút működőképesnek, és 993 működő vízszivattyút jósolt nem működőnek.

Az f1-pontszám a pontossági és visszahívási arány átlaga. Ezt a három mérőszámot használjuk a modellünk pontosságának tesztelésére.

Hogyan kapcsolódik ez az üzlethez?

Tételezzük fel, hogy csak 2000 vízszivattyú meglátogatására van elegendő erőforrásunk javítás céljából. Biztosítani szeretnénk, hogy csak a nem működő szivattyúkhoz küldjünk ki szervizeket. Futtatjuk a modellünket, és rendezzük az előre jelzett értékeinket, így kiválasztjuk a legjobb 2000 szivattyút, amelyekre a modellünk előrejelzése szerint nem működőképes.

A legjobb 2000 előrejelzésünk listájából azt találjuk, hogy modellünk 1982 vízszivattyút helyesen jósolt meg nem működőként; ez 99,1%-os pontosság. A korábbi véletlenszerű mintánkhoz képest, ahol csak 46%-os pontosságunk volt. Ha véletlenszerű mintánk alapján küldtünk volna ki szervizeket, akkor 1080 javításra nem szoruló szivattyúhoz küldtük volna őket. Ez totális idő-, pénz- és munkapazarlás. Prediktív modellel minimalizálhatjuk a költségeket és maximalizálhatjuk az erőforrás-kihasználást.

📝 Olvassa el ezt a történetet később a „Journal”-ban.

👩‍💻 Ébredjen minden vasárnap reggel arra, hogy a hét legfigyelemreméltóbb Technikai sztorija várakozik a postaládájában. „Olvassa el a Figyelemre méltó hírlevelet a Technikában”.