Lehet, hogy Ön tudós, adat-tudós, gépi tanulással foglalkozó szakember vagy bármilyen statisztikai tapasztalattal rendelkező szakember. Hallott már a kauzalitásról és az „asszociatív modellek (korrelációk stb.) és az oksági modellek közötti különbségről” – de nem biztos benne, hogy ez mit jelent a gyakorlatban.

Reméljük, hogy a cikk végén egy kis változtatást fog végrehajtani a prediktív és statisztikai projektekhez való hozzáállásában, különösen akkor, ha történeti adatokkal vagy „megfigyelési vizsgálati tervvel” dolgozik. És főleg, ha a rendszer módosításánakkezelésén vagy végrehajtásán gondolkodik.

Két részből áll: Először, miért érdemes beépíteni az ok-okozati összefüggést. Másodszor, hogyan kell csinálni.

Miért érdemes beépíteni az ok-okozati összefüggést

Egyébként mi a baj a prediktív modellekkel?

Természetesen az összes prediktív modellnél (beleértve például a mély tanulást is) az a cél, hogy „általánosítsák” – a képzési adatok statisztikáin belül. Jól kell teljesíteniük ilyen körülmények között, függetlenül attól, hogy oksági modellekről van szó, mindaddig, amíg a képzési adatok statisztikái kellőképpen lefedik az összes oksági forgatókönyvet.

Problémák merülnek fel, amikor arra kérjük ezeket a modelleket, hogy extrapoláljanak a képzési adatok statisztikáin – más néven „tartományon kívüli” adatokon. Ez nem egyszerűen az egyes változók vagy jellemzők értékeinek megváltoztatását jelenti; ez lehet néhány változó együttes eloszlásának változása is. Vagy talán csak bizonyos változók kombinációinak gyakoriságában van változás, ami az eredeti adatokban alulreprezentált, de ma már általános. Ilyen körülmények között a közönséges prediktív modellek nagyon tévesek lehetnek – de az ok-okozati modellek még mindig képesek lehetnek pontosan előre jelezni ilyen körülmények között.

Tehát ha nem oksági (asszociatív) modellek használatát tervezi:

  • Megjósolni a rendszerben bekövetkezett módosítás vagy beavatkozás hatását, vagy
  • Előrejelzés módosult feltételek / statisztikák mellett, olyan ok miatt, amelyet nem irányíthat, vagy
  • Az „ellentétes” forgatókönyvek megértése, amelyek nem jelennek meg megfelelően az előzményadatokban

… a modell teljesítményének jelentős (és nem mérhető) csökkenését kockáztatja, hacsak nem próbálja megérteni e változások okozati hatásait. Most megvizsgáljuk, hogyan és miért tévednek a modellek és a kutatók.

Az oksági következtetések hamis felfogása

Fennáll a kísértés, hogy figyelmen kívül hagyjuk az ok-okozati összefüggést, és megpróbáljunk az eredendően okságikérdésekre asszociatív módszerekkel válaszolni, majd olyan kijelentésekkel takarjuk el a fenekét, mint „mivel tanulmányunk asszociatív, nem vonható le oksági következtetés”. Ez olyan, mintha apró betűs akne gyógymódokat árulna, és azt állítja, hogy a termék nem gyógyítja a pattanásokat. Vagy ok-okozati összefüggést próbálsz bizonyítani, vagy nem.

Ami még rosszabb, nem csak saját magát áltatja, hanem félrevezeti az olvasókat és az érdekelt feleket is, akik ok-okozati következtetéseket fognak olvasni kripto-asszociatív tanulmányaiból:

Hamis összefüggések

Tudja, hogy az ok-okozati összefüggések korrelációból való kiolvasása nem-nem, de milyen rossz lehet, ha valóban erős korrelációja van? Hát rossz. A korreláció erőssége valójában irreleváns; ezek a korrelációk más, látens ok-okozati összefüggéseket tükrözhetnek, amelyekteljesen másképp fognak viselkedni a megváltozott feltételek mellett, amelyek között a modellt használni kívánja.

Ha nem kísérelte meg modellezni a korreláció okát, az még mindig nem mond semmit a változók közötti kapcsolatról a meglévő adatoktól eltérő feltételek mellett.

„Hamis” összefüggések mindenhol megtalálhatók. Ha sok jellemzővel (változóval) rendelkezik, rengeteg összefüggést találhat, amelyek nem azt jelentik, amit gondolnak.

Simpson paradoxona

A "Simpson-paradoxon" egy olyan adatkészletben fordul elő, ahol két X és Y változó pozitívan korrelál, de egyidejűleg az adatkészlet minden alcsoportja megjelenik. negatív korreláció X és Y között. Az összes alcsoport közötti kapcsolat ellentétes a teljes populációban fennálló kapcsolattal!

Az alábbi ábra bemutatja, hogyan fordulhat elő ez. Látható, hogy az X és Y közötti korreláció minden pontra negatív, míg minden színes alcsoportra pozitív:

Miért fontos Simpson paradoxona? Azt mutatja, hogy ha nem veszi figyelembe más változók hatását, a korreláció könnyen vezethet egy erős eredményhez, amely a helyes következtetés inverze.

A túlzott kontroll veszélyei

Nem lehet egyszerűen csak az összes vagy a lehető legtöbb változót szabályozni. "Ez valóban rosszabbíthatja a dolgokat." Például, ha egy ok összes közvetítőjét irányítod, kiküszöbölheted azt a valódi hatást, amelyet mérni próbálsz!

Az egyetlen módja annak, hogy azonosítsa a megfelelő változókészletet [vezérlés / feltétel bekapcsolva / kovariánsként használja a prediktív modellben], az az azonosító végrehajtása egy okozati diagramon.

Például az alábbi egyszerű példában 3 változó különböző elrendezését látjuk; a piros nyilak iránya minden esetben meghatározza a harmadik változó szerepét, és hogy mit kezdjünk vele. Ütközők és közvetítők esetében érdemes elkerülni az irányítást. "Ez a cikk többet magyaráz meg."

A prediktív modellekből származó értelmetlen következtetések elkerülése

Játszottam a Bayesian Network szerkesztőjével, a „Cusal Attribution Tool (CAT)” nevű szerkesztővel, és konkrétan egy olyan példával, amely a hajszín és a jogosultság megszerzésének esélye közötti kapcsolatot tárja fel. , minden akadémikus szent grálja. A rendszer a következő:

Ez a diagram azt mutatja, hogy az életkor/idő a területen az Academic Record erősségét, a hivatali idő esélyét és a hajszínt okozza. Az Academic Record erőssége a Tenure megszerzésének esélyét is „okozza” (vagyis ok-okozati hatással van rá).

Az a szép a CAT-ben, hogy feltehetünk asszociatívésok-okozati kérdéseket. Ha figyelmen kívül hagyjuk az ok-okozati összefüggéseket, és csak egy közönséges asszociatív/jósló modellként használjuk, akkor mekkora esélyünk van a birtoklásra, ha fehérre állítjuk a hajszínt?

58% esély a birtoklásra, 43% helyett! De mielőtt vesz egy üveg hajfestéket, mit mond a Causal modell? Mivel nincs irányított út a hajszíntől a tartamig, az ok-okozati modell (helyesen) szerint az esélyeink változatlanok, 43%.

Csak a móka kedvéért megrajzoltam ugyanazt az oksági diagramot a CausalWizard alkalmazásban, és ez állt rajta:

Tehát, ha a tartományi tudásunkat felhasználva oksági diagramot készítünk, könnyen elkerülhetjük, hogy hamis következtetésre jussunk.

Az ok-okozati összefüggés és az oksági módszerek integrálása a prediktív ML-be

Ha tehát meg van győződve arról, hogy ezt az oksági dolgot érdemes megvizsgálni, mit kell tenned? Íme 3 lépés, amelyet azonnal megtehet számos olyan projektben, ahol már asszociatív modelleket használ.

1. lépés: Modellezze a problémát a kkv-kkal

Dolgozzon olyan emberekkel, akik értik a vizsgált rendszert, és próbálják meg megörökíteni tudásukat egy„oksági diagramban”. Az oksági diagram egyszerűen csomópontok (változókat, más néven jellemzőket, független és függő változókat reprezentáló) és a csomópontok közötti irányított élek hálózata. Ha van él, az azt jelenti, hogy a forráscsomópont közvetlen okozati hatással van a célcsomópontra. Oksági diagramot rajzolhat a böngészőjében az „Okozati varázsló” segítségével. Ez ingyenes. Vagy le is rajzolhatod egy papírra. Ez nagyon könnyű. A fontos az a szerkezet, amit rögzít.

Sokan azt mondják: mi van, ha rossz a diagramom? Nem rontja-e ez az eredményeimet?

A valóság az, hogy a dolgok nem lehetnek rosszabbak, ha homokba dugjuk a fejünket, és nemvesszük figyelembe a rendszerben lévő ok-okozati összefüggéseket. Bármilyen próbálkozás arra, hogy kifejezetten megragadja feltételezéseit, jobb, mintha az olvasóra bízná, hogy kitalálja, mit gondolt akkor.

A tartományi ismeretek szakértői fejéből való kiszívásának folyamatát „kiváltásnak” nevezik. Beszéljétek meg és tekintsétek át a diagramot. Ebből a beszélgetésből új meglátásokat fedezhet fel! Nem kell mindenkinek mindenben egyetértenie. Egynél több jelölt diagram lehet – modellezze mindegyiket, és nézze meg, hogyan befolyásolják az eredményeket! Gyakran előfordul néhány kompromisszum, hogy a rendszert megfigyelhető változókra korlátozzuk (olyanokra, amelyekhez van adatunk), és egyszerűsítjük a dolgokat, hogy az elemzés praktikus legyen. Nem kell tökéletesnek lennie. Az emberek legalább látják és megértik a feltételezéseidet.

Az egyetlen kivétel ez alól a folyamat alól, ha rendszere rendkívül összetett és többnyire ismeretlen (pl. genetikai hálózatok), ebben az esetben érdemes lehet felfedezni az „oksági felfedezést” »vagy továbbra is csak asszociatív módszereket használjon. Azonban még az okozati felfedezés is nagy hasznot húz az esetleges előzetes tudásból.

2. lépés: Elemezze az oksági diagramot

Számos szoftvereszköz létezik, amelyek egy ok-okozati diagramon automatikusan kitalálják, hogyan lehet kiszámítani az egyik változó hatását a másikra, beleértve azt is, hogy mely változókat kell vezérelni, kondítani vagy kovariánsként biztosítani (az ML emberek jellemzői). Ez a folyamat az Azonosítás néven ismert.

A „Pearl’s Do-calculus” minden azonosítható ok-okozati mennyiséget Azonosít – ami azt jelenti, hogy megmondja a helyes választ, ha van egyáltalán válasz.

Nézd meg Brady Neal videóját a témában:

Le is rajzolhatja oksági diagramját az oksági varázslóban, és az elvégzi az azonosítást:

A motorháztető alatt a Causal Wizard a DoWhy könyvtárat használja az azonosításhoz. Ha Ön Python programozó, könnyen "használhatja a DoWhy-t maga".

Az azonosítás megadhatja a válaszokat – vagy megmondja, hogy az Önt érdeklő hatás nulla, vagy megmondja, hogyan becsülheti meg az adatokból bármely megfelelő statisztikai modell segítségével. Itt visszatérhet kedvenc statisztikai vagy ML technikáihoz – talán egyszerűen egy regressziós modellt fog használni, ahogyan eredetileg tervezte, de a megfelelően kiválasztott bemeneti jellemzők / kovariánsok hozzáadott betekintésével, valamint egy elvi és dokumentált alapon, amelyen ezek a jellemzők kiválasztották.

Ezzel el is érkeztünk az utolsó lépéshez:

3. lépés: Vegye fel az ok-okozati diagramot a dolgozatába vagy jelentésébe

Az 1. és 2. lépésben fontos tartományi ismereteket fedezett fel és rögzített, amelyeket a modell kovariánskészletének megfelelő meghatározásához használt. Most fontos, hogy dokumentálja ezt a tudást. Az ok-okozati diagram most része a feltételezéseidnek.

Ez lehetővé teszi az olvasók számára (más kutatók vagy egyszerűen más érdekelt felek / jövőbeli projektcsapatok) megérteni, építeni vagy megkérdőjelezni az Ön feltételezéseit. Mindig módosíthatják az ok-okozati diagramot, és újra elemezhetik a rendszert, esetleg új adatokkal.

Legyél olyan, mint ez a srác:

Hol lehet többet megtudni

Sok nagyszerű forrás található az okságról.

  • "Brady Neal oksági következtetés tanfolyama"
  • „Okozati következtetés: Mi lenne, ha (a könyv)”, Miguel Hernan
  • Nick Huntington-Klein "A hatás: Bevezetés a kutatástervezésbe és az okozati összefüggésbe".
  • Aleksander Molak "Cusal Inference and Discovery book" vagy a "Cusal Python" levelezőlistája
  • „Az oksági következtetés első kurzusa”, Peng Ding
  • „Okozati következtetés – a keverőszalag” – Scott Cunningham
  • Nyugodtan tegyen fel kérdéseket a Reddit vagy StackExchange oldalra