Ebben a rövid cikkben az egyik leginkább figyelmen kívül hagyott problémáról fogok beszélni, amely az Adatszivárgás a Machine Learning Model Life Cycle-ben. Az adatszivárgás komoly problémát jelent a gépi tanulásban, amikor prediktív modellt fejlesztenek ki, amelyet megfelelően kell kezelni ahhoz, hogy robusztus és általánosított prediktív modellt kapjunk.

Ha Ön az adattudomány/gépi tanulás rajongója, akkor olvassa el ezt a cikket, mert ez az egyik legfontosabb fogalom, amelyet az adattudomány/gépi tanulás rajongójaként ismernie kell ahhoz, hogy felgyorsítsa adattudományi/gépi tanulási útját.

A témák, amelyekkel ebben a cikkben foglalkozni fogok, a következők:

· Mi az adatszivárgás?

· Hogyan történik adatszivárgás a gépi tanulási modell életciklusában?

· Hogyan lehet észlelni az adatszivárgást?

· Hogyan lehet kijavítani az adatszivárgási problémákat?

Mielőtt mélyen belemerülnénk az adatszivárgás problémájába, engedjék meg, hogy röviden áttekintsem a prediktív modellezés célját.

A prediktív modellezés célja

A prediktív modellezés célja egy olyan gépi tanulási (ML) modell kifejlesztése, amely pontos előrejelzéseket ad az új adatokról, amelyek nem láthatók a képzés során.

Ez egy nehéz probléma. Nehéz, mert nem tudjuk értékelni a modellt valami alapján, amivel nem rendelkezünk. Ezért meg kell becsülnünk a modell teljesítményét/pontosságát nem látott adatokon úgy, hogy csak a rendelkezésünkre álló adatok egy részét képezzük, és a többi adaton értékeljük.

Az Adatszivárgás az a forgatókönyv/helyzet, amikor a gépi tanulási modell a betanítás után már ismeri a tesztadatok egy részét.

Az adatszivárgás a gépi tanulásban egy olyan hibára utal, amelyet a gépi tanulási modell létrehozója követ el, és véletlenül megosztja az információkat a teszt és a betanítási adatkészlet között. Amikor egy adatkészletet tesztelési és betanítási készletekre osztanak fel, általában az a cél, hogy ne osszon adatot a két készlet között.

Mielőtt belevágnánk a vonat-teszt megosztott vitájába, először beszéljünk a keresztmetszeti adatokról és az idősorok adatairól. A keresztmetszeti és idősorokhoz gyűjtött adatok természetükben eltérőek.

1. A keresztmetszeti adatkészlet olyan adatkészlet, amelyben az összes adatot egy adott időpontban lévő adatként kezeli. Egyszerűen fogalmazva, tegyük fel, hogy van egy adatkészlete a maximális hőmérsékletről, a páratartalomról és a szélről különböző városokban – mindegyiket egy időpontban gyűjtötték össze, ezért az adatokat keresztmetszeti adatoknak tekintjük.

2. Az idősor adatkészlet olyan, ahol a megfigyelések időfüggőek. Például most tegyük fel, hogy egy kutató New York városában (egyetlen entitás) minden év első napján (több időközönként) gyűjti a maximális hőmérsékletet, páratartalmat és szelet. Az adatkészletben lévő megfigyelések időnként eltérőek lesznek.

Az adatszivárgásnak különböző okai vannak. Némelyikük nagyon nyilvánvaló, de néhányat első pillantásra nehezebb észrevenni. Ebben a bejegyzésben elmagyarázom az adatszivárgás okait, a félrevezetés módját, valamint az adatszivárgás észlelésének és elkerülésének módjait.

Az adatszivárgás kiváltó oka az adatok képzési és tesztelési részhalmazokra való felosztása, a tesztkészletben lévő adatok egy része szintén a vonatkészletbe másolódik, és fordítva.

Ennek eredményeként, ha ilyen típusú felosztással edzi a modelljét, az nagyon jó eredményeket fog hozni a vonaton és a tesztkészleten, azaz mind a képzési, mind a tesztelési pontosságnak magasnak kell lennie. Ha azonban éles üzembe helyezi a modellt, az nem fog jól teljesíteni, mert amikor új típusú adat érkezik, nem fogja tudni kezelni.