Adatszivárgás a gépi tanulási modell életciklusában

Ebben a rövid cikkben az egyik leginkább figyelmen kívül hagyott problémáról fogok beszélni, amely az Adatszivárgás a Machine Learning Model Life Cycle-ben. Az adatszivárgás komoly problémát jelent a gépi tanulásban, amikor prediktív modellt fejlesztenek ki, amelyet megfelelően kell kezelni ahhoz, hogy robusztus és általánosított prediktív modellt kapjunk.

Ha Ön az adattudomány/gépi tanulás rajongója, akkor olvassa el ezt a cikket, mert ez az egyik legfontosabb fogalom, amelyet az adattudomány/gépi tanulás rajongójaként ismernie kell ahhoz, hogy felgyorsítsa adattudományi/gépi tanulási útját.

A témák, amelyekkel ebben a cikkben foglalkozni fogok, a következők:

· Mi az adatszivárgás?

· Hogyan történik adatszivárgás a gépi tanulási modell életciklusában?

· Hogyan lehet észlelni az adatszivárgást?

· Hogyan lehet kijavítani az adatszivárgási problémákat?

Mielőtt mélyen belemerülnénk az adatszivárgás problémájába, engedjék meg, hogy röviden áttekintsem a prediktív modellezés célját.

A prediktív modellezés célja

A prediktív modellezés célja egy olyan gépi tanulási (ML) modell kifejlesztése, amely pontos előrejelzéseket ad az új adatokról, amelyek nem láthatók a képzés során.

Ez egy nehéz probléma. Nehéz, mert nem tudjuk értékelni a modellt valami alapján, amivel nem rendelkezünk. Ezért meg kell becsülnünk a modell teljesítményét/pontosságát nem látott adatokon úgy, hogy csak a rendelkezésünkre álló adatok egy részét képezzük, és a többi adaton értékeljük.

Az Adatszivárgás az a forgatókönyv/helyzet, amikor a gépi tanulási modell a betanítás után már ismeri a tesztadatok egy részét.

Az adatszivárgás a gépi tanulásban egy olyan hibára utal, amelyet a gépi tanulási modell létrehozója követ el, és véletlenül megosztja az információkat a teszt és a betanítási adatkészlet között. Amikor egy adatkészletet tesztelési és betanítási készletekre osztanak fel, általában az a cél, hogy ne osszon adatot a két készlet között.

Mielőtt belevágnánk a vonat-teszt megosztott vitájába, először beszéljünk a keresztmetszeti adatokról és az idősorok adatairól. A keresztmetszeti és idősorokhoz gyűjtött adatok természetükben eltérőek.

1. A keresztmetszeti adatkészlet olyan adatkészlet, amelyben az összes adatot egy adott időpontban lévő adatként kezeli. Egyszerűen fogalmazva, tegyük fel, hogy van egy adatkészlete a maximális hőmérsékletről, a páratartalomról és a szélről különböző városokban – mindegyiket egy időpontban gyűjtötték össze, ezért az adatokat keresztmetszeti adatoknak tekintjük.

2. Az idősor adatkészlet olyan, ahol a megfigyelések időfüggőek. Például most tegyük fel, hogy egy kutató New York városában (egyetlen entitás) minden év első napján (több időközönként) gyűjti a maximális hőmérsékletet, páratartalmat és szelet. Az adatkészletben lévő megfigyelések időnként eltérőek lesznek.

Az adatszivárgásnak különböző okai vannak. Némelyikük nagyon nyilvánvaló, de néhányat első pillantásra nehezebb észrevenni. Ebben a bejegyzésben elmagyarázom az adatszivárgás okait, a félrevezetés módját, valamint az adatszivárgás észlelésének és elkerülésének módjait.

Az adatszivárgás kiváltó oka az adatok képzési és tesztelési részhalmazokra való felosztása, a tesztkészletben lévő adatok egy része szintén a vonatkészletbe másolódik, és fordítva.

Ennek eredményeként, ha ilyen típusú felosztással edzi a modelljét, az nagyon jó eredményeket fog hozni a vonaton és a tesztkészleten, azaz mind a képzési, mind a tesztelési pontosságnak magasnak kell lennie. Ha azonban éles üzembe helyezi a modellt, az nem fog jól teljesíteni, mert amikor új típusú adat érkezik, nem fogja tudni kezelni.

hasonló anyagok:

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS ChatGPT Javascript Development Statistics Data Golang Code Java Science Software DevOps Programming Languages Data Structures Open Source