Önfelügyelt, mélyreható tanulás (1. rész)

Előrelépések LeCun tortájának génoise-jában!

Mi ez az önfelügyelt tanulás, amit most mindenhol hallunk?

Az önfelügyelt tanulás egy újabb gépi tanulási módszer, de egy speciális ;) ahol a hálózat a megfigyelt tulajdonságok felhasználásával tanulja meg az adatok rejtett tulajdonságait, és hasznossá teszi a hálózatot számos más downstream felismerési feladathoz.

Kevesen tartják az SSL-t (self-supervised learning), a nem felügyelt tanulás egy altípusát. Én személy szerint úgy gondolom, hogy ez megtévesztő, mivel definíciója szerint a felügyelet nélküli tanulásnak ideális esetben egyáltalán nem kellene lennie felügyeletnek. Az SSL azonban sokkal több felügyeletet használ az adatokból, mint bármely felügyelt tanulási módszer. Bár a felügyelt tanulástól eltérően ez nem igényli az adatok emberi megjegyzésekkel való kiegészítését, így leküzdve a mesterséges intelligencia fejlesztésének fő szűk keresztmetszetét, mivel minden adat manuális címkézése nemcsak lehetetlen, de sok esetben nem is áll rendelkezésünkre elegendő adat a mélyreható képzéshez. tanulási hálózat. Így saját kategóriát adok neki.

Most, hogy van hozzávetőleges elképzelésünk arról, hogy mik az önfelügyelt hálózatok, merüljünk el mélyebben a fejlődésükben, a visszaesésekben és az idő múlásával történő fejlesztésekben. Mielőtt azonban ezt megtennénk, szeretnék egy pillanatra emlékeztetni bennünket a korszak egyik nagyszerű ML-tanácsára: mindig törekedj arra, hogy az edzést előre edzett súlyokkal kezdd a véletlenszerű inicializálás helyett! Valójában még akkor is, ha a céladat nem kapcsolódik az előre betanított adatokhoz. Maithra és munkatársai a közelmúltban megjelent „Transfusion” című tanulmányukban[1] megmutatták, milyen különbségek lehetnek az ImageNet által előképzett súlyok tudásának átadása az orvosi képek képzési hálózatába. Nem meglepő, hogy kedvenc SSL-ünk is átviteli tanulási elven működik :) Ennek tudatában folytassuk bejegyzésünket.

Az SSL-ben a hálózat előképzésére használt feladatokat pretext task-nak nevezik, azaz olyan feladatoknak, amelyek segítenek a hálózatnak megtanulni a címkézetlen adatok szélesebb, általánosabb jellemzőit, pl. Jigsaw-puzzles[6], context-prediction[7] stb. Az ezekből tanult paramétereket a hálózat finomhangolására használják downstream feladatokra, azaz érdekes feladatokra, pl. osztályozás vagy észlelés stb. Az SSL-t már jó ideje széles körben használják az NLP-ben, de az utóbbi időben a Computer Vision közösség is egyre nagyobb lendületet kapott. Az egyszerűség és a rövidség kedvéért a vitát az önéletrajz körül folytatom, hacsak másképp nem említjük.
Ez az, hogy kiképzünk hálózatot ürügyes feladatra, és finomhangoljuk a szükséges feladatunkra? Nemegy figyelmeztetést figyeltek meg az alapkódolót használó ürügyfeladat-oktatásnál. A hálózatok túlságosan specifikusak voltak azokra az ürügyfeladatokra, amelyekre betanították őket, és nem tanultak meg általános, feladat-átvihető funkciókat.

Ennek elkerülése érdekében kiterjedt adatkiegészítést alkalmaztak, ahol a képet és annak átalakításait hasonlóságvesztéssel adják át egy sziámi hálózatnak, ami arra kényszerítette a hálózatot, hogy az adatok robusztus megjelenítését hozza létre.

Szóval minden megoldódott? - Türelem, tanuljon meg egy másik hátrányt is!
Ha adatainkban egy osztály dominanciája van, a hálózat becsaphatja a veszteségfüggvényt, ha megtanulja a leggyakoribb reprezentációt. Ezt a problémát általában üzemmód-összeomlásnak nevezik.
Ishan Misra a New York-i egyetemen tartott „nagyon klassz előadásában” különféle legújabb módszerekről beszél, amelyek megpróbálják leküzdeni ezeket a problémákat. a két módszer közül:
- Hasonlóság maximalizálási technikák , ahol a hálózatok azon dolgoznak, hogy maximalizálják a hasonlóságot a sziámi hálózatokból kiadott jellemzők között. Ide tartozik a kontrasztív tanulás (CPC, PIRL, MoCo, SimCLR), a klaszterezés (DeepCluster, swAV, seLA) és a desztilláció (BYOL, SimSiam) .
– A közelmúltban kevés újság, például a „Barlow Twins” talált egy másik megközelítést, amelyet Redundanciacsökkentésnek neveznek, hogy leküzdjék a mód összeomlásának triviális megoldását.
Minden egyes módszert megvizsgálunk, hogyan különböznek a mód-összeomlás leküzdésének módjaiban a jövőbeli bejegyzésekben, de a kontrasztos tanulás. Annyi munka volt ezen a téren, hogy alig bírom megállni, hogy ebben a bejegyzésben kiadjak néhány cikket és véleményüket erről a módszerről.

Hmm, akkor mesélj még a kontrasztív tanulásról!

A kontrasztív önfelügyelt tanulás (CSL) egy olyan SSL-megközelítés, amelyben a hálózat megtanulja csoportosítani a hasonló adatokat, és a különböző adatokat egymástól távol, a rögzített és pozitív minták, illetve a rögzített és negatív minták közötti hasonlóság vagy eltérés mértékének használatával.

Más szóval, a CSL elkerüli a triviális megoldást veszteségfüggvény használatával, ahol hasonlóság(i, iT) › hasonlóság(i, j), iT az i- kép. Az em>augment, azi és aj két különböző készlet vagy javítás. Lássunk néhány korabeli áttörést jelentő papírt. Ezek az írások eddig a három fő CSL-mechanizmus egyikét követték – a végpontok közötti architektúrát, a memóriabankot és a momentumkódoló architektúrát.

"Kontrasztív prediktív kódolás" (CPC): A CPC megtanulja megjósolni a szekvenciális/idősoros adatok jövőjét azáltal, hogy autoregresszív modell segítségével összegzi a múltbeli adatok látens dimenzióit. Végpontok közötti architektúrát követ, testreszabott ResNet kódolóval. Kontrasztív veszteséget, azaz zajkontrasztív becslést (NCE) használ két minta (koszinusz) hasonlóságából a keresztentropia veszteség kiszámításához.
Főbb jellemzők:
- A kódoló a bemeneti sorozatot látens reprezentációkká alakítja, majd autoregresszív modellt követ. amely azután a kontextus látens reprezentációit állítja elő. [5]
- Bevezetett fedő alfoltok, amelyek felosztják a képet a képtranszformáció miatt, ami növeli a tételenkénti pozitív mintákat.
Hátrányok:
- A negatív mintákat egy kötegből veszik, és így nem általánosíthatóak megfelelően kivéve, ha a köteg méretét megnövelik, ami nehéz számításokat okoz.
- Az egyéni ResNet növeli a bonyolultságot, és tovább csökkenti az általánosítást.

„Pretext Invariant Representation Learning” (PIRL): Ahogy a neve is sugallja, ez a módszer robusztusabb jellemzőreprezentációkat próbál megtanulni azáltal, hogy ürügyfeladatot használ képtranszformációként, és arra kényszeríti a hálózatot, hogy invariáns legyen ezen átalakítások tekintetében. Követi a memóriabank architektúráját, ahol a negatív mintákat gyűjtik a memóriabankban. A CPC-hez hasonlóan a PIRL is NCE veszteségfüggvényt használ.
Fénypontok:
- Vetítőfejet ad a kódoló után, amelynek kimenete ezután a veszteségfüggvénybe kerül.
- Leküzdi a kötegtől való függőséget negatív esetén mintákat, így leválasztva a tételről.
Hátrányok:
- Hatalmas memóriabankot igényel negatív mintákból.
- A memóriabank kulcsai a múltbeli korszakok különböző kódolóitól származnak (mivel a lekérdezési kódoló folyamatosan frissíti a backpropagációt), ezért nem konzisztensek.
Ez a csodálatos bejegyzés a hálózatról szól.

„SimCLR” –végpontok közötti modellarchitektúra, amely mind a lekérdezést, mind a kulcshálózatot tanítja. A végpontok közötti megközelítés szerint a negatív minták a köteggel vannak összekapcsolva.
Fénypontok:
- Egyszerűbb architektúra, javulást mutat, ha több kiegészítést használnak, és nem lineáris réteget adnak a kódoló után.
- NT-Xent (normalizált hőmérséklet-skálázott keresztentropia veszteséget) használ, azaz NCE veszteséget a hőmérséklettel.
Hátrány:
- Mivel a negatív minták az aktuális kötegből származnak, a hálózat teljesítménye közvetlenül és nagyon magas függő tételméret. — A nagyobb kötegméretet a jobb teljesítmény érdekében több GPU-ra kell átfogni, így hatalmas számítási teljesítményre van szükség.
- Optimalizálási probléma a nagy kötegméret miatt, a hálózatok nem konvergálnak hamarabb.
Momentum Contrast (MoCo) – A hálózat azon túl, hogy összehasonlítja az adatokat a kötegből származó negatív mintákkal, szótárt vagy „előzményeket” is tart a lassan mozgó momentumkódolón keresztül látott adatokról.

Főbb jellemzők:
- A vizuális reprezentáció kódolójából származó lekérdezést (kimenetet) összehasonlítja a momentum kódoló szótári kulcsaival az InfoNCE veszteség funkció használatával.
- A kulcsok olyan kódolások, amelyeket lassan fejlődő kódoló tanul meg a vizuális megjelenítésből származó lendületfrissítésekkel (lekérdezés). ) kódoló.
- A szótár több kötegben eltávolítja a régi kulcsokat az újabb kulcsokkal. Ez szétválasztja a mintákat a kötegektől, így javítva a negatív párok minőségét.
- Javítja a memóriabank koncepcióját, megtakarítva a memóriahasználatot.

Hátrányok:
- Nem tanultunk helyi szintű reprezentációkat. Mivel a képeket egyetlen mintának tekintjük, a hálózat csak a globális szintű reprezentációt tanulja meg. A DetCo ezt azáltal oldja meg, hogy létrehozza a lokális-helyi és a helyi-globális veszteségfüggvényt.

Következtetés egy meglehetősen hosszú bejegyzéshez?

Az önfelügyelt technikák kétségtelenül egyre nagyobb lendületet kapnak a Computer Vision közösségben. A kontrasztív tanulás közelmúltbeli fejleményeinek bemutatására és az olvasmány rövidre és egyszerűségére tett erőfeszítésem során talán elhallgattam a bonyolultságokat. A Meta Research „Blogja” szórakoztató olvasmány az érdeklődők számára, hogy többet megtudjanak. William Falcon et al. részletesen leírja a fenti CSL-módszerek mindegyikét, és új megközelítéssel áll elő, a Yet Another DIM (YADIM) néven, olvassa el.

Köszönjük, hogy elolvasta ezt a bejegyzést. Hamarosan más módszerekkel is foglalkozunk majd.
Szeretnék köszönetet mondani a Ridecellnél dolgozó kollégáimnak, Arun Kumarnak és Gaurav Singhnek a támogatásukért. Üdvözölje az Auro csapatát, hogy együttműködnek a papírolvasó ülésekkel.

Kapcsolódó linkek:
[1] Maithra Raghu et al.
[2] „YADIM papír”, William Falcon et al.
[3] „MoCo papír”, Kaiming He et al.
[4] „https ://arxiv.org/pdf/2011.00362.pdf»
[5] CPC papír: https://arxiv.org/pdf/1807.03748.pdf
[6] Jigsaw puzzles : https://arxiv.org/pdf/1603.09246.pdf
[7] Context-prediction: https://arxiv.org/pdf/1505.05192.pdf
[ 8] Amit Chaudhary bejegyzése a PIRL-ről https://amitness.com/2020/03/illustrated-pirl/
[9] PIRL-papír: https:// arxiv.org/pdf/1912.01991.pdf

hasonló anyagok:

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS ChatGPT Javascript Development Statistics Data Golang Code Java Science Software DevOps Programming Languages Data Structures Open Source