Előrelépések LeCun tortájának génoise-jában!

Mi ez az önfelügyelt tanulás, amit most mindenhol hallunk?

Az önfelügyelt tanulás egy újabb gépi tanulási módszer, de egy speciális ;) ahol a hálózat a megfigyelt tulajdonságok felhasználásával tanulja meg az adatok rejtett tulajdonságait, és hasznossá teszi a hálózatot számos más downstream felismerési feladathoz.

Kevesen tartják az SSL-t (self-supervised learning), a nem felügyelt tanulás egy altípusát. Én személy szerint úgy gondolom, hogy ez megtévesztő, mivel definíciója szerint a felügyelet nélküli tanulásnak ideális esetben egyáltalán nem kellene lennie felügyeletnek. Az SSL azonban sokkal több felügyeletet használ az adatokból, mint bármely felügyelt tanulási módszer. Bár a felügyelt tanulástól eltérően ez nem igényli az adatok emberi megjegyzésekkel való kiegészítését, így leküzdve a mesterséges intelligencia fejlesztésének fő szűk keresztmetszetét, mivel minden adat manuális címkézése nemcsak lehetetlen, de sok esetben nem is áll rendelkezésünkre elegendő adat a mélyreható képzéshez. tanulási hálózat. Így saját kategóriát adok neki.

Most, hogy van hozzávetőleges elképzelésünk arról, hogy mik az önfelügyelt hálózatok, merüljünk el mélyebben a fejlődésükben, a visszaesésekben és az idő múlásával történő fejlesztésekben. Mielőtt azonban ezt megtennénk, szeretnék egy pillanatra emlékeztetni bennünket a korszak egyik nagyszerű ML-tanácsára: mindig törekedj arra, hogy az edzést előre edzett súlyokkal kezdd a véletlenszerű inicializálás helyett! Valójában még akkor is, ha a céladat nem kapcsolódik az előre betanított adatokhoz. Maithra és munkatársai a közelmúltban megjelent „Transfusion” című tanulmányukban[1] megmutatták, milyen különbségek lehetnek az ImageNet által előképzett súlyok tudásának átadása az orvosi képek képzési hálózatába. Nem meglepő, hogy kedvenc SSL-ünk is átviteli tanulási elven működik :) Ennek tudatában folytassuk bejegyzésünket.

Az SSL-ben a hálózat előképzésére használt feladatokat pretext task-nak nevezik, azaz olyan feladatoknak, amelyek segítenek a hálózatnak megtanulni a címkézetlen adatok szélesebb, általánosabb jellemzőit, pl. Jigsaw-puzzles[6], context-prediction[7] stb. Az ezekből tanult paramétereket a hálózat finomhangolására használják downstream feladatokra, azaz érdekes feladatokra, pl. osztályozás vagy észlelés stb. Az SSL-t már jó ideje széles körben használják az NLP-ben, de az utóbbi időben a Computer Vision közösség is egyre nagyobb lendületet kapott. Az egyszerűség és a rövidség kedvéért a vitát az önéletrajz körül folytatom, hacsak másképp nem említjük.
Ez az, hogy kiképzünk hálózatot ürügyes feladatra, és finomhangoljuk a szükséges feladatunkra? Nemegy figyelmeztetést figyeltek meg az alapkódolót használó ürügyfeladat-oktatásnál. A hálózatok túlságosan specifikusak voltak azokra az ürügyfeladatokra, amelyekre betanították őket, és nem tanultak meg általános, feladat-átvihető funkciókat.

Ennek elkerülése érdekében kiterjedt adatkiegészítést alkalmaztak, ahol a képet és annak átalakításait hasonlóságvesztéssel adják át egy sziámi hálózatnak, ami arra kényszerítette a hálózatot, hogy az adatok robusztus megjelenítését hozza létre.

Szóval minden megoldódott? - Türelem, tanuljon meg egy másik hátrányt is!
Ha adatainkban egy osztály dominanciája van, a hálózat becsaphatja a veszteségfüggvényt, ha megtanulja a leggyakoribb reprezentációt. Ezt a problémát általában üzemmód-összeomlásnak nevezik.
Ishan Misra a New York-i egyetemen tartott „nagyon klassz előadásában” különféle legújabb módszerekről beszél, amelyek megpróbálják leküzdeni ezeket a problémákat. a két módszer közül:
- Hasonlóság maximalizálási technikák , ahol a hálózatok azon dolgoznak, hogy maximalizálják a hasonlóságot a sziámi hálózatokból kiadott jellemzők között. Ide tartozik a kontrasztív tanulás (CPC, PIRL, MoCo, SimCLR), a klaszterezés (DeepCluster, swAV, seLA) és a desztilláció (BYOL, SimSiam) .
– A közelmúltban kevés újság, például a „Barlow Twins” talált egy másik megközelítést, amelyet Redundanciacsökkentésnek neveznek, hogy leküzdjék a mód összeomlásának triviális megoldását.
Minden egyes módszert megvizsgálunk, hogyan különböznek a mód-összeomlás leküzdésének módjaiban a jövőbeli bejegyzésekben, de a kontrasztos tanulás. Annyi munka volt ezen a téren, hogy alig bírom megállni, hogy ebben a bejegyzésben kiadjak néhány cikket és véleményüket erről a módszerről.

Hmm, akkor mesélj még a kontrasztív tanulásról!

A kontrasztív önfelügyelt tanulás (CSL) egy olyan SSL-megközelítés, amelyben a hálózat megtanulja csoportosítani a hasonló adatokat, és a különböző adatokat egymástól távol, a rögzített és pozitív minták, illetve a rögzített és negatív minták közötti hasonlóság vagy eltérés mértékének használatával.

Más szóval, a CSL elkerüli a triviális megoldást veszteségfüggvény használatával, ahol hasonlóság(i, iT) › hasonlóság(i, j), iT az i- kép. Az em>augment, azi és aj két különböző készlet vagy javítás. Lássunk néhány korabeli áttörést jelentő papírt. Ezek az írások eddig a három fő CSL-mechanizmus egyikét követték – a végpontok közötti architektúrát, a memóriabankot és a momentumkódoló architektúrát.

  • "Kontrasztív prediktív kódolás" (CPC): A CPC megtanulja megjósolni a szekvenciális/idősoros adatok jövőjét azáltal, hogy autoregresszív modell segítségével összegzi a múltbeli adatok látens dimenzióit. Végpontok közötti architektúrát követ, testreszabott ResNet kódolóval. Kontrasztív veszteséget, azaz zajkontrasztív becslést (NCE) használ két minta (koszinusz) hasonlóságából a keresztentropia veszteség kiszámításához.
    Főbb jellemzők:
    - A kódoló a bemeneti sorozatot látens reprezentációkká alakítja, majd autoregresszív modellt követ. amely azután a kontextus látens reprezentációit állítja elő. [5]
    - Bevezetett fedő alfoltok, amelyek felosztják a képet a képtranszformáció miatt, ami növeli a tételenkénti pozitív mintákat.
    Hátrányok:
    - A negatív mintákat egy kötegből veszik, és így nem általánosíthatóak megfelelően kivéve, ha a köteg méretét megnövelik, ami nehéz számításokat okoz.
    - Az egyéni ResNet növeli a bonyolultságot, és tovább csökkenti az általánosítást.

  • „Pretext Invariant Representation Learning” (PIRL): Ahogy a neve is sugallja, ez a módszer robusztusabb jellemzőreprezentációkat próbál megtanulni azáltal, hogy ürügyfeladatot használ képtranszformációként, és arra kényszeríti a hálózatot, hogy invariáns legyen ezen átalakítások tekintetében. Követi a memóriabank architektúráját, ahol a negatív mintákat gyűjtik a memóriabankban. A CPC-hez hasonlóan a PIRL is NCE veszteségfüggvényt használ.
    Fénypontok:
    - Vetítőfejet ad a kódoló után, amelynek kimenete ezután a veszteségfüggvénybe kerül.
    - Leküzdi a kötegtől való függőséget negatív esetén mintákat, így leválasztva a tételről.
    Hátrányok:
    - Hatalmas memóriabankot igényel negatív mintákból.
    - A memóriabank kulcsai a múltbeli korszakok különböző kódolóitól származnak (mivel a lekérdezési kódoló folyamatosan frissíti a backpropagációt), ezért nem konzisztensek.
    Ez a csodálatos bejegyzés a hálózatról szól.

  • „SimCLR” –végpontok közötti modellarchitektúra, amely mind a lekérdezést, mind a kulcshálózatot tanítja. A végpontok közötti megközelítés szerint a negatív minták a köteggel vannak összekapcsolva.
    Fénypontok:
    - Egyszerűbb architektúra, javulást mutat, ha több kiegészítést használnak, és nem lineáris réteget adnak a kódoló után.
    - NT-Xent (normalizált hőmérséklet-skálázott keresztentropia veszteséget) használ, azaz NCE veszteséget a hőmérséklettel.
    Hátrány:
    - Mivel a negatív minták az aktuális kötegből származnak, a hálózat teljesítménye közvetlenül és nagyon magas függő tételméret. — A nagyobb kötegméretet a jobb teljesítmény érdekében több GPU-ra kell átfogni, így hatalmas számítási teljesítményre van szükség.
    - Optimalizálási probléma a nagy kötegméret miatt, a hálózatok nem konvergálnak hamarabb.
  • Momentum Contrast (MoCo) – A hálózat azon túl, hogy összehasonlítja az adatokat a kötegből származó negatív mintákkal, szótárt vagy „előzményeket” is tart a lassan mozgó momentumkódolón keresztül látott adatokról.

Főbb jellemzők:
- A vizuális reprezentáció kódolójából származó lekérdezést (kimenetet) összehasonlítja a momentum kódoló szótári kulcsaival az InfoNCE veszteség funkció használatával.
- A kulcsok olyan kódolások, amelyeket lassan fejlődő kódoló tanul meg a vizuális megjelenítésből származó lendületfrissítésekkel (lekérdezés). ) kódoló.
- A szótár több kötegben eltávolítja a régi kulcsokat az újabb kulcsokkal. Ez szétválasztja a mintákat a kötegektől, így javítva a negatív párok minőségét.
- Javítja a memóriabank koncepcióját, megtakarítva a memóriahasználatot.

Hátrányok:
- Nem tanultunk helyi szintű reprezentációkat. Mivel a képeket egyetlen mintának tekintjük, a hálózat csak a globális szintű reprezentációt tanulja meg. A DetCo ezt azáltal oldja meg, hogy létrehozza a lokális-helyi és a helyi-globális veszteségfüggvényt.

Következtetés egy meglehetősen hosszú bejegyzéshez?

Az önfelügyelt technikák kétségtelenül egyre nagyobb lendületet kapnak a Computer Vision közösségben. A kontrasztív tanulás közelmúltbeli fejleményeinek bemutatására és az olvasmány rövidre és egyszerűségére tett erőfeszítésem során talán elhallgattam a bonyolultságokat. A Meta Research „Blogja” szórakoztató olvasmány az érdeklődők számára, hogy többet megtudjanak. William Falcon et al. részletesen leírja a fenti CSL-módszerek mindegyikét, és új megközelítéssel áll elő, a Yet Another DIM (YADIM) néven, olvassa el.

Köszönjük, hogy elolvasta ezt a bejegyzést. Hamarosan más módszerekkel is foglalkozunk majd.
Szeretnék köszönetet mondani a Ridecellnél dolgozó kollégáimnak, Arun Kumarnak és Gaurav Singhnek a támogatásukért. Üdvözölje az Auro csapatát, hogy együttműködnek a papírolvasó ülésekkel.

Kapcsolódó linkek:
[1] Maithra Raghu et al.
[2] „YADIM papír”, William Falcon et al.
[3] „MoCo papír”, Kaiming He et al.
[4] „https ://arxiv.org/pdf/2011.00362.pdf»
[5] CPC papír: https://arxiv.org/pdf/1807.03748.pdf
[6] Jigsaw puzzles : https://arxiv.org/pdf/1603.09246.pdf
[7] Context-prediction: https://arxiv.org/pdf/1505.05192.pdf
[ 8] Amit Chaudhary bejegyzése a PIRL-ről https://amitness.com/2020/03/illustrated-pirl/
[9] PIRL-papír: https:// arxiv.org/pdf/1912.01991.pdf