Ez a cikk elmagyarázza a feltételes GAN-okkal való képről képre fordításról szóló népszerű tanulmány alapvető mechanizmusait, a Pix2Pixet, az alábbi hivatkozás a cikkre:



Cikkvázlat

I. Bevezetés

II. Kettős célú funkció ellenféllel és L1 veszteséggel

III. U-Net generátor

IV. PatchGAN diszkriminátor

V. Értékelés

Bevezetés

A képről képre fordítás egy másik példa arra a feladatra, amelyre a Generatív Adversarial Networks (GAN) tökéletesen alkalmas. Ezek olyan feladatok, amelyeknél szinte lehetetlen egy veszteségfüggvényt keményen kódolni. A GAN-okkal kapcsolatos legtöbb tanulmány új képszintézissel foglalkozik, egy véletlenszerű z vektorból képpé alakítva. A képről képre fordítás az egyik képet a másikká alakítja, például a fenti zacskó széleit fotóképpé. Az alábbiakban egy másik érdekes példa látható erre:

A képről képre fordítás olyan alkalmazásokban is hasznos, mint a színezés és a szuperfelbontás. A pix2pix algoritmusra jellemző megvalósítási ötletek közül azonban sok az új képszintézist tanulmányozók számára is releváns.

A fenti írásban a képből képbe fordítási architektúra nagyon magas szintű nézete látható. Sok képszintézis modellhez hasonlóan ez is feltételes GAN keretrendszert használ. Az x kondicionáló kép a generátor bemeneteként és a diszkriminátor bemeneteként kerül alkalmazásra.

Kettős célú funkció ellenféllel és L1 veszteséggel

A képről képre fordítás naiv módja az ellenséges keret teljes elvetése. A forrásképet csak egy paraméteres függvényen keresztül vezetnék át, és az eredményül kapott kép különbségét és a földi igazság kimenetét használnák fel a hálózat súlyainak frissítésére. Ennek a veszteségi függvénynek a szabványos távolságmérőkkel, például L1 és L2 segítségével történő tervezése azonban nem képes megragadni a képek közötti számos fontos megkülönböztető jellemzőt. A szerzők azonban találnak némi értéket az L1 veszteségfüggvénynek, mint az ellenséges veszteségfüggvény súlyozott oldalának.

A feltételes-ellenálló veszteség (generátor versus diszkriminátor) nagyon népszerű formázása a következő:

A korábban említett L1 veszteségfüggvény az alábbiakban látható:

Ezeknek a függvényeknek a kombinálása a következőket eredményezi:

A kísérletek során a szerzők arról számoltak be, hogy a 100-as lambda paraméterrel találták a legtöbb sikert.

U-Net generátor

A GAN generátorában használt U-Net architektúra nagyon érdekes eleme volt ennek a cikknek. Az Image Synthesis architektúrák jellemzően egy 100x1 méretű véletlenszerű vektort vesznek fel, egy sokkal nagyobb dimenziójú vektorba vetítik egy teljesen összekapcsolt réteggel, alakítják át, majd egy sor dekonvolúciós műveletet alkalmaznak a kívánt térbeli felbontás eléréséig. Ezzel szemben a pix2pix-ben lévő generátor egy automatikus kódolóra hasonlít.

A Generátor beveszi a lefordítandó képet, és alacsony dimenziós, „szűk keresztmetszetű” vektoros ábrázolássá tömöríti. A generátor ezután megtanulja, hogyan kell ezt a kimeneti képbe mintavételezni. Amint a fenti képen látható, érdemes megvizsgálni a szabványos kódoló-dekódoló szerkezet és az U-Net közötti különbségeket. Az U-Net hasonló a ResNethez abban a tekintetben, hogy a korábbi rétegekből származó információkat integrálják a későbbi rétegekbe. Az U-Net átugrási kapcsolatok azért is érdekesek, mert nem igényelnek átméretezést, vetítést stb., mivel az összekapcsolandó rétegek térbeli felbontása már egyezik egymással.

PatchGAN diszkriminátor

A pix2pixben használt PatchGAN diszkriminátor egy másik egyedi összetevője ennek a kialakításnak. A PatchGAN / Markovian diszkriminátor úgy működik, hogy a kép egyes (N x N) foltjait „valódi vs. hamis” kategóriába sorolja, szemben a teljes kép „valódi vs. hamis” minősítésével. A szerzők úgy érvelnek, hogy ez több megszorítást kényszerít ki, amelyek elősegítik az éles, nagyfrekvenciás részleteket. Ezenkívül a PatchGAN kevesebb paraméterrel rendelkezik, és gyorsabban fut, mint a teljes kép osztályozása. Az alábbi kép a besorolandó N x N foltok N méretével kísérletező eredményeket mutatja:

Értékelés

A GAN-kimenetek értékelése nehéz, és ennek számos különböző módja van. A pix2pix szerzői két különböző stratégiát alkalmaznak eredményeik értékelésére.

Az első stratégia az emberi pontozás alkalmazása. A valódi képeket és a pix2pix-szel készített képeket véletlenszerűen egymásra rakják, és az emberi pontozók minden képet valódinak vagy hamisnak minősítenek, miután 1 másodpercig látták. Ez az Amazon Mechanical Turk platform segítségével történik.

Egy másik értékelési stratégia, amelyet nagyon érdekesnek találtam, a szemantikus szegmentációs hálózat használata szintetikusan generált hálózaton. Ez analóg a GAN kimenetek egy másik nagyon népszerű kvantitatív értékelési mérőszámával, amely az „Inception Score” néven ismert, ahol a szintetizált képek minőségét egy előre betanított Kezdeti modell osztályozási képessége alapján értékelik.

Következtetések

A Pix2Pix egy nagyon érdekes stratégia a képről képre fordításhoz, amely az L1 távolság és az ellenséges veszteség kombinációját használja, valamint további újdonságokat a Generátor és a Diszkriminátor tervezésében. Köszönjük, hogy elolvasta, kérjük, tekintse meg a papírt a megvalósítás további részleteiért és a kísérleti eredmények magyarázatáért!