Pix2Pix

Ez a cikk elmagyarázza a feltételes GAN-okkal való képről képre fordításról szóló népszerű tanulmány alapvető mechanizmusait, a Pix2Pixet, az alábbi hivatkozás a cikkre:

Képről képre fordítás feltételes ellenséges hálózatokkal
A feltételes ellenséges hálózatokat vizsgáljuk, mint általános célú megoldást a képről képre fordítási problémákra…arxiv .org

Cikkvázlat

I. Bevezetés

II. Kettős célú funkció ellenféllel és L1 veszteséggel

III. U-Net generátor

IV. PatchGAN diszkriminátor

V. Értékelés

Bevezetés

A képről képre fordítás egy másik példa arra a feladatra, amelyre a Generatív Adversarial Networks (GAN) tökéletesen alkalmas. Ezek olyan feladatok, amelyeknél szinte lehetetlen egy veszteségfüggvényt keményen kódolni. A GAN-okkal kapcsolatos legtöbb tanulmány új képszintézissel foglalkozik, egy véletlenszerű z vektorból képpé alakítva. A képről képre fordítás az egyik képet a másikká alakítja, például a fenti zacskó széleit fotóképpé. Az alábbiakban egy másik érdekes példa látható erre:

A képről képre fordítás olyan alkalmazásokban is hasznos, mint a színezés és a szuperfelbontás. A pix2pix algoritmusra jellemző megvalósítási ötletek közül azonban sok az új képszintézist tanulmányozók számára is releváns.

A fenti írásban a képből képbe fordítási architektúra nagyon magas szintű nézete látható. Sok képszintézis modellhez hasonlóan ez is feltételes GAN keretrendszert használ. Az x kondicionáló kép a generátor bemeneteként és a diszkriminátor bemeneteként kerül alkalmazásra.

Kettős célú funkció ellenféllel és L1 veszteséggel

A képről képre fordítás naiv módja az ellenséges keret teljes elvetése. A forrásképet csak egy paraméteres függvényen keresztül vezetnék át, és az eredményül kapott kép különbségét és a földi igazság kimenetét használnák fel a hálózat súlyainak frissítésére. Ennek a veszteségi függvénynek a szabványos távolságmérőkkel, például L1 és L2 segítségével történő tervezése azonban nem képes megragadni a képek közötti számos fontos megkülönböztető jellemzőt. A szerzők azonban találnak némi értéket az L1 veszteségfüggvénynek, mint az ellenséges veszteségfüggvény súlyozott oldalának.

A feltételes-ellenálló veszteség (generátor versus diszkriminátor) nagyon népszerű formázása a következő:

A korábban említett L1 veszteségfüggvény az alábbiakban látható:

Ezeknek a függvényeknek a kombinálása a következőket eredményezi:

A kísérletek során a szerzők arról számoltak be, hogy a 100-as lambda paraméterrel találták a legtöbb sikert.

U-Net generátor

A GAN generátorában használt U-Net architektúra nagyon érdekes eleme volt ennek a cikknek. Az Image Synthesis architektúrák jellemzően egy 100x1 méretű véletlenszerű vektort vesznek fel, egy sokkal nagyobb dimenziójú vektorba vetítik egy teljesen összekapcsolt réteggel, alakítják át, majd egy sor dekonvolúciós műveletet alkalmaznak a kívánt térbeli felbontás eléréséig. Ezzel szemben a pix2pix-ben lévő generátor egy automatikus kódolóra hasonlít.

A Generátor beveszi a lefordítandó képet, és alacsony dimenziós, „szűk keresztmetszetű” vektoros ábrázolássá tömöríti. A generátor ezután megtanulja, hogyan kell ezt a kimeneti képbe mintavételezni. Amint a fenti képen látható, érdemes megvizsgálni a szabványos kódoló-dekódoló szerkezet és az U-Net közötti különbségeket. Az U-Net hasonló a ResNethez abban a tekintetben, hogy a korábbi rétegekből származó információkat integrálják a későbbi rétegekbe. Az U-Net átugrási kapcsolatok azért is érdekesek, mert nem igényelnek átméretezést, vetítést stb., mivel az összekapcsolandó rétegek térbeli felbontása már egyezik egymással.

PatchGAN diszkriminátor

A pix2pixben használt PatchGAN diszkriminátor egy másik egyedi összetevője ennek a kialakításnak. A PatchGAN / Markovian diszkriminátor úgy működik, hogy a kép egyes (N x N) foltjait „valódi vs. hamis” kategóriába sorolja, szemben a teljes kép „valódi vs. hamis” minősítésével. A szerzők úgy érvelnek, hogy ez több megszorítást kényszerít ki, amelyek elősegítik az éles, nagyfrekvenciás részleteket. Ezenkívül a PatchGAN kevesebb paraméterrel rendelkezik, és gyorsabban fut, mint a teljes kép osztályozása. Az alábbi kép a besorolandó N x N foltok N méretével kísérletező eredményeket mutatja:

Értékelés

A GAN-kimenetek értékelése nehéz, és ennek számos különböző módja van. A pix2pix szerzői két különböző stratégiát alkalmaznak eredményeik értékelésére.

Az első stratégia az emberi pontozás alkalmazása. A valódi képeket és a pix2pix-szel készített képeket véletlenszerűen egymásra rakják, és az emberi pontozók minden képet valódinak vagy hamisnak minősítenek, miután 1 másodpercig látták. Ez az Amazon Mechanical Turk platform segítségével történik.

Egy másik értékelési stratégia, amelyet nagyon érdekesnek találtam, a szemantikus szegmentációs hálózat használata szintetikusan generált hálózaton. Ez analóg a GAN kimenetek egy másik nagyon népszerű kvantitatív értékelési mérőszámával, amely az „Inception Score” néven ismert, ahol a szintetizált képek minőségét egy előre betanított Kezdeti modell osztályozási képessége alapján értékelik.

Következtetések

A Pix2Pix egy nagyon érdekes stratégia a képről képre fordításhoz, amely az L1 távolság és az ellenséges veszteség kombinációját használja, valamint további újdonságokat a Generátor és a Diszkriminátor tervezésében. Köszönjük, hogy elolvasta, kérjük, tekintse meg a papírt a megvalósítás további részleteiért és a kísérleti eredmények magyarázatáért!

hasonló anyagok:

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS ChatGPT Javascript Development Statistics Data Golang Code Java Science Software DevOps Programming Languages Data Structures Open Source