Lickety Split felülvizsgálata

arXiv:2206.11253

Probléma: A jelenlegi GAN korábbi alapú BFR-modellek alacsony hűségű eredményeket biztosítanak erősen leromlott képeken.

Megoldás:
• Ismerje meg az előzményeket egy kis, diszkrét kódkönyvterületen
• Alkalmazza a Transformert a kódolt arcvonások kódkönyvbe való leképezéséhez

Ezután a munka fő gondolata az, hogy jobb robusztusságot biztosítson a súlyosan leromlott arcoknak, mint a jelenlegi GAN-alapú modellek (mint például GFPGAN vagy <) em>GPEN). A szerzők ezt úgy teszik meg, hogy a folytonos prior tér bizonytalanságát diszkrétté teszik. Ehhez először előtanítjuk a VQ-VAE-t, hogy megtanulja az atomi arcpriorokat tartalmazó diszkrét Kódkönyvet, majd ezt követően lefagyasztva tartjuk a VQ-VAE kódkönyvét és dekóderét a következő lépéshez. Ezt követően a nagyonCodeFormer modellt betanítjuk, és bizonyos értelemben a BFR-feladatot kód-előrejelzési feladatra cseréljük. Tehát a CodeFormer egy kódoló-dekódoló modell, amely rendelkezik LQ kódolóval, fagyasztott HQ dekóderrel és a „Transformer” leképezési kódolt jellemzőkkel a lefagyasztott kódkönyv arckódjaihoz. A Transformer használatának egyetlen célja van: a hosszú távú arcvonások visszaállítása a Kódkönyvből. És ha a VQ-VAE-t kép- és kódszintű veszteségekkel is előtanítjuk, a CodeFormer csak kódszintű veszteségekkel van betanítva. Ezt követően betanítunk egy úgynevezett Controllable Feature Transformation (CFT) modult, amely lehetővé teszi az archűség és a részletek közötti csúszást, akárcsak a GCFSR.

IMHO: az ötlet nagyszerű; az a tény, hogy hozzáadják a CFT-t, szintén nagyszerű; Szeretnék több elemzést látni a Codebook látens térről.

Szia mindenkinek! A „Lickety Split Review” célja, hogy néhány perc alatt képet adjon arról, miről szól egy tanulmány: kiemeljük a szerzők problémáit, megmutatjuk, hogyan oldják meg őket, beszélünk az újdonságokról, és szerény véleményünket is elmondjuk róla. .