1. Egységes vizuális kapcsolat-észlelés látás- és nyelvi modellekkel (arXiv)

Szerző: Long Zhao, Liangzhe Yuan, Boqing Gong, Yin Cui, Florian Schroff, Ming-Hsuan Yang, Hartwig Adam, Ting Liu

Absztrakt: Ez a munka egyetlen vizuális kapcsolatérzékelő betanítására összpontosít, amely előrejelzi a több adatkészletből származó címketerek egyesülését. A különböző adatkészletekre kiterjedő címkék egyesítése kihívást jelenthet a következetlen taxonómiák miatt. A probléma súlyosbodik a vizuális kapcsolatok észlelésében, amikor másodrendű vizuális szemantikát vezetnek be az objektumpárok között. Ennek a kihívásnak a megoldására javasoljuk az UniVRD-t, egy új, alulról felfelé építkező módszert az egységes vizuális kapcsolat-észleléshez a látás- és nyelvi modellek (VLM-ek) kihasználásával. A VLM-ek jól összehangolt kép- és szövegbeágyazást biztosítanak, ahol a hasonló kapcsolatokat úgy optimalizálták, hogy közel legyenek egymáshoz a szemantikai egységesítés érdekében. Alulról felfelé építkező kialakításunk lehetővé teszi, hogy a modell élvezze az objektumészlelési és vizuális kapcsolati adatkészletekkel végzett képzés előnyeit. Az ember-objektum interakciós észleléssel és a jelenet-gráf generálásával kapcsolatos empirikus eredmények modellünk versenyképes teljesítményét mutatják. Az UniVRD 38,07 mAP-t ér el a HICO-DET-en, relatíve 60%-kal felülmúlva a jelenlegi legjobb alulról felfelé irányuló HOI-érzékelőt. Ennél is fontosabb, hogy megmutatjuk, hogy egyesített detektorunk ugyanolyan jól teljesít a mAP-ban, mint az adatkészlet-specifikus modellek, és további fejlesztéseket ér el, ha felnagyítjuk a modellt.

2. Neurális üzenettovábbítás a vizuális kapcsolat észleléséhez (arXiv)

Szerző: Yue Hu, Siheng Chen, Xu Chen, Ya Zhang, Xiao Gu

Absztrakt: A vizuális kapcsolatérzékelés célja a képen lévő objektumok közötti kölcsönhatások észlelése; ez a feladat azonban a tárgyak és kölcsönhatások sokfélesége miatt kombinatorikus robbanásban szenved. Mivel az azonos objektumhoz tartozó interakciók függőek, megvizsgáljuk az interakciók függőségét, hogy csökkentsük a keresési teret. Explicit módon modellezzük az objektumokat és az interakciókat interakciós gráf segítségével, majd egy üzenetátadási stílusú algoritmust javasolunk a kontextuális információ terjesztésére. A javasolt módszert tehát neurális üzenettovábbításnak (NMP) nevezzük. Tovább integráljuk a nyelvi prioritásokat és a térbeli jelzéseket, hogy kizárjuk az irreális interakciókat és rögzítsük a térbeli interakciókat. Két benchmark adathalmazon végzett kísérleti eredmények bizonyítják a javasolt módszerünk jobbságát. Kódunk a https://github.com/PhyllisH/NMP címen érhető el