Hogyan működik a vizuális kapcsolatészlelés, 1. rész (gépi tanulás)

Egységes vizuális kapcsolat-észlelés látás- és nyelvi modellekkel (arXiv)

Szerző: Long Zhao, Liangzhe Yuan, Boqing Gong, Yin Cui, Florian Schroff, Ming-Hsuan Yang, Hartwig Adam, Ting Liu

Absztrakt: Ez a munka egyetlen vizuális kapcsolatérzékelő betanítására összpontosít, amely előrejelzi a több adatkészletből származó címketerek egyesülését. A különböző adatkészletekre kiterjedő címkék egyesítése kihívást jelenthet a következetlen taxonómiák miatt. A probléma súlyosbodik a vizuális kapcsolatok észlelésében, amikor másodrendű vizuális szemantikát vezetnek be az objektumpárok között. Ennek a kihívásnak a megoldására javasoljuk az UniVRD-t, egy új, alulról felfelé építkező módszert az egységes vizuális kapcsolat-észleléshez a látás- és nyelvi modellek (VLM-ek) kihasználásával. A VLM-ek jól összehangolt kép- és szövegbeágyazást biztosítanak, ahol a hasonló kapcsolatokat úgy optimalizálták, hogy közel legyenek egymáshoz a szemantikai egységesítés érdekében. Alulról felfelé építkező kialakításunk lehetővé teszi, hogy a modell élvezze az objektumészlelési és vizuális kapcsolati adatkészletekkel végzett képzés előnyeit. Az ember-objektum interakciós észleléssel és a jelenet-gráf generálásával kapcsolatos empirikus eredmények modellünk versenyképes teljesítményét mutatják. Az UniVRD 38,07 mAP-t ér el a HICO-DET-en, relatíve 60%-kal felülmúlva a jelenlegi legjobb alulról felfelé irányuló HOI-érzékelőt. Ennél is fontosabb, hogy megmutatjuk, hogy egyesített detektorunk ugyanolyan jól teljesít a mAP-ban, mint az adatkészlet-specifikus modellek, és további fejlesztéseket ér el, ha felnagyítjuk a modellt.

2. Neurális üzenettovábbítás a vizuális kapcsolat észleléséhez (arXiv)

Szerző: Yue Hu, Siheng Chen, Xu Chen, Ya Zhang, Xiao Gu

Absztrakt: A vizuális kapcsolatérzékelés célja a képen lévő objektumok közötti kölcsönhatások észlelése; ez a feladat azonban a tárgyak és kölcsönhatások sokfélesége miatt kombinatorikus robbanásban szenved. Mivel az azonos objektumhoz tartozó interakciók függőek, megvizsgáljuk az interakciók függőségét, hogy csökkentsük a keresési teret. Explicit módon modellezzük az objektumokat és az interakciókat interakciós gráf segítségével, majd egy üzenetátadási stílusú algoritmust javasolunk a kontextuális információ terjesztésére. A javasolt módszert tehát neurális üzenettovábbításnak (NMP) nevezzük. Tovább integráljuk a nyelvi prioritásokat és a térbeli jelzéseket, hogy kizárjuk az irreális interakciókat és rögzítsük a térbeli interakciókat. Két benchmark adathalmazon végzett kísérleti eredmények bizonyítják a javasolt módszerünk jobbságát. Kódunk a https://github.com/PhyllisH/NMP címen érhető el

hasonló anyagok:

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript CSS Python Programming Data ChatGPT Javascript Development Statistics Java Science Golang Code DevOps Programming Languages Data Structures Open Source Software