1. ResMatch: Residual Attention Learning for Local Feature Matching (arXiv)

Szerző: Yuxin Deng, Jiayi Ma

Absztrakt: A figyelem alapú gráf neurális hálózatok nagy előrehaladást értek el a jellemzőillesztés tanulásában. A szakirodalom azonban nem ismeri, hogyan működik a figyelemmechanizmus a jellemzők illesztésénél. Ebben a cikkben újragondoljuk a kereszt- és önfigyelmet a hagyományos jellemzőillesztés és -szűrés szempontjából. Az illesztés és szűrés megtanulásának megkönnyítése érdekében a leírók és a relatív pozíciók hasonlóságát a kereszt-, illetve az önfigyelem pontszámba illesztjük. Ily módon a figyelem a reziduális illesztési és szűrési függvények tanulására összpontosulhat a vizuális és térbeli korreláció mérésének alapvető funkcióira hivatkozva. Sőt, a leírók és a relatív pozíciók hasonlósága szerint bányászunk belső és inter-szomszédokat. Ekkor az egyes pontokra vonatkozó ritka figyelem csak a szomszédságában végezhető el a nagyobb számítási hatékonyság elérése érdekében. A teljes és ritka maradékfigyelem tanulási stratégiáinkkal felszerelt jellemzőillesztő hálózatokat ResMatch-nek, illetve sResMatch-nek nevezik. Kiterjedt kísérletek, beleértve a funkciók illesztését, a pózbecslést és a vizuális lokalizációt, megerősítik hálózataink felsőbbrendűségét

2. Funkcióegyeztetés tanulása Matchable Keypoint-Assisted Graph Neural Network (arXiv) segítségével

Szerző: Zizhuo Li, Jiayi Ma

Absztrakt: A helyi jellemzők pontos egyeztetése egy képpár között kihívást jelent a számítógépes látás számára. A korábbi tanulmányok jellemzően figyelem alapú gráfneurális hálózatokat (GNN-eket) használnak teljesen összekapcsolt gráfokkal a képeken belüli/keresztező kulcspontokon a vizuális és geometriai információs érveléshez. A jellemzőillesztés összefüggésében azonban jelentős kulcspontok nem ismételhetők meg az érzékelő elzáródása és meghibásodása miatt, és így az üzenettovábbítás szempontjából irrelevánsak. A nem megismételhető kulcspontokkal való kapcsolat nem csak redundanciát vezet be, ami korlátozott hatékonyságot eredményez, hanem zavarja a reprezentációs aggregációs folyamatot is, ami korlátozott pontossághoz vezet. A nagy pontosságot és hatékonyságot célozva a MaKeGNN-t javasoljuk, egy kevés figyelem alapú GNN-architektúrát, amely megkerüli a nem megismételhető kulcspontokat, és felhasználja az összeegyeztethető kulcspontokat, hogy irányítsa a kompakt és értelmes üzenettovábbítást. Pontosabban, a kétoldalú kontextus-tudatos mintavételi modulunk először dinamikusan mintát vesz a jól elosztott kulcspontok két kis készletéből, magas egyeztetési pontszámokkal a képpárból. Ezután a Matchable Keypoint Assisted Context Aggregation Modulunk a mintavételezett informatív kulcspontokat az üzenet szűk keresztmetszeteinek tekinti, és így az egyes kulcspontokat csak arra korlátozza, hogy kedvező kontextuális információkat nyerjenek ki az intra- és egymással egyeztethető kulcspontokból, elkerülve az irreleváns és redundáns kapcsolódás interferenciáját a nem megismételhető kulcspontokkal. . Ezen túlmenően, figyelembe véve a kezdeti kulcspontokban és a mintavételezett illesztőpontokban a lehetséges zajt, az MKACA modul egy illesztési vezérelt figyelem-aggregációs műveletet alkalmaz a tisztább adatfüggő kontextus terjedése érdekében. Ezekkel az eszközökkel a legmodernebb teljesítményt érjük el a relatív kamerabecslés, az alapvető mátrixbecslés és a vizuális lokalizáció terén, miközben jelentősen csökkentjük a számítási és memória bonyolultságát a tipikus figyelmi GNN-ekhez képest.