[RL] Egyszerű, felmerülő cselekvési ábrázolások a többfeladatos politikai képzésből (ICLR23)

Papírhivatkozás: „Egyszerű, felmerülő cselekvési nyilatkozatok a többfeladatos politikai képzésből”

Projektoldal: „Egyszerű, felmerülő cselekvési ábrázolások a többfeladatos politikai képzésből”

Kód: Egyszerű felmerülő cselekvési jelek a többfeladatos politikai képzésből

Kulcs ötletek

A tanulmány a többfeladatos szakpolitikai tréning alkalmazását javasolja a felmerülő cselekvési reprezentációk megtanulására, amelyek újra felhasználhatók különféle downstream feladatokhoz.
A módszer magában foglalja a házirend-hálózat képzését több feladatra, ahol minden feladatnak külön látens feladatbeágyazása (LTE) van. A házirend-hálózat a feladatok között megoszt egy kódolót, dekódert és állapotábrázolásokat.
A különféle feladatokra való képzést követően az LTE-k folyamatos felbukkanó cselekvési reprezentációs teret alkotnak. Új LTE-k generálhatók interpolációval vagy betanított LTE-k összeállításával, hogy új viselkedést hozzanak létre.
Az akcióábrázolások értelmes geometriai struktúrát mutatnak, hasonló feladatokat csoportosítva. A vizualizáció azt mutatja, hogy az LTE tér folyamatos gömböt alkot.
Ablációkat végeztek, amelyek megmutatták az edzés közbeni zaj befecskendezésének és az LTE-k normalizálásának előnyeit. Az alapvonalakkal való összehasonlítás a tanulási cselekvésreprezentációk hatékonyságát mutatja.
Összességében a munka kezdeti bizonyítékot szolgáltat arra vonatkozóan, hogy a felbukkanó cselekvésreprezentációk hatékony és alkalmazkodó RL-t tesznek lehetővé, alapot képezve az absztrakt akciótervezéshez és a motoros jeltér megértéséhez.

Módszer

Multi-Task Policy Network Architecture

A házirend-hálózat bemenetként egy látens szenzoros beágyazást (LSE) vesz fel, amely egy látens feladatbeágyazással (LTE) van összefűzve. Az LSE a nyers állapotból származó MLP által kódolt időváltozatos proprioceptív állapotinformációkat tartalmazza. Az LTE időinvariáns feladatismeretet kódol, egy feladatazonosítóval inicializálva és egy teljesen összekapcsolt réteggel kódolva. Az összefűzött LSE és LTE betáplálva a házirend-hálózatba (művelet-dekódoló), hogy a műveletek között elosztást adjanak ki.

Képzési folyamat

A teljes modell különféle feladatokra van kiképezve SAC segítségével. Az edzés során véletlenszerű zajt injektálnak az LTE-kbe a stabilitás érdekében, és az LTE-ket egységnyi hiperszférára normalizálják a tér simaságának javítása érdekében. A többfeladatos képzést követően az LTE-k feltörekvő akcióteret alkotnak.

LTE-k használata új feladatokhoz

A feladaton belüli interpolációhoz a betanított LTE-k lineáris keverésével és normalizálásával új LTE-k jönnek létre. A feladatok közötti kompozícióhoz a különböző modalitású LTE-k keverednek. A gyors adaptáció érdekében az LTE-ket keresztentrópia segítségével optimalizálják, hogy megtalálják az új feladatot megoldó LTE-t. Csak az LTE frissül, az állapotkódoló és a műveletdekódoló rögzített marad.

Összefoglalva, a legfontosabb szempontok a következők:

Többfeladatos házirend-hálózat leválasztott állapot- és feladatbeágyazásokkal.
Technikák a kialakulóban lévő LTE-tér bővítésére.
Az LTE-k újrafelhasználása magas szintű műveleti felületként új feladatokhoz

Kísérletek

Többfeladatos képzés – Az EAR-SAC magasabb mintahatékonyságot és végső teljesítményt mutat, mint az alapvonalak, különösen a nagy dimenziós Ant-Dir esetében. Ez mutatja a cselekvési reprezentációk tanulásának előnyeit.

Feladaton belüli interpoláció – A hasonló feladatok LTE-jeinek interpolálása újszerű elosztási viselkedést generál képzés nélkül. A több magra vonatkozó kvantitatív eredmények megerősítik, hogy az interpolált LTE-k megbízhatóan produkálnak közbenső sebességet. Ez a HalfCheetah, Hopper, Walker sebességi feladatokhoz működik.

Feladatközi kompozíció – LTE-k összeállítása különböző módozatokból új viselkedési formákat hoz létre, mint például az ugrásszerű futás. A kvantitatív eredmények azt mutatják, hogy a walk&stand és a run&ump LTE-k sikeresek összeállítása több magon keresztül.

Hatékony adaptáció – A CEM használata az LTE-k optimalizálására lehetővé teszi az új feladatokhoz való gyors alkalmazkodást 3 korszak alatt, jelentősen felülmúlva a meta-RL alapértékeket. Ez azt mutatja, hogy az LTE-tér általános tulajdonságokat rögzít a gyors alkalmazkodás érdekében.

Vizualizáció – Az LTE vizualizáció folyamatos struktúrát tár fel, amely támogatja az interpolációt/kompozíciót. Az LSE vizualizáció csökkentett zajt mutat a nyers állapotokhoz képest.

Összefoglalva, az eredmények azt mutatják, hogy a többfeladatos képzés újrafelhasználható LTE-művelet-reprezentációkat hozhat létre, amelyek lehetővé teszik az elosztáson belüli interpolációt, a keresztmodális kompozíciót és az új feladatokhoz való hatékony alkalmazkodást.

Reinforcement Learning Machine Learning

hasonló anyagok:

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS ChatGPT Javascript Development Statistics Data Java Science Golang Code Data Structures Open Source Software DevOps Programming Languages