Papírhivatkozás: „Egyszerű, felmerülő cselekvési nyilatkozatok a többfeladatos politikai képzésből”

Projektoldal: „Egyszerű, felmerülő cselekvési ábrázolások a többfeladatos politikai képzésből”

Kód: Egyszerű felmerülő cselekvési jelek a többfeladatos politikai képzésből

Kulcs ötletek

  • A tanulmány a többfeladatos szakpolitikai tréning alkalmazását javasolja a felmerülő cselekvési reprezentációk megtanulására, amelyek újra felhasználhatók különféle downstream feladatokhoz.
  • A módszer magában foglalja a házirend-hálózat képzését több feladatra, ahol minden feladatnak külön látens feladatbeágyazása (LTE) van. A házirend-hálózat a feladatok között megoszt egy kódolót, dekódert és állapotábrázolásokat.
  • A különféle feladatokra való képzést követően az LTE-k folyamatos felbukkanó cselekvési reprezentációs teret alkotnak. Új LTE-k generálhatók interpolációval vagy betanított LTE-k összeállításával, hogy új viselkedést hozzanak létre.
  • Az akcióábrázolások értelmes geometriai struktúrát mutatnak, hasonló feladatokat csoportosítva. A vizualizáció azt mutatja, hogy az LTE tér folyamatos gömböt alkot.
  • Ablációkat végeztek, amelyek megmutatták az edzés közbeni zaj befecskendezésének és az LTE-k normalizálásának előnyeit. Az alapvonalakkal való összehasonlítás a tanulási cselekvésreprezentációk hatékonyságát mutatja.
  • Összességében a munka kezdeti bizonyítékot szolgáltat arra vonatkozóan, hogy a felbukkanó cselekvésreprezentációk hatékony és alkalmazkodó RL-t tesznek lehetővé, alapot képezve az absztrakt akciótervezéshez és a motoros jeltér megértéséhez.

Módszer

Multi-Task Policy Network Architecture

A házirend-hálózat bemenetként egy látens szenzoros beágyazást (LSE) vesz fel, amely egy látens feladatbeágyazással (LTE) van összefűzve. Az LSE a nyers állapotból származó MLP által kódolt időváltozatos proprioceptív állapotinformációkat tartalmazza. Az LTE időinvariáns feladatismeretet kódol, egy feladatazonosítóval inicializálva és egy teljesen összekapcsolt réteggel kódolva. Az összefűzött LSE és LTE betáplálva a házirend-hálózatba (művelet-dekódoló), hogy a műveletek között elosztást adjanak ki.

Képzési folyamat

A teljes modell különféle feladatokra van kiképezve SAC segítségével. Az edzés során véletlenszerű zajt injektálnak az LTE-kbe a stabilitás érdekében, és az LTE-ket egységnyi hiperszférára normalizálják a tér simaságának javítása érdekében. A többfeladatos képzést követően az LTE-k feltörekvő akcióteret alkotnak.

LTE-k használata új feladatokhoz

A feladaton belüli interpolációhoz a betanított LTE-k lineáris keverésével és normalizálásával új LTE-k jönnek létre. A feladatok közötti kompozícióhoz a különböző modalitású LTE-k keverednek. A gyors adaptáció érdekében az LTE-ket keresztentrópia segítségével optimalizálják, hogy megtalálják az új feladatot megoldó LTE-t. Csak az LTE frissül, az állapotkódoló és a műveletdekódoló rögzített marad.

Összefoglalva, a legfontosabb szempontok a következők:

  1. Többfeladatos házirend-hálózat leválasztott állapot- és feladatbeágyazásokkal.
  2. Technikák a kialakulóban lévő LTE-tér bővítésére.
  3. Az LTE-k újrafelhasználása magas szintű műveleti felületként új feladatokhoz

Kísérletek

Többfeladatos képzés – Az EAR-SAC magasabb mintahatékonyságot és végső teljesítményt mutat, mint az alapvonalak, különösen a nagy dimenziós Ant-Dir esetében. Ez mutatja a cselekvési reprezentációk tanulásának előnyeit.

Feladaton belüli interpoláció – A hasonló feladatok LTE-jeinek interpolálása újszerű elosztási viselkedést generál képzés nélkül. A több magra vonatkozó kvantitatív eredmények megerősítik, hogy az interpolált LTE-k megbízhatóan produkálnak közbenső sebességet. Ez a HalfCheetah, Hopper, Walker sebességi feladatokhoz működik.

Feladatközi kompozíció – LTE-k összeállítása különböző módozatokból új viselkedési formákat hoz létre, mint például az ugrásszerű futás. A kvantitatív eredmények azt mutatják, hogy a walk&stand és a run&ump LTE-k sikeresek összeállítása több magon keresztül.

Hatékony adaptáció – A CEM használata az LTE-k optimalizálására lehetővé teszi az új feladatokhoz való gyors alkalmazkodást 3 korszak alatt, jelentősen felülmúlva a meta-RL alapértékeket. Ez azt mutatja, hogy az LTE-tér általános tulajdonságokat rögzít a gyors alkalmazkodás érdekében.

Vizualizáció – Az LTE vizualizáció folyamatos struktúrát tár fel, amely támogatja az interpolációt/kompozíciót. Az LSE vizualizáció csökkentett zajt mutat a nyers állapotokhoz képest.

Összefoglalva, az eredmények azt mutatják, hogy a többfeladatos képzés újrafelhasználható LTE-művelet-reprezentációkat hozhat létre, amelyek lehetővé teszik az elosztáson belüli interpolációt, a keresztmodális kompozíciót és az új feladatokhoz való hatékony alkalmazkodást.