Amikor egy pattogó labdát üldöz, az ember arrafelé indul, amerre előre látja, hogy a labda megy. Ha a dolgok megváltoznak – például egy macska lecsapja a labdát, és az új irányba pattan – az ember valós időben korrigálja a megfelelő új útvonalat.

A robotok nehezen tudnak ilyen változtatásokat végrehajtani, mivel hajlamosak egyszerűen csak megfigyelni az állapotokat, majd kiszámítani és végrehajtani a cselekvéseket, nem pedig mozgás közben gondolkodni.

A Google Brain, az UC Berkeley és az X Lab egy párhuzamos mélyreható tanulási (DRL) algoritmust javasolt, amely lehetővé teszi a robotok számára, hogy szélesebb és hosszabb távú képet alkothassanak a feladatokról és viselkedésekről, és döntsenek a következő lépésről, mielőtt az aktuális befejeződik. . A dokumentumot az ICLR 2020 elfogadta.

A Deep Reforcement Learning (DRL) óriási sikereket ért el olyan forgatókönyvekben, mint a nulla összegű játékok és a robotikus megragadás. Ezeket az eredményeket azonban nagyrészt blokkoló környezetekben tapasztalták – ahol a modell azt feltételezi, hogy a megfigyelt állapot és a művelet(ek) végrehajtása között eltelt idő nem változik.

A valós világban a „párhuzamos környezetekben” azonban a környezeti állapotok lényegében valós időben fejlődhetnek, és a szekvenciális blokkoló módon végrehajtott műveletek meghiúsulhatnak, mert a környezet megváltozott, mióta az ügynök kezdetben kiszámította a cselekvést.

A javasolt modell fő gondolata, hogy lehetővé tegye egy robot számára, hogy egyidejű vezérléssel működjön, „ahol a szabályzatból egy műveletet az idő alakulásával párhuzamosan kell végrehajtani”.

A kutatók először standard RL-módszereket alkalmaztak mind a diszkrét idejű, mind a folyamatos idejű beállításokban. Ezután Markov döntési folyamatokat (MDP) alkalmaztak egyidejű műveletekkel, ahol a párhuzamos cselekvési környezetek rögzítik az aktuális állapotot, miközben egy korábbi művelet még végrehajtás alatt van. A csapat arra a következtetésre jutott, hogy az MDP-módosítások elegendőek az egyidejű műveletek megjelenítéséhez.

A kutatócsoport értékalapú DRL-algoritmusokat mutatott be, amelyek képesek megbirkózni egyidejű környezetekkel, és értékelték módszereiket egy nagyszabású robotikus megragadási feladat szimulációján és egy valós robotikus megragadási feladaton egyaránt.

Az egyidejű nagyméretű szimulált robotos megragadási feladatban a javasolt párhuzamos modell 31,3 százalékkal gyorsabban hatott, mint a blokkoló végrehajtás alapmodellje. A valós robotos megragadási feladatban a párhuzamos modell simább, 49 százalékkal gyorsabb pályákat tudott megtanulni.

A Thinking While Moving: Deep Reforcement Learning with Concurrent Control című cikk az arXiv-en található.

Szerző: Hecate He | Szerkesztő: Michael Sarazen

Azon gondolkodik, hogy hozzájáruljon a Szinkronizált áttekintéshez? A Synced új rovataShare My Research üdvözli a tudósokat, hogy megosszák saját kutatási áttöréseiket a mesterséges intelligencia globális rajongóival.

Tudjuk, hogy nem szeretne lemaradni egyetlen történetről sem.Iratkozzon fel népszerű "Synced Global AI Weekly" a heti AI-frissítésekért.

Átfogó áttekintésre van szüksége a modern AI kutatásfejlesztés múltjáról, jelenéről és jövőjéről? Megjelent a „Trends of AI Technology Development Report”!

Megjelent a „2018 Fortune Global 500 Public Company AI Adaptive Report”!
Vásároljon Kindle formátumú jelentést az „Amazon” webhelyről.
Jelentkezzen az Insight Partner Programba, hogy ingyenes, teljes PDF-jelentést kapjon.