Publikációk a témában 'reinforcement-learning'
A Google Brain DRL-je segít a robotoknak „mozgás közben gondolkodni”
Amikor egy pattogó labdát üldöz, az ember arrafelé indul, amerre előre látja, hogy a labda megy. Ha a dolgok megváltoznak – például egy macska lecsapja a labdát, és az új irányba pattan – az ember valós időben korrigálja a megfelelő új útvonalat.
A robotok nehezen tudnak ilyen változtatásokat végrehajtani, mivel hajlamosak egyszerűen csak megfigyelni az állapotokat, majd kiszámítani és végrehajtani a cselekvéseket, nem pedig mozgás közben gondolkodni.
A Google Brain, az UC Berkeley..
[RL] Egyszerű, felmerülő cselekvési ábrázolások a többfeladatos politikai képzésből (ICLR23)
Papírhivatkozás: „Egyszerű, felmerülő cselekvési nyilatkozatok a többfeladatos politikai képzésből”
Projektoldal: „Egyszerű, felmerülő cselekvési ábrázolások a többfeladatos politikai képzésből”
Kód: Egyszerű felmerülő cselekvési jelek a többfeladatos politikai képzésből
Kulcs ötletek
A tanulmány a többfeladatos szakpolitikai tréning alkalmazását javasolja a felmerülő cselekvési reprezentációk megtanulására, amelyek újra felhasználhatók különféle downstream feladatokhoz. A..
Gyakorlati útmutató a DQN-hez
A DQN Tensorflow.js megvalósítása a megerősítési tanulásban
„Gyakorold, amit tudsz, és segít tisztázni, amit most nem tudsz” Rembrandt
Áttekintés
A Mnih és munkatársai által javasolt Deep Q-Network. A [2015] számos mélyen megerősítő tanulási algoritmus kiindulópontja és építési pontja. A felszíni egyszerűsége ellenére azonban néhány kihívást jelent a megvalósítás során, illetve a problémák megoldása során.
Ez a cikk a "Tensorflow.js"-t fogja használni megvalósítási..
A PPO különböző terjesztett verzióinak illusztrált összehasonlítása
A Proximális Policy Optimization (PPO) egy fontos megerősítő tanulási algoritmus, amely számos elosztott és aszinkron ízzel rendelkezik.
Bevezetés
Mi az a PPO?
Ez a cikk feltételezi, hogy ismeri a megerősítő tanulást (RL) és konkrétan a PPO-t, de röviden összefoglalva: a „PPO” egy irányelv-gradiens módszer, amely megpróbálja egymáshoz közel tartani az egymást követő modellfrissítéseket a képzési instabilitás elkerülése érdekében. Ez lett a de facto RL algoritmus a jobb minta..
Megerősítő tanulás: Bevezetés
A gépi tanulás alapjai
Megerősítő tanulás: Bevezetés
Bevezetés az erősítő tanulás alapjaiba, minden, amit tudnia kell az induláshoz
9 óra alatt a Google AlphaZero-ja a sakkszabályok ismeretéből a világ legjobb modelljeit legyőzte. A sakkot több mint 1000 éve tanulmányozzák az emberek, de egy megerősítő tanulási modell elhanyagolható idő alatt tudta továbbfejleszteni tudásunkat a játékról, a játékszabályokon kívül semmilyen előzetes tudást nem használt. Egyetlen másik gépi tanulási..
Klasszikus árkádjátékok: Utazás CartPole-on, Space Invadersen és Pac-Manen keresztül megerősítéssel…
Bevezetés:
Az Atari Games, egy ikonikus márka, amely formálta a játékipart, előkelő helyet foglal el a játéktörténelemben. Az 1972-ben a látnoki úttörők, Nolan Bushnell és Ted Dabney által alapított Atari Games alapjait a mai játékforradalomnak. Első kiadásuk, a legendás Pong játék, meghódította a világot, magával ragadta a közönséget, és megalapozta a szórakozás egy teljesen új formáját.
Figyelemreméltó előrelépéssel az Atari Games 1977-ben szabadjára engedte az Atari 2600..
Mély neurális hálózat használata a Flappy Bird játékhoz erősítő tanulással
Bevezetés a megerősítő tanulásba
A megerősített tanulás különbözik a klasszikus gépi tanulási módszerektől, például a felügyelt és a nem felügyelt tanulástól. A felügyelt tanulási algoritmus betanítási adatokat vár, amelyek tartalmazzák a bemeneteket és a hozzájuk tartozó kimeneteket. Algoritmusokat alkalmaznak a bemenetek és a kimenetek közötti leképezés létrehozására, így ha egy korábban nem látott bemenetet adnak, az a legjobb tudása szerint megjósolja a helyes kimenetet.
A..
Új anyagok
A rádiógomb ellenőrzött eseményének használata a jQueryben
Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...
Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre
Mi az a körkörös függőségek
Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt.
provider..
Miért érdemes elkezdeni a kódolást 2023-ban?
01100011 01101111 01100100 01100101 — beep boop beep boop
Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..
🎙 Random Noise #2 – Örökbefogadás és hit
az analitika íratlan világának gondozása
Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt .
"Ha önvezető autókat gyártanak, akkor mi miért ne..
A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban
A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában.
Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..
5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit
Frontendmentor.io
A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..
Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?
A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..