WebHU - Programozási kérdések és válaszok

Publikációk a témában 'reinforcement-learning'


A Google Brain DRL-je segít a robotoknak „mozgás közben gondolkodni”
Amikor egy pattogó labdát üldöz, az ember arrafelé indul, amerre előre látja, hogy a labda megy. Ha a dolgok megváltoznak – például egy macska lecsapja a labdát, és az új irányba pattan – az ember valós időben korrigálja a megfelelő új útvonalat. A robotok nehezen tudnak ilyen változtatásokat végrehajtani, mivel hajlamosak egyszerűen csak megfigyelni az állapotokat, majd kiszámítani és végrehajtani a cselekvéseket, nem pedig mozgás közben gondolkodni. A Google Brain, az UC Berkeley..

[RL] Egyszerű, felmerülő cselekvési ábrázolások a többfeladatos politikai képzésből (ICLR23)
Papírhivatkozás: „Egyszerű, felmerülő cselekvési nyilatkozatok a többfeladatos politikai képzésből” Projektoldal: „Egyszerű, felmerülő cselekvési ábrázolások a többfeladatos politikai képzésből” Kód: Egyszerű felmerülő cselekvési jelek a többfeladatos politikai képzésből Kulcs ötletek A tanulmány a többfeladatos szakpolitikai tréning alkalmazását javasolja a felmerülő cselekvési reprezentációk megtanulására, amelyek újra felhasználhatók különféle downstream feladatokhoz. A..

Gyakorlati útmutató a DQN-hez
A DQN Tensorflow.js megvalósítása a megerősítési tanulásban „Gyakorold, amit tudsz, és segít tisztázni, amit most nem tudsz” Rembrandt Áttekintés A Mnih és munkatársai által javasolt Deep Q-Network. A [2015] számos mélyen megerősítő tanulási algoritmus kiindulópontja és építési pontja. A felszíni egyszerűsége ellenére azonban néhány kihívást jelent a megvalósítás során, illetve a problémák megoldása során. Ez a cikk a "Tensorflow.js"-t fogja használni megvalósítási..

A PPO különböző terjesztett verzióinak illusztrált összehasonlítása
A Proximális Policy Optimization (PPO) egy fontos megerősítő tanulási algoritmus, amely számos elosztott és aszinkron ízzel rendelkezik. Bevezetés Mi az a PPO? Ez a cikk feltételezi, hogy ismeri a megerősítő tanulást (RL) és konkrétan a PPO-t, de röviden összefoglalva: a „PPO” egy irányelv-gradiens módszer, amely megpróbálja egymáshoz közel tartani az egymást követő modellfrissítéseket a képzési instabilitás elkerülése érdekében. Ez lett a de facto RL algoritmus a jobb minta..

Megerősítő tanulás: Bevezetés
A gépi tanulás alapjai Megerősítő tanulás: Bevezetés Bevezetés az erősítő tanulás alapjaiba, minden, amit tudnia kell az induláshoz 9 óra alatt a Google AlphaZero-ja a sakkszabályok ismeretéből a világ legjobb modelljeit legyőzte. A sakkot több mint 1000 éve tanulmányozzák az emberek, de egy megerősítő tanulási modell elhanyagolható idő alatt tudta továbbfejleszteni tudásunkat a játékról, a játékszabályokon kívül semmilyen előzetes tudást nem használt. Egyetlen másik gépi tanulási..

Klasszikus árkádjátékok: Utazás CartPole-on, Space Invadersen és Pac-Manen keresztül megerősítéssel…
Bevezetés: Az Atari Games, egy ikonikus márka, amely formálta a játékipart, előkelő helyet foglal el a játéktörténelemben. Az 1972-ben a látnoki úttörők, Nolan Bushnell és Ted Dabney által alapított Atari Games alapjait a mai játékforradalomnak. Első kiadásuk, a legendás Pong játék, meghódította a világot, magával ragadta a közönséget, és megalapozta a szórakozás egy teljesen új formáját. Figyelemreméltó előrelépéssel az Atari Games 1977-ben szabadjára engedte az Atari 2600..

Mély neurális hálózat használata a Flappy Bird játékhoz erősítő tanulással
Bevezetés a megerősítő tanulásba A megerősített tanulás különbözik a klasszikus gépi tanulási módszerektől, például a felügyelt és a nem felügyelt tanulástól. A felügyelt tanulási algoritmus betanítási adatokat vár, amelyek tartalmazzák a bemeneteket és a hozzájuk tartozó kimeneteket. Algoritmusokat alkalmaznak a bemenetek és a kimenetek közötti leképezés létrehozására, így ha egy korábban nem látott bemenetet adnak, az a legjobb tudása szerint megjósolja a helyes kimenetet. A..

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben
Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre
Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?
01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2  – Örökbefogadás és hit
az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban
A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit
Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?
A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..