Publikációk a témában reinforcement-learning

Publikációk a témában 'reinforcement-learning'

A Google Brain DRL-je segít a robotoknak „mozgás közben gondolkodni”

Amikor egy pattogó labdát üldöz, az ember arrafelé indul, amerre előre látja, hogy a labda megy. Ha a dolgok megváltoznak – például egy macska lecsapja a labdát, és az új irányba pattan – az ember valós időben korrigálja a megfelelő új útvonalat. A robotok nehezen tudnak ilyen változtatásokat végrehajtani, mivel hajlamosak egyszerűen csak megfigyelni az állapotokat, majd kiszámítani és végrehajtani a cselekvéseket, nem pedig mozgás közben gondolkodni. A Google Brain, az UC Berkeley..

[RL] Egyszerű, felmerülő cselekvési ábrázolások a többfeladatos politikai képzésből (ICLR23)

Papírhivatkozás: „Egyszerű, felmerülő cselekvési nyilatkozatok a többfeladatos politikai képzésből” Projektoldal: „Egyszerű, felmerülő cselekvési ábrázolások a többfeladatos politikai képzésből” Kód: Egyszerű felmerülő cselekvési jelek a többfeladatos politikai képzésből Kulcs ötletek A tanulmány a többfeladatos szakpolitikai tréning alkalmazását javasolja a felmerülő cselekvési reprezentációk megtanulására, amelyek újra felhasználhatók különféle downstream feladatokhoz. A..

Gyakorlati útmutató a DQN-hez

A DQN Tensorflow.js megvalósítása a megerősítési tanulásban „Gyakorold, amit tudsz, és segít tisztázni, amit most nem tudsz” Rembrandt Áttekintés A Mnih és munkatársai által javasolt Deep Q-Network. A [2015] számos mélyen megerősítő tanulási algoritmus kiindulópontja és építési pontja. A felszíni egyszerűsége ellenére azonban néhány kihívást jelent a megvalósítás során, illetve a problémák megoldása során. Ez a cikk a "Tensorflow.js"-t fogja használni megvalósítási..

A PPO különböző terjesztett verzióinak illusztrált összehasonlítása

A Proximális Policy Optimization (PPO) egy fontos megerősítő tanulási algoritmus, amely számos elosztott és aszinkron ízzel rendelkezik. Bevezetés Mi az a PPO? Ez a cikk feltételezi, hogy ismeri a megerősítő tanulást (RL) és konkrétan a PPO-t, de röviden összefoglalva: a „PPO” egy irányelv-gradiens módszer, amely megpróbálja egymáshoz közel tartani az egymást követő modellfrissítéseket a képzési instabilitás elkerülése érdekében. Ez lett a de facto RL algoritmus a jobb minta..

Megerősítő tanulás: Bevezetés

A gépi tanulás alapjai Megerősítő tanulás: Bevezetés Bevezetés az erősítő tanulás alapjaiba, minden, amit tudnia kell az induláshoz 9 óra alatt a Google AlphaZero-ja a sakkszabályok ismeretéből a világ legjobb modelljeit legyőzte. A sakkot több mint 1000 éve tanulmányozzák az emberek, de egy megerősítő tanulási modell elhanyagolható idő alatt tudta továbbfejleszteni tudásunkat a játékról, a játékszabályokon kívül semmilyen előzetes tudást nem használt. Egyetlen másik gépi tanulási..

Klasszikus árkádjátékok: Utazás CartPole-on, Space Invadersen és Pac-Manen keresztül megerősítéssel…

Bevezetés: Az Atari Games, egy ikonikus márka, amely formálta a játékipart, előkelő helyet foglal el a játéktörténelemben. Az 1972-ben a látnoki úttörők, Nolan Bushnell és Ted Dabney által alapított Atari Games alapjait a mai játékforradalomnak. Első kiadásuk, a legendás Pong játék, meghódította a világot, magával ragadta a közönséget, és megalapozta a szórakozás egy teljesen új formáját. Figyelemreméltó előrelépéssel az Atari Games 1977-ben szabadjára engedte az Atari 2600..

Mély neurális hálózat használata a Flappy Bird játékhoz erősítő tanulással

Bevezetés a megerősítő tanulásba A megerősített tanulás különbözik a klasszikus gépi tanulási módszerektől, például a felügyelt és a nem felügyelt tanulástól. A felügyelt tanulási algoritmus betanítási adatokat vár, amelyek tartalmazzák a bemeneteket és a hozzájuk tartozó kimeneteket. Algoritmusokat alkalmaznak a bemenetek és a kimenetek közötti leképezés létrehozására, így ha egy korábban nem látott bemenetet adnak, az a legjobb tudása szerint megjósolja a helyes kimenetet. A..

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS ChatGPT Javascript Development Statistics Data Java Science Golang Code Data Structures Open Source Software DevOps Programming Languages