Bevezetés:

Az Atari Games, egy ikonikus márka, amely formálta a játékipart, előkelő helyet foglal el a játéktörténelemben. Az 1972-ben a látnoki úttörők, Nolan Bushnell és Ted Dabney által alapított Atari Games alapjait a mai játékforradalomnak. Első kiadásuk, a legendás Pong játék, meghódította a világot, magával ragadta a közönséget, és megalapozta a szórakozás egy teljesen új formáját.

Figyelemreméltó előrelépéssel az Atari Games 1977-ben szabadjára engedte az Atari 2600 konzolt, és magával ragadó játékélmények özönét szabadította fel. A lenyűgöző játékok széles könyvtárával büszkélkedő Atari 2600 forradalmasította az otthoni játékokat, és gyorsan korának páratlan szupersztárjává vált.

Gyorsan előre a mai napig, ahol a csúcstechnológia és az emberi találékonyság metszéspontja a legmerészebb álmainkon túlmutató új lehetőségeket szült. A gépi tanulás és a mesterséges intelligencia hatékony eszközként jelent meg, amely lehetővé teszi számunkra, hogy feltérképezetlen területeket fedezzünk fel. Ebben a lebilincselő cikkben egy izgalmas utazásra indulunk, hogy meghódítsunk három szeretett Atari-játékot: a CartPole-t, a SpaceInvaders-t és a Pacman-t. A Reforcement Learning csodálatos birodalmán keresztül három kifogástalan modellt kovácsolunk, amelyek képesek hibátlanul elsajátítani ezeket az időtlen játékokat.

Csatlakozz hozzánk, miközben elmélyülünk a nosztalgia és az élvonalbeli mesterséges intelligencia konvergenciájában, egyesítve a múltat ​​és a jövőt, hogy minden eddiginél nagyobb játékélményt érhessünk el. Készüljön fel arra, hogy szemtanúja legyen a klasszikus Atari játékok és a legmodernebb technológia diadalmas fúziójának, ahol a lehetőségek határai megtörnek, és új távlatok születnek.

Mi az a megerősítéses tanulás?

A Reinforcement Learning (RL) a gépi tanulási technika egyik típusa, amely lehetővé teszi az ügynökként ismert számítógépes programok számára, hogy interaktív környezetben próbálgatással tanuljanak. Az ügynök saját tapasztalatai alapján kap visszajelzést, ami idővel jobb döntéseket hoz. Egyszerűen fogalmazva, az RL olyan, mint a döntéshozatal tudománya.

A Megerősítő tanulás különösen hasznos olyan feladatoknál, amelyek szekvenciális döntéshozatalt igényelnek, és hosszú távú céljaik vannak, mint például a játékok vagy a robotok irányítása. Néhány kulcsfontosságú összetevő körül forog:

Ügynök: Az az entitás, amely képes megfigyelni és felfedezni a környezetet, valamint a megfigyelései alapján lépéseket tenni.

Környezet: Az a fizikai világ vagy szimulált forgatókönyv, amelyben az ügynök működik.

Állapot: Az ügynök jelenlegi helyzete vagy kontextusa a környezetben.

Művelet: Az ügynök lépései vagy döntései a környezettel való interakció érdekében.

Jutalom: Az ügynök által a környezettől kapott visszajelzés vagy értékelés, miután cselekedett. A jutalmak lehetnek pozitívak, negatívak vagy semlegesek, és irányíthatják az ügynök tanulási folyamatát.

Irányelv: Az a stratégia vagy szabálykészlet, amelyet az ügynök követ a következő műveletének meghatározásához az aktuális állapot alapján.

Érték: Az ügynök által várt hosszú távú eredmény vagy megtérülés, figyelembe véve a jövőbeli jutalmakat és az azonnali jutalmak fontosságát jelentő diszkonttényezőt. Ha általános áttekintést szeretne kapni a megerősítési tanulásról, tekintse meg ezt a rövid videót "itt".

Ezen elemek kombinálásával a megerősítési tanulás lehetővé teszi az ügynökök számára, hogy tanuljanak és fejlesszék döntéshozatali készségeiket, végül optimális teljesítményt érjenek el az adott feladataik során.

Megvizsgáljuk, hogyan fogjuk használni a megerősítő tanulást és inicializálni egy ügynököt a korábban említett 3 játékhoz.

CartPole:

Leírás:A CartPole egy klasszikus vezérlőjáték, amelyben van egy kocsi, amelyhez rúd van rögzítve. A cél az, hogy balra vagy jobbra tolva egyensúlyba hozzák a kocsin lévő rudat.

Műveletmező:A CartPole-ban az ügynök csak két műveletet hajthat végre: balra tolja a kocsitvagy tolja el jobbrara.

Megfigyelési tér: CartPole játék közben az ügynök figyeli a kocsi helyzetét és sebességét, valamint a rúd szögét és szögsebességét. Ezek a megfigyelések határozzák meg a játék kimenetelét.

Jutalom:az ügynök +1 jutalmat kap minden egyes lépésért vagy cselekedetért, amíg a rúd függőlegesen marad. A cél az összesen 500 pont elérése.

A CartPole tanulási folyamatának inicializálása megerősítéses tanulással

Először beállítottam a CartPole környezetet az OpenAI gimnáziumával, majd hagytam, hogy a képzetlen ügynök véletlenszerűen játsszon 20 epizódon keresztül. Ezt követően megkezdtem az ügynök tanulási folyamatát, 1 000 000 időlépésre törekedtem, de egy meghatározott leállási kritérium miatt mindössze 80 000 időlépés után értem el a kívánt teljesítményszintet. Alább láthatja az ügynök véletlenszerű játékmenetének összehasonlítását edzés előtt és után.

Pac-Man:

Leírás: A Pac-Man egy ikonikus játék, amelyet 1980-ban adtak ki. Ez egy labirintus alapú játék, amelyben a játékos egy Pac-Man nevű sárga karaktert irányít. A játékos célja, hogy eligazodjon a labirintusban, megessze az összes pontot, miközben elkerüli a színes szellemeket. A játék egy labirintusban játszódik, amely falakból és folyosókból áll, ahol pontok vannak szétszórva, és növeli a pontszámokat. A játék azonban kihívást jelent, mivel négy szellem – Blinky, Pinky, Inky és Clyde – vándorol a labirintusban, és megpróbálja elkapni Pac-Mant. Szellemmel való ütközés egy élet elvesztésével jár. Szerencsére az energiapelletek stratégiailag a labirintus sarkaiban helyezkednek el, pillanatnyilag kékké és fogékonyakká változtatják a szellemeket. Ebben az időszakban a Pac-Man felfalhatja a szellemeket, hogy további pontokat szerezzen. A pöttyökön és az erőpelleteken kívül rendszeresen megjelennek gyümölcsök és egyéb bónuszelemek, amelyek további pontokat adnak elfogyasztásukkor. Ahogy a játékosok haladnak a szinteken, a labirintusok egyre bonyolultabbak és kihívást jelentenek, és stratégiai navigációt igényelnek a szellemek elkerülése és a pontok hatékony eltávolítása érdekében.

Akciótér: A Pacmanben az ügynök öt akció közül választhat, amelyek a következőket tartalmazzák: Nincs művelet (NOOP), Fel, Jobb, Bal és Le.

Megfigyelési tér: A Pac-Man környezetben lévő ügynök megfigyelheti az objektumok jelenlétét vagy hiányát a rács meghatározott helyein, a Pacman mozgási irányát, a szellemek viselkedését és a megmaradt pelletek állapotát. Ezek a megfigyelések segítenek döntéseket hozni és eligazodni a labirintusban.

Jutalmak: A jutalmak, amelyeket az ügynök kap a Pacmanben, az Ön által végrehajtott akciótól függenek, és 1-től 160-ig terjednek a játék konkrét akciójától és helyzetétől függően.

A Pacman tanulási folyamatának inicializálása megerősített tanulással

A Pacman környezet beállításával kezdtem az OpenAI gimnáziumának segítségével. A képzetlen ügynök ezután 20 epizódon keresztül véletlenszerűen játszhatott. Ezt a kezdeti fázist követően megkezdtem az ügynök tanulási folyamatát, amelynek célja az volt, hogy elérjem az 1 000 000 időlépést. Egy meghatározott leállási kritérium miatt azonban már 520 000 időlépés után elértem a kívánt eredményt. Az alábbiakban megfigyelheti az ügynök véletlenszerű játékmenetének összehasonlítását edzés előtt és után.

SpaceInvaders:

Leírás: A SpaceInvaders egy klasszikus arcade játék, amelyet 1978-ban adott ki a Taito, és az Atari Incorporation licencelt. A SpaceInvaders játékban a játékos egy idegenekből álló formációval néz szembe, amelyek sorokba rendeződnek, egyik oldalról a másikra ereszkednek a képernyő alja felé. A cél az, hogy lelőjék őket lézeres kanonok segítségével, mielőtt elérnék a Földet. A játékos ágyújának mozgása korlátozott, így a játékos egyik oldalról a másikra mozogva lelőheti az idegeneket. Miközben az idegeneket lelövik, a többi földönkívüli felgyorsul, hogy progresszív játékélményt hozzon létre.

Akciótér: a SpaceInvaders környezetben az ügynök csak hat műveletet hajthat végre, amelyek közé tartozik: Nincs művelet (NOOP), tűz, jobbra, balra, jobb gyújtás és bal gyújtás.

Megfigyelő tér:a SpaceInvasion környezetben az ügynök megfigyelheti az idegenek elrendezését és mozgását, a játékos űrhajóját, az akadályokat és más elemeket a képernyőn. Az idegenek helyzete és a hátralévő életek fontos megfigyelések.

Jutalmak: A SpaceInvaders ügynöke által kapott jutalmak az eltalált idegen pozíciójától függenek. Minden találat pontokat szerez, és több pontot kapnak a magasabb sorokban lévő idegenek.

A SpaceInvaders tanulási folyamatának inicializálása megerősítő tanulással

A SpaceInvaders játék az OpenAI gymnasium környezetének felhasználásával jött létre. A szokásos eljárásnak megfelelően megengedtem az ügynöknek, hogy véletlenszerű játékmenetben vegyen részt 20 epizódon keresztül. Ezt a kezdeti fázist követően elindítottam az ügynök tanulási folyamatát 1 000 000 időlépésben. A három játék közül azonban a SpaceInvaders mutatta a leggyengébb modellteljesítményt, ami azt jelzi, hogy több számítási erőforrást és hosszabb időlépést igényel az optimális játékmenet magasabb szintjének eléréséhez.

A megerősítő tanulási folyamat inicializálásakor észrevehető javulás figyelhető meg mindhárom játék játékmenetében. A további fejlesztés és optimalizálás érdekében lehetőség van a kód végrehajtásának kiterjesztésére több időlépésre, vagy fejlettebb megerősítő tanulási algoritmusok felfedezésére. Ha szeretne elmélyülni annak részleteiben, hogy mindhárom ügynököt hogyan használták fel ebben a projektben, a megfelelő információkat megtalálja ezen a „linken”.

Összefoglalva, megvizsgáltuk, hogyan lehet a megerősítő tanulást alkalmazni a játékmenet javítására és a jobb döntéshozatal elősegítésére. Különösen értékes olyan helyzetekben, amikor egy rossz döntés súlyos negatív következményekkel járhat. Érdemes megjegyezni, hogy a megerősítő tanulás viszonylag új keletű terület, és potenciális alkalmazásai gyakorlatilag határtalanok.

A cikket Ajekwe Moses írta.