Mi az a GPT-3, és miért olyan erős?

Az emberszerű szöveget generáló nyelvi modell mögött rejlő felhajtás megértése

A GPT-3 (Generative Pre-trained Transformer 3) egy nyelvi modell, amelyet az OpenAI, egy mesterséges intelligencia kutatólaboratórium hozott létre San Franciscóban. A 175 milliárd paraméteres mélytanulási modell emberszerű szöveg előállítására képes, és több százmilliárd szót tartalmazó nagy szöveges adathalmazokra képezték ki.

"Nyitott vagyok arra az elképzelésre, hogy egy 302 neuronból álló féreg tudatos, ezért nyitott vagyok arra, hogy a 175 milliárd paraméterrel rendelkező GPT-3 is tudatos." – David Chalmers

Tavaly nyár óta a GPT-3 került a címlapokra, és teljes startupok jöttek létre ezzel az eszközzel. Fontos azonban megérteni a tényeket, amelyek mögött a GPT-3 valójában áll, és hogyan működik, ahelyett, hogy elveszünk a körülötte zajló hírverésben, és úgy kezeljük, mint egy fekete dobozt, amely bármilyen problémát megoldhat.

Ebben a cikkben egy magas szintű áttekintést adok a GPT-3 működéséről, valamint a modell erősségeiről és korlátairól, valamint arról, hogyan használhatja saját maga.

Hogyan működik a GPT-3

A GPT-3 lényegében egy transzformátor modell. A transzformátormodellek szekvencia-szekvencia mélytanulási modellek, amelyek egy bemeneti szekvencia adott szövegsorozatot tudnak előállítani. Ezeket a modelleket olyan szöveggenerálási feladatokra tervezték, mint a kérdések megválaszolása, szövegösszegzés és gépi fordítás. Az alábbi kép bemutatja, hogy egy transzformátormodell iteratív módon generál egy fordítást franciául egy angol bemeneti szekvencia mellett.

A transzformátormodellek az LSTM-ektől eltérően működnek azáltal, hogy több egységet, úgynevezett figyelemblokkot használnak annak megismerésére, hogy a szövegsorozat mely részeire kell összpontosítani. Egyetlen transzformátornak több különálló figyelemblokkja lehet, amelyek mindegyike a nyelv különálló aspektusait tanulja meg, a beszédrészektől a megnevezett entitásokig. A transzformátorok működésének alapos áttekintése érdekében tekintse meg az alábbi cikkemet.

Mik azok a transzformátorok, és hogyan használhatjuk őket?
Bevezetés azokhoz a modellekhez, amelyek az elmúlt néhány évben forradalmasították a természetes nyelvi feldolgozást.towardsdatascience.com

A GPT-3 az OpenAI által létrehozott GPT nyelvi modellek harmadik generációja. A fő különbség, ami a GPT-3-at megkülönbözteti a korábbi modellektől, a méret. A GPT-3 175 milliárd paramétert tartalmaz, így 17-szer akkora, mint a GPT-2, és körülbelül 10-szer akkora, mint a Microsoft Turing NLG modellje. A fent felsorolt korábbi cikkemben leírt transzformátor architektúrára hivatkozva a GPT-3 96 figyelemblokkot tartalmaz, amelyek mindegyike 96 figyelőfejet tartalmaz. Más szóval, a GPT-3 alapvetően egy óriási transzformátormodell.

A modellt bevezető „eredeti papír” alapján a GPT-3 képzése a következő nagy szöveges adatkészletek kombinációjával történt:

Közös feltérképezés
Webszöveg2
Könyvek 1
Könyvek 2
Wikipédia korpusz

A végső adatkészlet az internetről származó weboldalak nagy részét, egy hatalmas könyvgyűjteményt és az egész Wikipédiát tartalmazta. A kutatók ezt a több százmilliárd szót tartalmazó adatkészletet használták arra, hogy a GPT-3-at arra tanítsák, hogy angol nyelvű szöveget generáljon több más nyelven is.

Miért olyan erős a GPT-3?

A GPT-3 tavaly nyár óta került a címlapokra, mert sokféle természetes nyelvi feladatot tud végrehajtani, és emberszerű szöveget állít elő. A GPT-3 által végrehajtott feladatok közé tartoznak, de nem kizárólagosan:

Szövegbesorolás (azaz hangulatelemzés)
Kérdés válasz
Szöveggenerálás
Szöveges összefoglaló
Elnevezett entitás felismerés
Nyelvi fordítás

Azon feladatok alapján, amelyeket a GPT-3 képes ellátni, egy olyan modellnek tekinthetjük, amely az olvasás-szövegértési és az írási feladatokat közel emberi szinten képes végrehajtani, kivéve, hogy több szöveget látott, mint amennyit ember valaha is elolvasott élete során. Pontosan ezért olyan erős a GPT-3. Egész startupokat hoztak létre a GPT-3 segítségével, mert úgy tekinthetünk rá, mint egy általános célú svájci késre, amely a természetes nyelvi feldolgozás során felmerülő problémák széles skálájának megoldására szolgál.

A GPT-3 korlátai

Bár a cikk írásakor a GPT-3 a legnagyobb és vitathatatlanul a legerősebb nyelvi modell, megvannak a maga korlátai. Valójában minden gépi tanulási modellnek, bármilyen erős is legyen, vannak bizonyos korlátai. Ezt a koncepciót részletesen feltártam a No Free Lunch Theorem című alábbi cikkemben.

Mit jelent valójában a „nincs ingyen ebéd” a gépi tanulásban?
Ennek a gyakran félreértett tételnek a megfejtése.towardsdatascience.com

Vegye figyelembe a GPT-3 alább felsorolt korlátozásait:

A GPT-3-ból hiányzik a hosszú távú memória – a modell nem tanul semmit az olyan hosszú távú interakciókból, mint az emberek.
Az értelmezhetőség hiánya – ez egy olyan probléma, amely általában véve rendkívül nagy és összetett. A GPT-3 olyan nagy, hogy nehéz értelmezni vagy megmagyarázni az általa előállított kimenetet.
Korlátozott bemeneti méret – a transzformátorok rögzített maximális bemeneti mérettel rendelkeznek, és ez azt jelenti, hogy a GPT-3 által kezelhető promptok nem lehetnek hosszabbak néhány mondatnál.
Lassú következtetési idő – mivel a GPT-3 olyan nagy, több időbe telik, amíg a modell előrejelzéseket készít.
A GPT-3 torzításban szenved – minden modell csak annyira jó, mint amennyire a betanításhoz használt adatok voltak, és a GPT-3 sem kivétel. Ez a „papír” például bemutatja, hogy a GPT-3 és más nagy nyelvi modellek muszlimellenes elfogultságot tartalmaznak.

Bár a GPT-3 erős, még mindig vannak korlátai, amelyek távolról sem tökéletes nyelvi modell, vagy a „mesterséges általános intelligencia”
(AGI) példája.

Hogyan használhatja a GPT-3-at

Jelenleg a GPT-3 nem nyílt forráskódú, és az OpenAI úgy döntött, hogy ehelyett egy kereskedelmi API-n keresztül teszi elérhetővé a modellt, amelyet "itt" találhat meg. Ez az API privát béta verzióban van, ami azt jelenti, hogy ki kell töltenie az OpenAI API várólista űrlapot, hogy csatlakozzon a várólistához az API használatához.

Az OpenAI-nak van egy speciális programja a GPT-3-at használni kívánó akadémiai kutatók számára. Ha a GPT-3-at tudományos kutatáshoz szeretné használni, töltse ki az „Academic Access Application” (Akadémiai hozzáférési kérelmet).

Míg a GPT-3 nem nyílt forráskódú vagy nyilvánosan elérhető, elődje, a GPT-2 nyílt forráskódú, és a Hugging Face „transzformátorkönyvtárán” keresztül érhető el. Nyugodtan tekintse meg a Hugging Face GPT-2 implementációjának "dokumentációját", ha ezt a kisebb, de mégis erőteljes nyelvi modellt szeretné használni helyette.

Összegzés

A GPT-3 tavaly nyár óta nagy figyelmet kapott, mert messze ez a legnagyobb és vitathatatlanul legerősebb nyelvi modell, amelyet a cikk írásakor készítettek. A GPT-3 azonban továbbra is számos korláttól szenved, amelyek távolról sem tökéletes nyelvi modell vagy az AGI példája. Ha kutatási vagy kereskedelmi célokra szeretné használni a GPT-3-at, jelentkezhet az Open AI API használatára, amely jelenleg privát bétaverzióban van. Egyébként mindig közvetlenül dolgozhat a GPT-2-vel, amely nyilvánosan elérhető és nyílt forráskódú a HuggingFace transzformátorkönyvtárának köszönhetően.

Csatlakozz a levelezőlistámhoz

Szeretnél jobbá válni az adattudományban és a gépi tanulásban? Szeretne naprakész lenni a legújabb könyvtárakkal, fejlesztésekkel és kutatásokkal az adattudományi és gépi tanulási közösségben?

Csatlakozz a levelezőlistámhoz, hogy értesülj az adattudományi tartalmaimról. Ha regisztrál, megkapja az ingyenes Lépésről lépésre szóló útmutatómat a gépi tanulási problémák megoldásához!

Források

T. Brown, B. Mann, N. Ryder és et. al, „A nyelvi modellek kevéssé tanulnak”, (2020), arXiv.org.
A. Abid, M. Farooqi és J. Zou, „Persistent Anti-Muslim Bias in Large Language Models”, (2021), arXiv.org.
Wikipédia, „Általános mesterséges intelligencia”, (2021), Wikipédia a Szabad Enciklopédia.
G. Brockman, M. Murati, P. Welinder és OpenAI, „OpenAI API”, (2020), OpenAI blog.
A. Vaswani, N. Shazeer és et. al, „A figyelem minden, amire szüksége van”, (2017), 31. konferencia a neurális információfeldolgozó rendszerekről.

hasonló anyagok:

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS ChatGPT Javascript Development Statistics Data Java Science Golang Code Data Structures Open Source Software DevOps Programming Languages