Ismerje meg az MPT-30B-t: egy teljesen OpenSouce LLM, amely felülmúlja a GPT-3-at

Két finomhangolt változat kiadása, az MPT-30B-Instruct és MPT-30B-Chat, amelyek az MPT-30B tetejére épülnek

A közösség MPT-7B-vel fut, amelyet több mint 3 millió alkalommal töltöttek le. Egy hónapon belül létrejött a közösség.

A "LLaVA-MPT" a látás megértését teszi hozzá az MPT-hez,
A GGML optimalizálja az MPT-t az Apple Silicon és a CPU-kon, és
A GPT4All segítségével egy GPT4-szerű chatbotot futtathat laptopján az MPT háttérmodellként.

Most a MosaicML, az összes MPT modell anyavállalata a 7B modell nagyobb testvérével bővítette az MPT sorozatot; Üdvözöljük az MPT-30B-t, amely az új, teljesen nyílt forráskódú, kereskedelmi használatra engedélyezett modell. Ez a modell lényegesen erősebb, mint a 7B, és sok benchmarkon felülmúlja a GPT-3-at. Ez a modell 2 finomhangolt változatban is megjelent; ezekhez a modellekhez a HuggingFace mezők össze vannak kapcsolva: MPT-30B-Instruct és MPT-30B-Chat.

Hogyan működik a kommercializáció? A MosaicML platformon használhatja saját adatait, és finomhangolhatja a modellt, vagy használhatja úgy, ahogy van. Ha a végén betanítja a modellt / finomhangolja a modellt, akkor a modell súlya a tiéd. Az adatokat soha nem tárolja a MosaicML platform, és az árat GPU-percenként fizetik. További lehetőségek a MosaicML Inference Starter és az Enterprise kiadások. Az Enterprise kiadás telepíthető saját privát VPC-n a tűzfal mögött.

A 30B-s méretet okkal választották, mert

A modell betanításának kontextusa a 8K (ellentétben a GPT3, turbo-3.5, LLaMA 2K–4K tokenekkel)
Támogatja a hosszabb kontextusokat az ALiBi-n keresztül (arxiv.org/pdf/2108.12409.pdf)
A modell jól működik, ha az NVIDIA H100 8K-s ablakát használja a következtetésekhez
1x NVIDIA A100-80 GB-on telepíthető 16 bites pontossággal
1x NVIDIA A100–40 GB-on telepíthető 8 bites pontossággal (ellentétben a Falcon-40B-vel, amelyhez 2 vagy több GPU szükséges)

Képzési adatok:

Pontosabban, az olyan adatforrások, mint az mC4 3.1.0 – English, a The Stack Selected Languages, a The Stack Markdown, a Semantic Scholar ORC és a RedJamas, a sorozatok 40–50%-a több mint 4K token, ami lehetővé tette a modell betanítását. elegendő adaton hosszú sorozatokkal.

Összehasonlítva a képzési költségvetést, az MPT minden bizonnyal kevesebb költségvetést használt fel (FLOP-ban és USD-ben is). Az alábbiakban az egyes fő versenyzők MPT-30B-re való edzése során használt flopok hozzávetőleges száma látható.

MPT-30B ~= 6 * 30e⁹ [paraméter] * 1,05e¹² [token] = 1,89e²³ FLOP
LLaMa-30B ~= 6 * 32,5e⁹ [paraméter] * 1,4e¹² [token] = 2,73e²³ FLOP
Falcon-40B ~= 6 * 40e⁹ [paraméter] * 1e¹² [token] = 2,40e²³ FLOps

Ez azt jelenti, hogy a LLaMA-30B körülbelül 1,44-szer több FLOP költségvetést használt fel, és a Falcon-40B 1,27-szer akkora FLOP költségvetéssel rendelkezett, mint az MPT-30B. Az MPT-30B-re való edzés minden bizonnyal hatékonyabbnak tűnik.

Eredmények

Az MPT-30B lényegesen jobb a programozásban, ami tükrözheti a képzés előtti adatkeveréket, amely jelentős mennyiségű kódot tartalmaz. Az MPT-30B, MPT-30B-Instruct és MPT-30B-Chat „HumanEval” pontszámait a meglévő nyílt forráskódú modellekkel összehasonlítva az MPT-30B modellek nagyon erősek a programozásban, és az MPT-30B-Chat minden modellt felülmúl, kivéve a WizardCodert. A vállalat azt állítja, hogy a szöveges és programozási képességek ezen kombinációja az MPT-30B modelleket népszerű választássá teszi a közösség számára.

Az MPT-7B-hez képest az MPT-30B modell minden szempontból jelentős előrelépést jelent.

Az MPT-30B és a GPT-3 nullapontos összehasonlítása a kilenc kontextuson belüli tanulási (ICL) feladatban az MPT-30B-hez képest nagyon kis előnyt jelent. Bár meg kell jegyeznünk, hogy az MPT-30B-t a vizsgálat során értékelték, és a GPT-3 számok közvetlenül az eredeti GPT-3 papírból származnak.

MPT-30B Utasítás

Az MPT-30B egy szteroidos dolly, ahol a Dolly licencét és alapját használja, de több edzési adatot ad hozzá az Anthropic Helpful & Harmless adatkészletével, megduplázva az adatkészlet méretét, miközben fenntartja a kereskedelmi CC-By-SA-3.0 licencet. Ezen felül az MPT-30B 8K token környezethosszúsággal rendelkezik, ami lényegesen jobb, mint bármelyik korábbi modell. Ez a modell a CompetitionMath, a GradeSchoolMath, a DialogSum, a DuoRC, a QASPER, a QuALITY, a SummScreen és a Spider adatkészletek alapkiegészítésének előnyeit élvezi.

MPT-30B Chat

Az MPT-30B-chat az MPT-30B finomhangolt társalgási változataként jött létre. A kombinált finomhangolási adatkészlet 1,54B tokenből áll, és a modell 6 korszakra van betanítva. Az adatkészlet a ChatML formátumot használja, amely kényelmes és szabványosított módot biztosít a rendszerüzenetek továbbítására a modellnek, és segít megelőzni a rosszindulatú azonnali befecskendezést.

Az MPT-30B-Chat nem kereskedelmi használatra szolgál, anem kereskedelmi célú CC-By-NC-SA-4.0 licenc alatt kapott engedélyt. Csak kutatási célokra készült. Ezzel szemben az MPT-30B (alapmodell / nem finomhangolt) nyílt forráskódú, és kereskedelmi használatra is használható.

Telepítés

Engem a Mosaic ML semmilyen formában, formában vagy formában nem szponzorál, csak azt ismétlem, amit hasznosnak, érdekesnek és megértettem. A MosaicML következtetési platform indító és vállalati kiadása hasonló funkciókat kínál, mint az OpenAI. Csak egy GPU-perc költséget kell fizetnie.

A Mosaic azt állítja, hogy az OpenAI-hoz képest a Mosaic négyszeres költségmegtakarítást kínál. A Mosaic árazási modellje GPU-perc, mint token (mint például az OpenAI). Ez szintén nem tartalmazza az egyedi modellek prémiumát (az OpenAI 6-szoros prémiumot ad a finomhangolt modellekhez). Ez sok megtakarítást jelenthet.

Ha a mozaikkövetkeztetés vállalati kiadását használja, a megtakarítás lehetősége 15-szörösére nő az OpenAI-hoz képest, mivel saját következtetési platformját a helyszínen tárolhatja.

Képezze el saját modelljét

A MosaicML tréning segítségével az MPT-30B modellt is finomhangolhatja személyes adatain. Kérem, vegyék egy kicsit az adatvédelmet, mivel manapság úgy tűnik, mindent feltörtek.

A képzés megkönnyítése érdekében a Mosaic az LLM Foundry-t (https://github.com/mosaicml/llm-foundry) telepítette. Ez a GitHub pontos kódbázissal rendelkezik, amelyet az MPT-7B és 30-B modellek betanításához használtak. Ez a tároló a Composer, StreamingDataset és FSDP segítségével tetszőleges méretű egyedi modelleket taníthat tetszőleges számú GPU-n. Közvetlenül a magánobjektum-tárhelyről is képes adatfolyamot továbbítani, a modell könnyen exportálható HuggingFace, ONNX vagy FasterTransformerbe. Az LLM Foundry-t a felhő A100-as és H100-asokon tesztelték, és gyorsan bővítjük a további hardverlehetőségek támogatását. A Foundry a több GPU-támogatással rendelkező modellek gyors kiértékeléséhez szükséges szkripteket is biztosítja.

Záró gondolatok

Az összes újabb, kompaktabb modellről a „kerítésen” gondolkodom. Egyrészt nagyon szeretem a lehetőséget, hogy megengedhetem magamnak, hogy részese legyek a nagyobb fejlesztéseknek, megértsem, és elég könnyen bemocskoljam a kezem. Kétségtelen, hogy a tapasztalat a fejlődés/siker kulcsa.

Mindazonáltal kíváncsi vagyok az adatvédelem közvetett változatára és az egészségügyi adatokról szóló képzéssel megnyíló biztonsági támadási vektorokra. Közvetve mondom, mert ami a platformjukat illeti, SOC2-tanúsítvánnyal rendelkezik, így a hagyományos vektorok is le vannak fedve (https://www.mosaic.tech/post/mosaic-soc-2-compliance). Szeretném, ha nagyobb kutatások születnének a Large Language modellek (vagy bármely más módszer) használatáról az adatok deazonosítására az értékelési módszerek magas színvonalával. Ezután a következő lépés az ilyen adatok felhasználása az LLM-ek képzésére. Ideális esetben a betegeknek részt kell venniük a profitmodellben, ha a törekvés egyik vagy másik kézzelfogható módon kereskedelmi jellegű. Biztos vagyok benne, hogy ha tervezzük, ki tudunk jönni ilyen kereskedelmi modellekkel, de gondolom, a befektetőkből hiányzik az akarat/akarat, hogy ez megvalósuljon.

Mindenesetre imádom, amit a MosaicML csinált, és remélem, hamarosan kipróbálhatom a modelleiket, és mindenkit frissítek a tapasztalataimmal. Kérlek kövess, iratkozz fel, és legyél tag az ajánlásom segítségével. Segít abban, hogy továbbra is igyekszem többet olvasni, többet írni és többet megosztani. Köszönöm!

Ha idáig elolvasta – köszönöm! Te egy hős vagy! Igyekszem olvasóimat naprakészen tartani „az AI világának érdekes eseményeiről”, ezért kérjük 🔔 taps| követni | Feliratkozás🔔

Legyen tag a hivatkozás segítségével: https://ithinkbot.com/membership

Keress meg a Linkedinben https://www.linkedin.com/in/mandarkarhade/

Felejtsd el a LAMP Stacket: megérkezett az LLM-verem!
A Huggingface az NLP/LLM ökoszisztéma új standard veremévé vált. Most a cégek azt kérik…pub.towardsai.net

Ismerje meg Gorillát: API-hívásokra hangolt teljesen nyílt forráskódú LLM
Kevesebb hallucináció és jobb, mint a GPT-4 írásbeli API-hívásokpub.towardsai.net

Szent Tehén! Bemutatkozik a DragGAN
Tegye életre Generatív AI-képeitpub.towardsai.net

GPT mód finomhangolása a Lightening-AI Lit-Parrot használatával
BYOD Bring Your Data! és a Let’s Train on Your GPUpub.towardsai.net

WizardLM: Teljesen nyílt forráskódú automatizált utasításadat-generátor
Az utasításalapú képzési adatok generálásának unalmas lépéseinek automatizálásapub.towardsai.net

Falcon-40B: Teljesen nyílt forráskódú alapítvány LLM
Minden Közreműködő ezennel örökös, világméretű, nem kizárólagos, visszavonhatatlan szerzői jogi licencet biztosít Önnek a…pub számára .towardsai.net

A H2Oai teljesen nyílt forráskódú GPT-t ad ki
A h2oGPT-20B, h2oGPT-12B v1 és h2oGPT-12B v2 modell Apache 2.0 licenccel (teljesen ingyenes…pub.towardsai.net

Artificial Intelligence Data Science Machine Learning Startup Innovation

hasonló anyagok:

A rádiógomb ellenőrzött eseményének használata a jQueryben

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Miért érdemes elkezdeni a kódolást 2023-ban?

🎙 Random Noise #2 – Örökbefogadás és hit

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék
Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS ChatGPT Javascript Development Statistics Data Golang Code Java Science Open Source Software DevOps Programming Languages Data Structures