Két finomhangolt változat kiadása, az MPT-30B-Instruct és MPT-30B-Chat, amelyek az MPT-30B tetejére épülnek

A közösség MPT-7B-vel fut, amelyet több mint 3 millió alkalommal töltöttek le. Egy hónapon belül létrejött a közösség.

  1. A "LLaVA-MPT" a látás megértését teszi hozzá az MPT-hez,
  2. A GGML optimalizálja az MPT-t az Apple Silicon és a CPU-kon, és
  3. A GPT4All segítségével egy GPT4-szerű chatbotot futtathat laptopján az MPT háttérmodellként.

Most a MosaicML, az összes MPT modell anyavállalata a 7B modell nagyobb testvérével bővítette az MPT sorozatot; Üdvözöljük az MPT-30B-t, amely az új, teljesen nyílt forráskódú, kereskedelmi használatra engedélyezett modell. Ez a modell lényegesen erősebb, mint a 7B, és sok benchmarkon felülmúlja a GPT-3-at. Ez a modell 2 finomhangolt változatban is megjelent; ezekhez a modellekhez a HuggingFace mezők össze vannak kapcsolva: MPT-30B-Instruct és MPT-30B-Chat.

Hogyan működik a kommercializáció? A MosaicML platformon használhatja saját adatait, és finomhangolhatja a modellt, vagy használhatja úgy, ahogy van. Ha a végén betanítja a modellt / finomhangolja a modellt, akkor a modell súlya a tiéd. Az adatokat soha nem tárolja a MosaicML platform, és az árat GPU-percenként fizetik. További lehetőségek a MosaicML Inference Starter és az Enterprise kiadások. Az Enterprise kiadás telepíthető saját privát VPC-n a tűzfal mögött.

A 30B-s méretet okkal választották, mert

  1. A modell betanításának kontextusa a 8K (ellentétben a GPT3, turbo-3.5, LLaMA 2K–4K tokenekkel)
  2. Támogatja a hosszabb kontextusokat az ALiBi-n keresztül (arxiv.org/pdf/2108.12409.pdf)
  3. A modell jól működik, ha az NVIDIA H100 8K-s ablakát használja a következtetésekhez
  4. 1x NVIDIA A100-80 GB-on telepíthető 16 bites pontossággal
  5. 1x NVIDIA A100–40 GB-on telepíthető 8 bites pontossággal (ellentétben a Falcon-40B-vel, amelyhez 2 vagy több GPU szükséges)

Képzési adatok:

Pontosabban, az olyan adatforrások, mint az mC4 3.1.0 – English, a The Stack Selected Languages, a The Stack Markdown, a Semantic Scholar ORC és a RedJamas, a sorozatok 40–50%-a több mint 4K token, ami lehetővé tette a modell betanítását. elegendő adaton hosszú sorozatokkal.

Összehasonlítva a képzési költségvetést, az MPT minden bizonnyal kevesebb költségvetést használt fel (FLOP-ban és USD-ben is). Az alábbiakban az egyes fő versenyzők MPT-30B-re való edzése során használt flopok hozzávetőleges száma látható.

  • MPT-30B ~= 6 * 30e⁹ [paraméter] * 1,05e¹² [token] = 1,89e²³ FLOP
  • LLaMa-30B ~= 6 * 32,5e⁹ [paraméter] * 1,4e¹² [token] = 2,73e²³ FLOP
  • Falcon-40B ~= 6 * 40e⁹ [paraméter] * 1e¹² [token] = 2,40e²³ FLOps

Ez azt jelenti, hogy a LLaMA-30B körülbelül 1,44-szer több FLOP költségvetést használt fel, és a Falcon-40B 1,27-szer akkora FLOP költségvetéssel rendelkezett, mint az MPT-30B. Az MPT-30B-re való edzés minden bizonnyal hatékonyabbnak tűnik.

Eredmények

Az MPT-30B lényegesen jobb a programozásban, ami tükrözheti a képzés előtti adatkeveréket, amely jelentős mennyiségű kódot tartalmaz. Az MPT-30B, MPT-30B-Instruct és MPT-30B-Chat „HumanEval” pontszámait a meglévő nyílt forráskódú modellekkel összehasonlítva az MPT-30B modellek nagyon erősek a programozásban, és az MPT-30B-Chat minden modellt felülmúl, kivéve a WizardCodert. A vállalat azt állítja, hogy a szöveges és programozási képességek ezen kombinációja az MPT-30B modelleket népszerű választássá teszi a közösség számára.

Az MPT-7B-hez képest az MPT-30B modell minden szempontból jelentős előrelépést jelent.

Az MPT-30B és a GPT-3 nullapontos összehasonlítása a kilenc kontextuson belüli tanulási (ICL) feladatban az MPT-30B-hez képest nagyon kis előnyt jelent. Bár meg kell jegyeznünk, hogy az MPT-30B-t a vizsgálat során értékelték, és a GPT-3 számok közvetlenül az eredeti GPT-3 papírból származnak.

MPT-30B Utasítás

Az MPT-30B egy szteroidos dolly, ahol a Dolly licencét és alapját használja, de több edzési adatot ad hozzá az Anthropic Helpful & Harmless adatkészletével, megduplázva az adatkészlet méretét, miközben fenntartja a kereskedelmi CC-By-SA-3.0 licencet. Ezen felül az MPT-30B 8K token környezethosszúsággal rendelkezik, ami lényegesen jobb, mint bármelyik korábbi modell. Ez a modell a CompetitionMath, a GradeSchoolMath, a DialogSum, a DuoRC, a QASPER, a QuALITY, a SummScreen és a Spider adatkészletek alapkiegészítésének előnyeit élvezi.

MPT-30B Chat

Az MPT-30B-chat az MPT-30B finomhangolt társalgási változataként jött létre. A kombinált finomhangolási adatkészlet 1,54B tokenből áll, és a modell 6 korszakra van betanítva. Az adatkészlet a ChatML formátumot használja, amely kényelmes és szabványosított módot biztosít a rendszerüzenetek továbbítására a modellnek, és segít megelőzni a rosszindulatú azonnali befecskendezést.

Az MPT-30B-Chat nem kereskedelmi használatra szolgál, anem kereskedelmi célú CC-By-NC-SA-4.0 licenc alatt kapott engedélyt. Csak kutatási célokra készült. Ezzel szemben az MPT-30B (alapmodell / nem finomhangolt) nyílt forráskódú, és kereskedelmi használatra is használható.

Telepítés

Engem a Mosaic ML semmilyen formában, formában vagy formában nem szponzorál, csak azt ismétlem, amit hasznosnak, érdekesnek és megértettem. A MosaicML következtetési platform indító és vállalati kiadása hasonló funkciókat kínál, mint az OpenAI. Csak egy GPU-perc költséget kell fizetnie.

A Mosaic azt állítja, hogy az OpenAI-hoz képest a Mosaic négyszeres költségmegtakarítást kínál. A Mosaic árazási modellje GPU-perc, mint token (mint például az OpenAI). Ez szintén nem tartalmazza az egyedi modellek prémiumát (az OpenAI 6-szoros prémiumot ad a finomhangolt modellekhez). Ez sok megtakarítást jelenthet.

Ha a mozaikkövetkeztetés vállalati kiadását használja, a megtakarítás lehetősége 15-szörösére nő az OpenAI-hoz képest, mivel saját következtetési platformját a helyszínen tárolhatja.

Képezze el saját modelljét

A MosaicML tréning segítségével az MPT-30B modellt is finomhangolhatja személyes adatain. Kérem, vegyék egy kicsit az adatvédelmet, mivel manapság úgy tűnik, mindent feltörtek.

A képzés megkönnyítése érdekében a Mosaic az LLM Foundry-t (https://github.com/mosaicml/llm-foundry) telepítette. Ez a GitHub pontos kódbázissal rendelkezik, amelyet az MPT-7B és 30-B modellek betanításához használtak. Ez a tároló a Composer, StreamingDataset és FSDP segítségével tetszőleges méretű egyedi modelleket taníthat tetszőleges számú GPU-n. Közvetlenül a magánobjektum-tárhelyről is képes adatfolyamot továbbítani, a modell könnyen exportálható HuggingFace, ONNX vagy FasterTransformerbe. Az LLM Foundry-t a felhő A100-as és H100-asokon tesztelték, és gyorsan bővítjük a további hardverlehetőségek támogatását. A Foundry a több GPU-támogatással rendelkező modellek gyors kiértékeléséhez szükséges szkripteket is biztosítja.

Záró gondolatok

Az összes újabb, kompaktabb modellről a „kerítésen” gondolkodom. Egyrészt nagyon szeretem a lehetőséget, hogy megengedhetem magamnak, hogy részese legyek a nagyobb fejlesztéseknek, megértsem, és elég könnyen bemocskoljam a kezem. Kétségtelen, hogy a tapasztalat a fejlődés/siker kulcsa.

Mindazonáltal kíváncsi vagyok az adatvédelem közvetett változatára és az egészségügyi adatokról szóló képzéssel megnyíló biztonsági támadási vektorokra. Közvetve mondom, mert ami a platformjukat illeti, SOC2-tanúsítvánnyal rendelkezik, így a hagyományos vektorok is le vannak fedve (https://www.mosaic.tech/post/mosaic-soc-2-compliance). Szeretném, ha nagyobb kutatások születnének a Large Language modellek (vagy bármely más módszer) használatáról az adatok deazonosítására az értékelési módszerek magas színvonalával. Ezután a következő lépés az ilyen adatok felhasználása az LLM-ek képzésére. Ideális esetben a betegeknek részt kell venniük a profitmodellben, ha a törekvés egyik vagy másik kézzelfogható módon kereskedelmi jellegű. Biztos vagyok benne, hogy ha tervezzük, ki tudunk jönni ilyen kereskedelmi modellekkel, de gondolom, a befektetőkből hiányzik az akarat/akarat, hogy ez megvalósuljon.

Mindenesetre imádom, amit a MosaicML csinált, és remélem, hamarosan kipróbálhatom a modelleiket, és mindenkit frissítek a tapasztalataimmal. Kérlek kövess, iratkozz fel, és legyél tag az ajánlásom segítségével. Segít abban, hogy továbbra is igyekszem többet olvasni, többet írni és többet megosztani. Köszönöm!

Ha idáig elolvasta – köszönöm! Te egy hős vagy! Igyekszem olvasóimat naprakészen tartani „az AI világának érdekes eseményeiről”, ezért kérjük 🔔 taps| követni | Feliratkozás🔔

Legyen tag a hivatkozás segítségével: https://ithinkbot.com/membership

Keress meg a Linkedinben https://www.linkedin.com/in/mandarkarhade/