Az új keretrendszer referenciaként szolgálhat a termelésre kész LLM megoldásokhoz.

Nemrég elindítottam egy AI-központú oktatási hírlevelet, amelynek már több mint 160 000 feliratkozója van. A TheSequence egy no-BS (azaz nincs hírverés, nincs hír, stb.) ML-orientált hírlevél, amelynek elolvasása 5 percet vesz igénybe. A cél az, hogy naprakészen tartsa a gépi tanulási projekteket, kutatási dokumentumokat és koncepciókat. Kérjük, próbálja ki az alábbi feliratkozással:



A nagy nyelvi modellek (LLM), például a ChatGPT lenyűgöző képességeit széles körben elismerték. Ezek a modellek kiválóak a természetes nyelvű szövegek létrehozásában, amelyek gördülékenyek, koherensek és informatívak. Kivételes teljesítményük a kódolt világismeret gazdagságának és az abból való általánosítás képességének tudható be. Az LLM-ekben található tudáskódolás azonban hajlamos az elvesztésre, és az általánosítási folyamat „memória torzulásához” vezethet. Következésképpen ezek a modellek gyakran hallucinációkat mutatnak, ami problémás lehet, ha kritikus feladatokra alkalmazzák őket. Ezenkívül a modellméretek exponenciális növekedése ellenére az LLM-ek nem képesek minden alkalmazáshoz szükséges információt kódolni. Például a valós beállítások dinamikus természete miatt az LLM-ek gyorsan elavulnak az olyan időérzékeny feladatokhoz, mint a hírkérdések megválaszolása. Ezenkívül számos védett adatkészlet nem érhető el az LLM-képzés számára adatvédelmi aggályok miatt. A Microsoft Research a közelmúltban „közzétett egy tanulmányt az LLM-AUGMENTER-ről”, egy olyan keretrendszerről, amely az LLM-eket külső tudással és automatikus visszajelzéssel bővíti.

Funkcionálisan az LLM-AUGMENTER a tudásbővítést és a memóriát egy összefüggő architektúrában ötvözi. A következő ábra az LLM-AUGMENTER-t egy futballforgatókönyv összefüggésében mutatja be. Amikor egy felhasználói kérdés elé állítják, például a 2013-as Los Angeles Galaxy-t érintő játékosátigazolással kapcsolatos kérdést, az LLM-AUGMENTER bizonyítékokat kér le…