2023 van, és a világ éppen a GPT-4 feltalálásának volt tanúja. Ez egy nagyszerű Nyelvi Modell (LM) az open-ai-tól, amely különféle feladatok elvégzésére képes. Jelenleg nem ismerjük ennek a technológiai fejlődésnek a hatásainak teljes körét.

A legújabb bejelentett GPT-4 funkció multimodalitást tartalmaz: képeket adhat a modellhez. Ez felvet egy kérdést:

Megérthetik a nyelvi modellek a képeket képek nélkül?

Mielőtt képet adna be a GPT-be, próbálja meg ezt: konvertálja a képeket szöveggé.

Valójában mindent lehet szövegként ábrázolni. Kódot írhat képek, hangok, diagramok stb. létrehozásához. Például: konvertálhat képeket kóddá (például SVG-vé).

Kövesse az open-ai API "beállítási lépéseit", ha futtatni szeretné ezeket a kísérleteket.

Először nézze meg, hogy a GPT tudja-e, hogyan kell vonalat húzni:

Képes-e olyan számokat írni, mint az MNIST-ben?

A szám szürkeárnyalatos képét a rendszer 0 és 1s karakterekké alakítja, és betáplálja a modellbe. És bizonyos összefüggések alapján képes osztályozni és számokat generálni.

Lehet, hogy tárgyakat csinál a FashionMNIST?

Az adatok a hordható eszközök szürkeárnyalatos képeinek gyűjteménye. Minden pixel 0 és 9 közötti számmá alakul a pixelintenzitás jelzésére. És bizonyos mértékig képes osztályozni és generálni a kontextusban nem jelen lévő divatcikket.

Így annak ellenére, hogy a nyelvi modellek csak szövegbevitelt fogadnak el. Képes „vizualizálni”.

Tud beágyazni?

Próbáljon ki egy másik szintet. Mi lenne, ha kvantálnánk egy beágyazást, konvertálnánk szöveggé és betáplálnánk a modellbe.

Besorolható. De a pontossága nem túl jó ehhez a nulla forgatókönyvhöz.

A modell „finomhangolható” a beágyazó bemenetekhez. És jobb pontosságot érhet el a számítógépes látási feladatokhoz.

Úgy tűnik, a szöveg bizonyos mértékig multimodális. A nyelvi modelleket nemcsak természetes nyelvi feldolgozáshoz használhatjuk, hanem különféle módokon is.

TLDR: "notebook"