Számítógépes látás készítése nyelvi modell segítségével

2023 van, és a világ éppen a GPT-4 feltalálásának volt tanúja. Ez egy nagyszerű Nyelvi Modell (LM) az open-ai-tól, amely különféle feladatok elvégzésére képes. Jelenleg nem ismerjük ennek a technológiai fejlődésnek a hatásainak teljes körét.

A legújabb bejelentett GPT-4 funkció multimodalitást tartalmaz: képeket adhat a modellhez. Ez felvet egy kérdést:

Megérthetik a nyelvi modellek a képeket képek nélkül?

Mielőtt képet adna be a GPT-be, próbálja meg ezt: konvertálja a képeket szöveggé.

Valójában mindent lehet szövegként ábrázolni. Kódot írhat képek, hangok, diagramok stb. létrehozásához. Például: konvertálhat képeket kóddá (például SVG-vé).

Kövesse az open-ai API "beállítási lépéseit", ha futtatni szeretné ezeket a kísérleteket.

Először nézze meg, hogy a GPT tudja-e, hogyan kell vonalat húzni:

Képes-e olyan számokat írni, mint az MNIST-ben?

A szám szürkeárnyalatos képét a rendszer 0 és 1s karakterekké alakítja, és betáplálja a modellbe. És bizonyos összefüggések alapján képes osztályozni és számokat generálni.

Lehet, hogy tárgyakat csinál a FashionMNIST?

Az adatok a hordható eszközök szürkeárnyalatos képeinek gyűjteménye. Minden pixel 0 és 9 közötti számmá alakul a pixelintenzitás jelzésére. És bizonyos mértékig képes osztályozni és generálni a kontextusban nem jelen lévő divatcikket.

Így annak ellenére, hogy a nyelvi modellek csak szövegbevitelt fogadnak el. Képes „vizualizálni”.

Tud beágyazni?

Próbáljon ki egy másik szintet. Mi lenne, ha kvantálnánk egy beágyazást, konvertálnánk szöveggé és betáplálnánk a modellbe.

Besorolható. De a pontossága nem túl jó ehhez a nulla forgatókönyvhöz.

A modell „finomhangolható” a beágyazó bemenetekhez. És jobb pontosságot érhet el a számítógépes látási feladatokhoz.

Úgy tűnik, a szöveg bizonyos mértékig multimodális. A nyelvi modelleket nemcsak természetes nyelvi feldolgozáshoz használhatjuk, hanem különféle módokon is.

TLDR: "notebook"

hasonló anyagok:

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS ChatGPT Javascript Development Statistics Data Java Science Golang Code Data Structures Open Source Software DevOps Programming Languages