Hogyan értékeljük a Word2Vec modellt

Szia, van saját korpuszom, és több Word2Vec modellt is oktatok rajta. Hogyan lehet a legjobban értékelni őket egymáshoz képest, és kiválasztani a legjobbat? (Nyilvánvalóan nem kézzel – különféle intézkedéseket keresek).

Érdemes megjegyezni, hogy a beágyazás elemekre vonatkozik, nem szóra, ezért nem tudok semmilyen meglévő benchmarkot használni.

Kösz!

04.10.2018

Válaszok:

Nincs általános módszer a token-vektor minőségének értékelésére, ha nem is használunk valódi szavakat, amelyekkel szemben más feladatokat (például a népszerű analógia-megoldást) meg lehetne próbálni.

Ha egyéni végső feladata van, akkor saját megismételhető pontozási módszert kell kidolgoznia. Ez valószínűleg vagy a tényleges végső feladat egy részhalmaza, vagy jól korrelál a végső feladattal. Lényegében bármilyen ad-hoc módszert használ is a „szemgolyó”-hoz, a józan észhez szükséges eredményeket rendszerezni kell, megmentve az egyes értékelésekből származó ítéleteket, hogy azokat ismételten le lehessen futtatni az iteratív modelljavításokkal szemben.

(További információra lenne szükségem az adatokról/elemekről és a végső célokról, hogy további javaslatokat tegyek.)

06.10.2018

Köszi szépen! zavar/entrópia/stb. nem használható általánosan? (Az adatok egy katalógusban szereplő termékazonosítók. A munkamenetet mondatként, a termékeket pedig szóként szeretném kezelni, hogy a termékeket word2vec használatával vektorként ábrázoljam) 07.10.2018

Feltételezem, hogy ellenőrizhető a modell prediktivitása a képzési szövegeken vagy más kinyújtott tesztszövegeken, de nem láttam, hogy ezeket a méréseket használtam volna a word2vec modellek közötti választáshoz, és nem vagyok benne biztos, hogy jól korrelálnának teljesítményt a végső feladatban. Ez a szó-előrejelzés képességének megszerzése az, amely a szóvektorokat más célokra hasznosan elrendezheti – de nem feltétlenül az a helyzet, hogy a képzési céljában legjobb modell a legalkalmasabb a későbbi célokra is. . Ezért a legjobb a feladatspecifikus értékelésre optimalizálni. 08.10.2018

A word2vec modell értékelésének egyik módja az "alapigazság" szókészlet kialakítása. Az alapigazság olyan szavakat fog képviselni, amelyeknek ideális esetben a legközelebb kell lenniük egymáshoz a vektortérben. Például, ha a korpusz az ügyfélszolgálathoz kapcsolódik, akkor ideális esetben az „elégedetlen” és a „csalódott” vektorok rendelkeznek a legkisebb euklideszi távolsággal vagy a legnagyobb koszinusz hasonlósággal.

Ezt a táblázatot az alapigazságra hozod létre, talán 200 szópárból áll. Ez a 200 szó a legfontosabb páros szavak az Ön iparágában/témájában. Annak megállapításához, hogy melyik word2vec modell a legjobb, egyszerűen számítsa ki az egyes párok távolságát, végezze el 200-szor, összegezze a teljes távolságot, és a legkisebb teljes távolság lesz a legjobb modell.

Jobban szeretem ezt a módszert, mint a "szemgolyó" módszert, bármit is jelentsen ez.

30.04.2019

Nos, a modell felügyelet nélküli modellnek készült, de most fel kellene címkéznem az adatokat, szerintem nagy fájdalom lenne 04.03.2020

A Word2Vec modell értékelésének egyik módja a K-Means algoritmus alkalmazása a Word2Vec által generált jellemzőkre. Ezzel együtt hozzon létre saját kézi címkéket / alapigazságot, amely az eseteket / rekordokat képviseli. A modell pontosságát úgy számíthatja ki, hogy összehasonlítja a fürtözött eredménycímkéket az alapigazság-címkével.

Pl.: CLuter 0 - Pozitív -{"Ez egy jó étterem", "Jó étel itt", "Nem olyan jó vacsora"} 1. klaszter - Negatív - {"Ez egy fantasztikus szálloda", "az étel elhalt volt"}

Most hasonlítsa össze a klaszterek által generált címkéket/címkéket a fürtökben lévő példányok/mondatok alapigazságértékeivel, és számítsa ki a pontosságot.

15.11.2019

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS Javascript Development Statistics Data ChatGPT Code Java Science Golang DevOps Programming Languages Data Structures Open Source Software