WebHU - Programozási kérdések és válaszok

Hogyan értékeljük a Word2Vec modellt

Szia, van saját korpuszom, és több Word2Vec modellt is oktatok rajta. Hogyan lehet a legjobban értékelni őket egymáshoz képest, és kiválasztani a legjobbat? (Nyilvánvalóan nem kézzel – különféle intézkedéseket keresek).

Érdemes megjegyezni, hogy a beágyazás elemekre vonatkozik, nem szóra, ezért nem tudok semmilyen meglévő benchmarkot használni.

Kösz!


Válaszok:


1

Nincs általános módszer a token-vektor minőségének értékelésére, ha nem is használunk valódi szavakat, amelyekkel szemben más feladatokat (például a népszerű analógia-megoldást) meg lehetne próbálni.

Ha egyéni végső feladata van, akkor saját megismételhető pontozási módszert kell kidolgoznia. Ez valószínűleg vagy a tényleges végső feladat egy részhalmaza, vagy jól korrelál a végső feladattal. Lényegében bármilyen ad-hoc módszert használ is a „szemgolyó”-hoz, a józan észhez szükséges eredményeket rendszerezni kell, megmentve az egyes értékelésekből származó ítéleteket, hogy azokat ismételten le lehessen futtatni az iteratív modelljavításokkal szemben.

(További információra lenne szükségem az adatokról/elemekről és a végső célokról, hogy további javaslatokat tegyek.)

06.10.2018
  • Köszi szépen! zavar/entrópia/stb. nem használható általánosan? (Az adatok egy katalógusban szereplő termékazonosítók. A munkamenetet mondatként, a termékeket pedig szóként szeretném kezelni, hogy a termékeket word2vec használatával vektorként ábrázoljam) 07.10.2018
  • Feltételezem, hogy ellenőrizhető a modell prediktivitása a képzési szövegeken vagy más kinyújtott tesztszövegeken, de nem láttam, hogy ezeket a méréseket használtam volna a word2vec modellek közötti választáshoz, és nem vagyok benne biztos, hogy jól korrelálnának teljesítményt a végső feladatban. Ez a szó-előrejelzés képességének megszerzése az, amely a szóvektorokat más célokra hasznosan elrendezheti – de nem feltétlenül az a helyzet, hogy a képzési céljában legjobb modell a legalkalmasabb a későbbi célokra is. . Ezért a legjobb a feladatspecifikus értékelésre optimalizálni. 08.10.2018

  • 2

    A word2vec modell értékelésének egyik módja az "alapigazság" szókészlet kialakítása. Az alapigazság olyan szavakat fog képviselni, amelyeknek ideális esetben a legközelebb kell lenniük egymáshoz a vektortérben. Például, ha a korpusz az ügyfélszolgálathoz kapcsolódik, akkor ideális esetben az „elégedetlen” és a „csalódott” vektorok rendelkeznek a legkisebb euklideszi távolsággal vagy a legnagyobb koszinusz hasonlósággal.

    Ezt a táblázatot az alapigazságra hozod létre, talán 200 szópárból áll. Ez a 200 szó a legfontosabb páros szavak az Ön iparágában/témájában. Annak megállapításához, hogy melyik word2vec modell a legjobb, egyszerűen számítsa ki az egyes párok távolságát, végezze el 200-szor, összegezze a teljes távolságot, és a legkisebb teljes távolság lesz a legjobb modell.

    Jobban szeretem ezt a módszert, mint a "szemgolyó" módszert, bármit is jelentsen ez.

    30.04.2019
  • Nos, a modell felügyelet nélküli modellnek készült, de most fel kellene címkéznem az adatokat, szerintem nagy fájdalom lenne 04.03.2020

  • 3

    A Word2Vec modell értékelésének egyik módja a K-Means algoritmus alkalmazása a Word2Vec által generált jellemzőkre. Ezzel együtt hozzon létre saját kézi címkéket / alapigazságot, amely az eseteket / rekordokat képviseli. A modell pontosságát úgy számíthatja ki, hogy összehasonlítja a fürtözött eredménycímkéket az alapigazság-címkével.

    Pl.: CLuter 0 - Pozitív -{"Ez egy jó étterem", "Jó étel itt", "Nem olyan jó vacsora"} 1. klaszter - Negatív - {"Ez egy fantasztikus szálloda", "az étel elhalt volt"}

    Most hasonlítsa össze a klaszterek által generált címkéket/címkéket a fürtökben lévő példányok/mondatok alapigazságértékeivel, és számítsa ki a pontosságot.

    15.11.2019
    Új anyagok

    A rádiógomb ellenőrzött eseményének használata a jQueryben
    Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

    Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre
    Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

    Miért érdemes elkezdeni a kódolást 2023-ban?
    01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

    🎙 Random Noise #2  – Örökbefogadás és hit
    az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

    A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban
    A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

    5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit
    Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

    Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?
    A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..