WebHU - Programozási kérdések és válaszok

Hogyan lehet redukálni a szemantikailag hasonló szavakat?

Van egy nagy szókészletem a dokumentumokból. A korpuszban olyan szavak vannak, amelyek ugyanazt jelenthetik. Például: "parancs" és "rend" ugyanazt jelenti, "alma" és "alkalmaz", ami nem ugyanazt jelenti.

A hasonló szavakat szeretném összevonni, mondjuk a "parancs"-ot és az "order"-et "parancsra". Megpróbáltam használni a word2vec-et, de nem ellenőrzi a szavak szemantikai hasonlóságát (jó hasonlóságot ad ki az apple és az alkalmazás esetében, mivel a szavak négy karaktere ugyanaz). És amikor megpróbálom használni a wup hasonlóságot, akkor jó hasonlósági pontszámot ad, ha a szavak egyező szinonimákkal rendelkeznek, amelyek eredményei nem olyan lenyűgözőek.

Mi lehet a legjobb módszer a szemantikailag hasonló szavak csökkentésére, hogy megszabaduljunk a redundáns adatoktól és egyesítsük a hasonló adatokat?


Válaszok:


1

Úgy gondolom, hogy az egyik lehetőség itt a WordNet használata. Listát ad a szó szinonimáiról, így összevonhatod őket, ha ismered a szórészét.

Arra viszont felhívnám a figyelmet, hogy a "parancs" és a "parancs" nem ugyanaz, pl. az éttermekben nem parancsol az ételnek, és ez a homonímia sok-sok szóra igaz.

Arra is szeretnék rámutatni, hogy a Word2vec helyesírása irreleváns, és egyáltalán nem veszi figyelembe, az algoritmus csak az egyidejű használatot veszi figyelembe. Feltételezem, hogy kevered a FastTexttel. A modellel azonban problémák adódhatnak. Mivel egy szabványos beágyazási készletben e fogalmak közötti távolságnak nagynak kell lennie. A MUSE FastText hasonlósága az "alma" és az "alkalmaz" között csak 0,15, ami meglehetősen alacsony.

Én a Gensim függvényét használom

model.similarity("apply", "apple")

Ezért előfordulhat, hogy javítania kell a tanulási paramétereket, vagy csak egy előre betanított modellt kell használnia.

03.09.2018
Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben
Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre
Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?
01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2  – Örökbefogadás és hit
az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban
A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit
Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?
A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..