Van egy nagy szókészletem a dokumentumokból. A korpuszban olyan szavak vannak, amelyek ugyanazt jelenthetik. Például: "parancs" és "rend" ugyanazt jelenti, "alma" és "alkalmaz", ami nem ugyanazt jelenti.
A hasonló szavakat szeretném összevonni, mondjuk a "parancs"-ot és az "order"-et "parancsra". Megpróbáltam használni a word2vec-et, de nem ellenőrzi a szavak szemantikai hasonlóságát (jó hasonlóságot ad ki az apple és az alkalmazás esetében, mivel a szavak négy karaktere ugyanaz). És amikor megpróbálom használni a wup hasonlóságot, akkor jó hasonlósági pontszámot ad, ha a szavak egyező szinonimákkal rendelkeznek, amelyek eredményei nem olyan lenyűgözőek.
Mi lehet a legjobb módszer a szemantikailag hasonló szavak csökkentésére, hogy megszabaduljunk a redundáns adatoktól és egyesítsük a hasonló adatokat?