A szöveg előfeldolgozásának alapvető technikái

Tokenizálás – Az adott szöveg tokenek formájában szavakra és mondatokra bontásának folyamata. Bármilyen szövegelemzési eljárás előtt (legyen szó osztályozásról vagy generálásról), a szöveget kisebb egységekre kell osztani nyelvi egységek, például szavak, számok, írásjelek és alfanumerikus stb. alapján. Ezt az eljárást úgy ismerjük, mint tokenizálás. Valódi formájában az előfeldolgozó részhez tartozik, mert anélkül, hogy egy adott szövegből különálló egységet kapnánk, semmilyen elemzéssel, generálással kapcsolatos feladat nem lehetséges.

A szükségtelen írásjelek, címkék eltávolítása – Ez egy egyszerű, de nagyon szükséges előfeldolgozási technika. Már a címből is kiderül, hogy mi a teendő ebben a lépésben. Szinte minden programozási nyelvhez elérhető már nagyon sok olyan könyvtár, amely ezt a feladatot néhány sornyi kóddal el tudja végezni, de szükséges, mert elengedhetetlen lépés az adott szöveg tisztább formába állítása.

Stopszavak eltávolítása – A leállító szavak a szövegelemzési eljárás szempontjából haszontalan szavaknak minősülnek, amelyek olyan szavakat jelentenek, amelyeknek nincs, vagy nagyon kisebb a jelentősége a teljes mondat elemzése szempontjából, az ilyen típusú szavak, amelyeket stopszavaknak neveznek. Ezeket a szavakat alapvetően különböző technikákkal lehet eltávolítani, amelyek a következők:

  • Felügyelt gépi tanulás – A stopszavak eltávolítása a funkcióterületről.
  • Clusterezés – a stopszavak eltávolítása a fürtök létrehozása előtt.
  • Információ-visszakeresés – A stopszavak indexelésének megakadályozása.
  • Szövegösszegzés – A stopszavak kizárása az összegzési pontszámokhoz való hozzájárulásból, és a stopszavak eltávolítása a ROUGE pontszámok kiszámításakor.

Tőrész – Általában egy durva heurisztikus folyamatra utal, amely levágja a szavak végét annak reményében, hogy ezt a célt legtöbbször helyesen éri el, és gyakran magában foglalja a származékos toldalékok eltávolítását is. Az angol szótő legelterjedtebb algoritmusa, amelyről már többször bebizonyosodott, hogy empirikusan nagyon hatékony, a Porter-algoritmus. o n a porter stemmer alapját fejlesztették ki, amely nagyon népszerű a szárképzésben. Más szárak is rendelkezésre állnak, mint például a Lovins stemmer és a Paice stemmer, amelyek ugyanerre a célra használhatók. Nagyon sok könyvtár áll rendelkezésre különböző nyelveken, amelyek közvetlen támogatást nyújtanak ehhez a folyamathoz.

Lemmatizálás – Általában arra utal, hogy a dolgokat megfelelően végezzük szókincs használatával és a szavak morfológiai elemzésével, amelynek célja általában csak a ragozásos végződések eltávolítása, valamint a szó alap- vagy szótári alakjának visszaadása, amely ún. a lemma. Ez a Natural Language Processing eszköze, amely teljes morfológiai elemzést végez, hogy pontosan azonosítsa az egyes szavak lemmáját. A teljes morfológiai elemzés elvégzése legfeljebb nagyon szerény előnnyel jár a visszakeresés szempontjából. Nehéz többet mondani, mert a normalizálás egyik formája sem javítja összességében az angol információ-visszakeresési teljesítményt – legalábbis nem nagyon. Noha egyes lekérdezéseknél sokat segít, mások esetében ugyanilyen mértékben rontja a teljesítményt. A száradás növeli a felidézést, miközben rontja a pontosságot. A Lemmatizer a lemmatizálási folyamathoz használt eszközök. Sok könyvtár már előre beépített funkcióval rendelkezik a lemmatizálás egyszerű elvégzéséhez.

A szövegosztályozás alapvető technikái

Szóbeágyazások – A szó kontextusának rögzítéséhez egy szövegfájlban szóbeágyazást használnak. Segítségével megállapítható a szintaktikai és szemantikai hasonlóság, a szavak közötti kapcsolat. Így most már világos, hogy miért használják a szóbeágyazást. De mik is pontosan a szóbeágyazások? Ezek azok a vektorok, amelyek egy adott szót szimbolizálnak. A szóbeágyazás mechanizmusa az elosztott reprezentációk létrehozásának gondolatán alapul. Amint fentebb említettük, a kapcsolat úgy jön létre, hogy egy szónak bizonyos függőségét bevezetjük más szavakkal. A Word2vec manapság egyre népszerűbb a szóbeágyazások területén. Ez egy neurális hálózati megközelítés, amelyet egy ilyen beágyazás fejlesztésére használnak. Ez ismét a Skip Gram és a Common Bag szavakon alapul, amelyeket alább tárgyalunk. Mielőtt ilyen részletekbe bocsátkoznánk, egy fontos szempontot meg kell említeni, hogy kétféle szóbeágyazási megközelítés létezik, amelyeket főként használnak, bár léteznek más megközelítések is.

Ezek a megközelítések -

  • Gyakoriság alapú beágyazás – Count Vector, TF-IDF vektorizálás
  • Jóslás alapú beágyazás – Gram modell kihagyása, folyamatos szavak gyűjteménye

Vektorok számlálása – Ez a megközelítés kétfázisban működik, először az összes megadott szövegből megtanul egy szókincset, a második szakaszban pedig portréképes minden dokumentumot úgy, hogy kiszámítja, hányszor jelenik meg az egyes szavak. A számlálóvetor eljárás esetén az egyik előfeltétel, hogy a stop szavakat el kell távolítani a számlálóvektor alkalmazása előtt.

TF-IDF vektorizálás – a számlálási jellemzők súlyának újrafelosztása érdekében, hogy egyesek támogassák a lebegőpontos értékeket (ami előnyt jelent a ritkább, de érdekesebb kifejezések megjelenítéséhez) majd ezeket az értékeket használhatja az osztályozó, a TF-IDF-et használja. Segítségével nem csak a dokumentumban, hanem a teljes korpuszban is kiszámítható egy szó előfordulása. A TF-IDF-ben a TF kifejezés-gyakoriság-szor inverz dokumentumot jelent – ​​gyakoriság (IDF), amely matematikailag ábrázolható a következő képlettel:

  • TF = (A t kifejezés hányszor jelenik meg egy dokumentumban) / (A kifejezések száma a dokumentumban).
  • IDF = Log(N/n), ahol N a dokumentumok teljes száma, n pedig azoknak a dokumentumoknak a száma, amelyekben a t kifejezés szerepel.
  • TF-IDF(t,dokumentum) = TF (t,dokumentum) * IDF (t)

Continuous Bag of Words (CBOW) – Ez alapvetően egy tanulási folyamat, amely után a modell a kontextus alapján jósolja meg a szót. A kontextus lehet egyetlen szó vagy több szó egy adott célszóhoz. Ez egy neurális hálózat alapú megközelítés, amely háromféle rétegből áll: bemeneti rétegből, rejtett rétegből és kimeneti rétegből. Kétféle súlyozás létezik: a bemeneti és a rejtett réteg közötti súlyok, a rejtett és a kimeneti réteg közötti súlyok. Egyszerűen fogalmazva, először a kimenetet állítják elő a bemeneti rétegből egy-hot reprezentációval, amely a rejtett réteg kimenetének generálására szolgál, amelyből a pontszámokat a softmax függvény segítségével valószínűségekké alakítják. A keresztentrópia a keletkezett veszteség kiszámítására szolgál.

Skip-gram modell – Ebben a példában a modell úgy van betanítva, hogy a modell teljes mértékben képes generálni a kontextus környező szavait. A Skip-gram modell megfordítja a cél- és kontextusszavak használatát. A Skip-gram kivesz egy szót, és megjósolja belőle a kontextus szót. A skip-gram modell funkcionalitása megegyezik a CBOW modell funkcióival. Ez csak a CBOW modell fordítottja.

Glove – A Glove egy felügyelet nélküli tanulási algoritmus a szavak vektoros reprezentációinak lekérésére. A képzés egy korpuszból származó összesített globális szó-szó együttes előfordulási statisztikákon történik, és az eredményül kapott reprezentációk a szóvektortér érdekes lineáris részstruktúráit mutatják be. Tehát mi a különbség a word2vec modell és a Glove modell között? Az első és legfontosabb különbség köztük: a word2vec egy prediktív típusú modell, míg a Glove egy számláláson alapuló modell. Tehát ez a modell rendelkezik a skip-gram modell tulajdonságával, amikor szóanalógiáról van szó, a mátrixfaktorizációs módszerek előnyeivel, amelyek kihasználják a globális statisztikai információkat.

Gépi tanulás szövegelemzéshez

Jöjjön a modellezési rész, amely minden eljárás magjának mondható, legyen szó hangulatelemzésről, szövegelemzésről, levélszemét-felismerésről vagy egyszerű szövegosztályozásról. Ahhoz, hogy jobb szoftvert kapjunk, jobb algoritmust kell választani, egy kiváló szoftverhez pedig az algoritmus kiválasztásának kiválónak kell lennie. Tehát minden az algoritmus megválasztásától, a szövegelemzési technikától függ.

Az algoritmusok kiválasztása számos különböző dologtól függ, és hogy nagyon konkrét legyen, közvetlenül a használati esettől függ. Általánosságban véve azonban van néhány paraméter, amelyeket szem előtt kell tartani, amikor egy adott feladathoz algoritmust választunk. Természetesen a pontosság az egyik legfontosabb paraméter az algoritmus kiválasztásához, de a hatalmas adatok korában nem ez az egyetlen. A tér- és időbonyolultságot is figyelembe kell venni a főparaméterek versenyében, amikor egy feladathoz algoritmust választunk. Tehát most három paraméter van, amelyek alapján az algoritmus kiválasztását, valamint azt, hogy ezek közül mi, miért és hol tárgyaljuk. Ez a három paraméter:

  • Pontosság
  • Tér (memória szempontjából)
  • Idő (idő a modell működőképessé tételéhez)

Multinomiális naiv Bayes – Ahogy a neve is sugallja, ez az algoritmus a Naive Bayes jól ismert valószínűség-elméletén alapul. Ez az algoritmus a Naive Bayes algoritmusok családjába tartozik, amely a Gaussian Naive Bayes és a Bernoulli Naive Bayes testvérekből is áll. A fő különbség ezekben az algoritmusokban az, hogy a Gauss-t használják azokhoz az adatokhoz, amelyekben folytonos érték van társítva a jellemzőkkel, a Bernoulli használható, ha ez a társított érték logikai jellegű, és a jellemzővektorok azt a gyakoriságot képviselik, amellyel bizonyos eseményeket generált egy multinomiális eloszlás.

Ez a dokumentumosztályozáshoz általában használt eseménymodell. Tehát ez a naiv Bayes-algoritmus alkalmas az analitikai munkára. A pontosság szempontjából a „Multinomial Naive Bayes” hiányozhat egy kicsit (nem annyira), ha összehasonlítjuk az SVM-et, a regressziót és más gépi tanulási technikákat, de a pontosság az is, hogy az adatok milyen jól vannak elődolgozva, és a megfelelő funkciótervezés. . Ám a felépítését tekintve egyszerűsége miatt az adatok méretétől függetlenül le tud verni más gépi tanulási algoritmusokat, ami azt jelenti, hogy közepes pontosságot és jó sebességgel tud biztosítani mind nagy, mind kis adathalmazokon.

Lineáris támogató vektorgép – A támogatási vektorgép szépsége abban rejlik, hogy képes kezelni a folyamatos és a kategorikus adatokat is. Folyamatos adatok kezelésére használható a támaszvektor gép regressziós változata, kategorikus adatok kezelésére pedig támaszvektor gép, mint osztályozó használható. Ez a dokumentum azonban a szövegelemzésről szól, így csak a kategorikus adatokat tekintjük az adatok természetének. Az SVM használata garantálja az optimalitást, ami azt jelenti, hogy a konvex optimalizálás természetéből adódóan a megoldás garantáltan a globális, nem pedig egy lokális minimum, ami önmagában is nagy előny, és az optimalizálás az SVM esetében is egyszerű a kevesebb elérhetőség miatt. paraméterek vagy hiperparaméterek.

A pontosságot tekintve jó pontosságot tud adni, de kevesebb zajt, vagy nagyon kevésbé zajmentes adatot igényel. Az SVM egyik bökkenője az, hogy nem támogatja a word2vec beágyazási technika használatát a jellemzők kinyerése során, ezért az SVM megvalósításánál jobb a Bag of words megközelítést használni a jó pontosság elérése érdekében. A naiv bay-ekhez képest az SVM felépítése összetett, aminek következtében időbe telik, hogy betanítsa magát, és ennek a modellnek több hely kell a mentéshez.

Egyszóval, az SVM akkor jó, ha jobb pontosságra van szükség kevesebb adat cseréjéhez, hogy a megfelelő szolgáltatástervezésre és előfeldolgozásra van szükség. De nagy mennyiségű adat esetén ismét hiányozni fog a pontosság.

Logisztikus regresszió – Igen, bizonyos trükkökkel és módszerekkel a logisztikus regresszió olyan szöveges adatokhoz is használható, amelyek általában kategorikus jellegűek. Az iparágakban a trendekben a logisztikus regresszióra támaszkodni, mert ezek előrejelző ereje többnek tekinthető, mint a tisztán osztályozáson alapuló megoldások. De ennek is megvannak a hátrányai, először is nem teljesít jól nagy mennyiségű kategorikus jellemzővel/változóval, és nincs pontossága. Tehát általában nem tudja kezelni azokat az adatokat, ahol túl nagy a terület. Az ilyen feltételekkel való megbirkózás érdekében logisztikus regresszió és így jellemző redukció esetén vált szükségessé a jellemző szelekció.

Összehasonlítva tehát a paraméterek (pontosság, térbonyolultság és időbonyolultság) szempontjából finom pontosságot ad kevesebb terepadattal, vagy jó jellemzőtervezési technikákkal, mindkét esetben idő kell, így időbe telik a mechanizmusa. Ez is helyet foglal, de nem tud túl jól kezelni nagy mennyiségű adatot.

Mélytanulás a szövegelemzéshez

Eddig az előfeldolgozási technikák, a különféle jellemzőtervezési technikák és a gépi tanulási modell technikák fogalma szerepel a szövegelemzés vonatkozásában. De ha a modell fejlesztéséről beszélünk vállalati szinten, ezek a technikák valamikor működhetnek. Legtöbbször valami többre van szükség ahhoz, hogy a dolgokat nagy szintre emeljük, és hatalmas mennyiségű adatot kezeljünk. Ezt a valamit a mély tanulási technikák segítségével fedik le. Számos technika áll rendelkezésre az adattudomány szövegelemzési ágának lefedésére, és a felhasználási esettől is függ, hogy melyik technikát kell használni. Az alábbiakban néhány technikát ismertetünk. Ez az áttekintés ismét a mit, miért és hol fogalmára írt, három fő paramétert, azaz a pontosságot, az időbonyolultságot és a térkomplexitást figyelembe véve.

fastText – Kezdjük az egyszerűvel. A fastText megvalósítása a hatékony szövegosztályozási trükkökön, a szövegelemzésen és a fastText rövid bemutatásán alapul. A szóbeágyazást előfolyamatnak tekinti, miután minden egyes szót beágyaz a mondatba, ezek a szóreprezentációk átlagolódnak szöveges reprezentációvá, amely viszont egy lineáris osztályozóba kerül. A softmax függvényt használja az előre meghatározott osztályok valószínűségi eloszlásának kiszámításához. Ezután a keresztentrópiát használják a veszteség kiszámítására. A szóábrázolás zsákja nem veszi figyelembe a szórendet. a szórend figyelembevétele érdekében az n-gram jellemzőket a helyi szórendről szóló részinformációk rögzítésére használják; Ha az osztályok száma nagy, a lineáris osztályozó kiszámítása számítási szempontból költséges. tehát hierarchikus softmaxot használ az edzési folyamat felgyorsításához.

Mostanáig mi a fastText röviden le van írva. Most nézzük meg, hol használható, így ez a modell főként két célra használható szóreprezentációra, szövegosztályozásra és szövegelemzésre. De a kérdés az, hogy amikor már létezik egy szóvektornak nevezett megközelítés (word2vec), akkor miért kell a fastText-et használni, így értsük meg a köztük lévő különbséget. A FastText abban az értelemben különbözik, hogy a szóvektorok, más néven word2vec, minden egyes szót a legkisebb egységként kezel, amelynek vektoros reprezentációja megtalálható, de a FastText feltételezi, hogy egy szó egy n-gramm karakterből áll, például a sunny a következőkből áll: [sun, sunn,sunny], [sunnny,unnny,nny] stb, ahol n 1-től a szó hosszáig terjedhet. A szónak ez a fastText általi új reprezentációja a következő előnyöket nyújtja a word2vec-hez vagy a kesztyűhöz képest.

A fastText másik előnye, hogy Python könyvtárként is elérhető, ami egyszerűvé teszi a használatát. Csak telepítse a pythonba, és készen áll a használatra a már előre meghatározott funkciók listájával. Szóbeágyazás létrehozásához Skipgram és CBOW megközelítés használható, a fastText könyvtára is tartalmaz előre definiált függvényeket.

Itt az ideje, hogy megértsük, miért? a fastText tekintetében. Az első dolog az, hogy nagyon gyors, korlátozott adatmennyiséggel több nagyon népszerű modellt is meg tud verni, mint például a TextCNN. Másodszor, segítségével könnyen kiszámítható a mondatvektoros ábrázolás. Nyilvánvaló tehát, hogy a fastText jobban működik kis adathalmazokon, ha összehasonlítjuk a word gensim megközelítésekkel, azaz a Word2vec-el, de a probléma akkor jelentkezik, ha nagy adathalmaz esete jön. A pontosság szempontjából jó pontosságot ad kis adatkészleteknél, míg nagy adatkészleteknél hiányzik a pontosság. Az idő összetettségét tekintve bármely modellt legyőzhet egy jó napon. A tér összetettségét tekintve kevesebb memóriát igényel, de hiányzik a nagy adatkészlet.

TextCNN – A CNN-ek már bizonyították értéküket és képességeiket a Computer Vision területén, de kifejezetten szövegosztályozási feladatokhoz használhatók szövegelemzési feladatokhoz. A TextCNN megvalósítása a mondatosztályozáshoz használt konvolúciós neurális hálózatokon alapul. A TextCNN rétegszerkezetét az alábbiakban ismertetjük -

  • Beágyazó réteg
  • Konv. réteg
  • max pooling réteg
  • Teljesen összekapcsolt réteg
  • Softmax funkcióréteg

A mondat hossza az egyes esetekben eltérő lesz. Tehát a betétet a rögzített hosszúság, n. A mondat minden tokenjéhez a Word beágyazást használjuk, hogy egy rögzített dimenziós vektort kapjunk, d. A bemenet egy 2-dimenziós mátrix lesz:(n,d). Ez hasonló a CNN képéhez.

Először konvolúciós műveletet kell végrehajtani a bemeneten. Ez egy elemenkénti szorzás a szűrő és a bemenet egy része között. Használjon k számú szűrőt, minden szűrőméret egy 2-dimenziós mátrix (f,d). Most a kimenet k számú lista lesz. Minden lista n-f+1 hosszúságú. minden elem egy skalár. Figyeljük meg, hogy a második dimenzió mindig a szóbeágyazás dimenziója lesz. Itt különböző méretű szűrőket használjon, hogy gazdag szolgáltatásokat kapjon a szövegbevitelből, és ez valami hasonló az n-gram funkciókhoz.

A második lépés a max pooling végrehajtása a konvolúciós művelet kimenetéhez. K számú lista esetén k számú skalárt kapunk.

A harmadik lépés a skalárok összefűzése a végső jellemzők kialakításához. Ez egy fix méretű vektor. És ez független a használt szűrők méretétől.

Utolsó lépésként lineáris réteget használunk, hogy ezeket a jellemzőket meghatározott címkékre vetítsük.

Hogy mi az a TextCNN, az eddig le van fedve. Most nézzük meg, hol használható a TextCNN? A TextCNN jobb az osztályozással kapcsolatos feladatokhoz, mivel hierarchikus felépítése van. A mondatillesztési feladatban felülmúlhatja a különböző technikákat (Infact RNN is). Egyes feladatokban azonban, mint például a szekvenciarendezés, a beszédrész-címkézés és a szekvenciamodellezés, elmarad az RNN tekintetében.

A CNN esetében két kulcsparaméter optimalizálása játszik fontos szerepet, ezek a paraméterek a Hidden Size és a Batch Size. Azonban előfordult, hogy a tanulási sebesség ingadozása a CNN esetében egyenletes marad a teljesítmény tekintetében. Ma már jól ismert tény, hogy a CNN-hez idővonat szükséges, és egy CNN-modell tárolásához is szükség van egy határterületre, azonban az adatkészlet mérete nem befolyásolja annyira a CNN pontosságát, bár növelheti a CNN betanítási idejét. modell.

BERT – mély kétirányú transzformátorok előképzése a nyelv megértéséhez

A BERT modell architektúrája a kódolón alapul, amely transzformátor és kétirányú. A transzformátorok beépítése növeli a képzés hatékonyságát és teljesítményét a távolsági függőségek rögzítésében, ha összehasonlítjuk az alapvető visszatérő neurális hálózattal. A BERT architektúrájáról beszélve egy nagy méretű modellnek tekinthető, amely 1024 rejtett réteggel, 24 transzformátor blokkal és közel 340 millió paraméterrel rendelkezik. Ezért egy előre betanított modellt használnak, amelyet ismét a modell követelményei szerint képeznek ki.

Az előképzési folyamat során a maszkolt nyelvi modellt (MLM) használják a bemeneti tokenek százalékos elfedésére a mély, kétirányú ábrázolás betanítása érdekében. A beágyazáshoz Wordpiece beágyazást használunk. Rendelkezik a Következő mondat előrejelzésével, aminek köszönhetően olyan feladatokra használható, mint a kérdés megválaszolása, következtetések levonása azokra a feladatokra, mint ahol szükség van a mondatok közötti kapcsolat megértésére.

A BERT-modell használatához a rendszer letölt egy előre betanított modellt, és elvégzi a modell finomhangolását a használati esetre jellemző adatok felhasználásával. Tehát ez a rész mostanáig azt mutatja be, hogy mit, miért és hogyan tartalmaz a BERT modell. Most röviden tárgyaljuk, hogy a BERT mely része használható, ahol szükség van többcímkés osztályozásra, online előrejelzésekre, és természetesen a fentiek szerint tökéletesen jól használható olyan feladatokban, ahol szükség van mondatgenerálási előrejelzésre.

TextRNN – Nyilvánvaló, hogy amikor az RNN-t figyelembe veszik bármilyen feladatnál, az RNN vaníliás verziójának figyelmen kívül hagyása automatikusan az LSTM verziót veszi figyelembe. Ennek a választásnak az oka egyszerű, mert az LSTM előnyként biztosítja a memóriát.

Az RNN szöveg felépítése a következő:

Beágyazás → kétirányú LSTM → concat kimenet → átlagos → softmax

Ha a beágyazásról beszélünk, a szóbeágyazás jó lehetőség a szöveg RNN-nel való használatához. Ez egy rövid bevezető arról, hogy mi a TextRNN. Most beszéljük meg, hol érdemes használni.

Különféle szövegelemzési feladatokhoz használható, például azokhoz a feladatokhoz, amelyek szövegbesorolást igényelnek, de ha olyan feladatokhoz használják, amelyek szöveggenerálást tartalmaznak, például chatbotoknál, amelyeknek szöveget kell generálniuk a kérdések megválaszolásához vagy a kapcsolódó feladatokhoz. hogy analitikát írjon elő. Általánosságban elmondható, hogy kétféleképpen lehet szöveget generálni, először szóról szóra, másodszor pedig karakterről karakterre. A karakterenkénti generációs modellhez képest a szóról szóra generált modell alacsonyabb számítási költséget és nagyobb pontosságot mutat, mivel a karakterszintű modell nehezen tudja rögzíteni a hosszú távú memóriát, és ehhez sokkal nagyobb rejtett rétegre van szükség. Ennek okát és „miért” az alábbiakban közöljük.

Az ok egyszerű, mert képes a memorizálásra, és ha egy modell képes megjegyezni az adatokat, akkor a memóriája használatával képes előállítani az új adatokat.

RCNN – Eddig a CNN és ​​az RNN modelleket külön-külön ábrázoltuk. Most beszéljük meg e modellek kombinációját a szövegelemzési folyamathoz. A mély tanulási technológiák és a számítógépes rendszerek hardverének fejlődésével ma már lehetőség nyílik a különböző technikák együttes alkalmazására mindkét technológia előnyeinek kihasználása érdekében. Az RCNN (Recurrent Convolution Neural Network) ezen kombinációk egyike.

Az RCNN felépítése a következő:

Ismétlődő szerkezet → max pooling → teljesen összekapcsolt réteg + softmax

A szavak mondatban vagy bekezdésben való megjelenítésének megtanulása ezeknél a modelleknél a bal oldali kontextustól a jobb oldali kontextusig indul. Ezt így is szemléltethetjük:

Representation_current_word=[left_side_context_vector,current_word_embedding,right_side_context_vector]

Előnye, hogy ez a hálózat a szöveg szemantikai reprezentációit finoman meg tudja alkotni. A CNN azonban bizonyos esetekben kiszorította a teljesítmény tekintetében, mivel a CNN maximális összevonási rétegét diszkriminatívabbnak tekintik a kontextuális információk rögzítése során, de nagyon rövidebb időt vesz igénybe a képzés, mint a CNN és ​​az RNN.

Ez az oka annak, hogy az RCNN használatának esete az, amikor kevesebb időt kell fordítani az edzésre, az RCNN jó választás lehet.

Holisztikus stratégia

A Szövegelemzés a strukturálatlan szöveges adatok jelentős elemzési adatokká történő átalakításának módszere, az ügyfelek véleményének, termékértékeléseinek és visszajelzéseinek becslése céljából. Ennek a megközelítésnek az elfogadásához a következő lépéseket javasoljuk:

Eredetileg a https://www.xenonstack.com oldalon tették közzé 2019. május 8-án.