Mindennapi digitális életünkben számos ajánlórendszert látunk mindenhol, a közösségi médiától kezdve, amely új, nem látott tartalmakat ajánl, az e-kereskedelemig, amely olyan termékeket javasol, amelyeket esetleg bevásárlókosarunkba tesz. Számítógépes programokat látunk, amelyek megpróbálják megjósolni, hogy egy adott időpontban mit akarunk és mit szeretünk. Ilyenek az ajánlórendszerek az őket használó felhasználók számára.

Technikai értelemben az ajánlási rendszer az információszűrő rendszerek egy alosztálya, amely a felhasználók által a múltban adott értékelés vagy preferenciák alapján ajánl egy terméket vagy terméket. Az információszűrési rendszer egy olyan tudományterület, amely szisztematikus megközelítés kialakítására szolgál az adott személy számára fontosnak tartott információk kinyerésére egy nagy információfolyamból. A két definíció kombinálásával az ajánlási rendszer olyan rendszer, amely nagy adatfolyamból kinyert információk alapján ajánl egy elemet.

Ez a cikk csak az általános top-N ajánlási rendszereket tárgyalja, kezdve az adatgyűjtéstől a modell értékeléséig. Ez a cikk az ajánlások generálásában általánosan használt megközelítésekre is összpontosít. Ez a cikk nem elemzi a matematikai egyenleteket és levezetéseket, és nem vizsgálja meg a leírt modellek felépítéséhez szükséges forráskódot.

Ahhoz, hogy megértsük, hogyan működik a top-N ajánlási rendszer, először is meg kell értenünk az adatokat, mint a modell alapvonalát az ajánlások előállításához. Az ajánlórendszerek két adatforrást használnak: explicit és implicit adatokat. Felmérések vagy visszajelzési űrlapok segítségével „explicit” adatokat gyűjthetünk. Azonban nem minden felhasználó szán időt az ilyen űrlapok kitöltésére, nem beszélve a társadalmi-gazdasági-politikai és földrajzi különbségek miatti információkülönbségek lehetőségéről. Másrészt vannak „implicit” adatok. Példa erre a kattintási adatfolyam adatok vagy információk, amelyeket egy webhelyen vagy bármely más digitális alkalmazáson keresztül böngésző felhasználóról gyűjtenek. Az ilyen típusú adatokat inkább használják a gyakorlatban, mivel rengeteg van belőlük, így ideálisak az egyszerű algoritmusok működéséhez. Az ilyen típusú adatok azonban hajlamosak a csalásra. Például a vállalatok véletlenszerű IP-címek és hamisított felhasználói ügynökök használatával hamis adatokat helyezhetnek el. Az ajánlórendszerek esetében az információkat addig kell tisztítani és feldolgozni, amíg a felhasználó-elem interakciós mátrixok listája nem lesz. A felhasználó-elem interakciós mátrix egy olyan mátrix, amely számszerű mennyiségeket tartalmaz a felhasználó és az elem közötti kapcsolat és interakció leírására. A könnyebb megjelenítés érdekében a színbesorolást a felhasználói elemek interakciós mátrixainak leírására használjuk számérték helyett. Először a memória alapú kollaboratív szűrésről szóló magyarázatok során mutatjuk be.

Az adatok összegyűjtése után a következő lépés az ajánlásjelöltek generálására szolgáló módszer meghatározása. Három általánosan használt módszer létezik: tartalom alapú szűrés, kollaboratív szűrés és hibrid szűrés. Mindegyik módszernek megvan a maga elméleti torzítási és varianciaszintje. A hibrid szűréssel ebben a cikkben nem foglalkozunk mélyrehatóan, mivel széleskörű vizsgálati területe van.

A tartalom alapú szűrés egy olyan módszer, amely két lehetséges forgatókönyv alapján állít elő jelöltajánlatokat: egy besorolási probléma (megjósolja, hogy a felhasználónak tetszik-e a javaslat vagy sem) és egy regressziós probléma (megjósolja az értékelést, folytonos változó, a felhasználó ad egy elemet ). Az ezt a módszert használó algoritmus ajánlásokat hoz létre a referenciafelhasználó által megvásárolt egyéb cikkek különféle tulajdonságainak hasonlósági mértékei alapján. Meg kell jegyezni, hogy ennél a módszernél egy elem jellemzői kifejezetten betáplálódnak a modellbe.

A tartalom alapú szűrési módszer előnye, hogy elkerülhető a hidegindítási problémák. Más szavakkal, az új elemek és a felhasználók továbbra is releváns ajánlásokat kaphatnak, amennyiben ezek az elemek és felhasználók rendelkeznek olyan funkciókkal, amelyek összehasonlíthatók az adatbázis más elemeivel vagy felhasználóival. Ez a modell könnyebben méretezhető nagyszámú felhasználóra és/vagy elemre anélkül, hogy az adataiktól és egyéb információiktól függne. Ez a modell azonban sok tartományi ismeretet igényel, mivel a legtöbb funkciót kézzel kellett megtervezni. Ez a modell a felhasználó meglévő érdeklődésére is korlátozódik, ami megnehezíti a modell számára, hogy új, de kissé eltérő termékeket ajánljon azoktól, amelyeket a felhasználó jelenleg kedvel.

A tartalom alapú szűrési módszernek számos változata létezik. Íme a négy legnépszerűbb variáció:

  1. Tartalmi hasonlóság alapján. Ez a legalapvetőbb típus az összes elérhető változat közül. Ez a variáció magában foglalja a metaadatai alapján közel álló tartalom ajánlását, és általában olyan katalógusú platformokon használják, amelyek sok metaadattal és alacsony forgalommal rendelkeznek az adatbázisban lévő termékek számához képest.
  2. A látens faktor modellezés segítségével. Ez a variáció hasonló az elsőhöz, azzal a különbséggel, hogy az egyének eredendő érdeklődésére következtet a tétellel kapcsolatban korábban betáplált jellemzőkből, valamint abból a feltételezésből, hogy a felhasználók által korábban meghozott döntések bizonyos ízekre vagy hasonlóságra utalnak.
  3. Témamodellezés használatával. Ez a látens tényezők modellezésének egy változata, de ahelyett, hogy figyelembe venné a felhasználó nagyobb műveleteit, mint például egy tartalom kedvelése vagy egy tétel megvásárlása, ez a modell a strukturálatlan szöveg elemzésével következtet az érdeklődési körökre, hogy felismerje az adott érdeklődési témákat. Főleg hírplatformokon használják.
  4. A népszerű tartalom promóciója alapján. Ez magában foglalja a tételre vonatkozó ajánlások kiemelését az elem belső jellemzői alapján, amelyek érdekesek lehetnek a széles közönség számára, például ár, jellemző, népszerűség, minőség stb. Ez a modell figyelembe veszi a tartalom frissességét vagy korát is, ezért ez a modell széles körben használják olyan esetekben, amikor az újabb tartalom dominánsabb, például a közösségi médiában.

Míg a tartalomalapú szűrési módszerek a referenciafelhasználó jellemzőire és/vagy az elemekkel való interakciójára összpontosítanak, az együttműködési szűrési módszerek más felhasználók jellemzőit és/vagy elemeit használják a referenciafelhasználóéval való összehasonlításhoz. Ez a módszer a felhasználó-elem interakciós mátrixot is használja, de ahelyett, hogy modellt használna a felhasználó és egy elemhez hasonló tartalom-alapú szűrési módszer közötti korreláció explicit magyarázatára, ez a modell a mátrix egyes celláiban található numerikus értékeket használja a hasonló észlelésére. felhasználókat és/vagy elemeket, és előrejelzéseket készíthet e becsült közelségek alapján. Ennek a módszernek két megközelítése van:

  1. Memória alapú megközelítés. Ez a megközelítés a korábban rögzített és tárolt interakciók értékeivel működik. Ez a megközelítés feltételezi, hogy nincs olyan modell, amely megmagyarázná a mátrixok számértékét. Az ajánlások létrehozásához ez a megközelítés a mátrixokban található legközelebbi szomszédok keresésén alapuló információkat használ. Ez azt jelenti, hogy ez a modell megtalálja a leghasonlóbb felhasználót a többi felhasználó között, majd a legnépszerűbb terméket ajánlja a felhasználó körében. Elméletileg ennek a módszernek alacsony a torzítása, de nagy a szórása, ami azt jelenti, hogy a modell szorosan illeszkedik az adathalmazhoz, de drámaian más modellré válhat minden alkalommal, amikor más bemenetet vagy feltevést adnak. Egy másik hátránya ennek a megközelítésnek, hogy idő- és számítási energiaigényes. Két példa van erre a megközelítésre: a felhasználó-felhasználó és az elem-elem. Mindkét példát a lista alatti grafikon segítségével illusztráljuk.
  2. Modell alapú megközelítés. Ez a módszer feltételezi, hogy létezik olyan modell, amely a mátrixokon belüli információkat implicit módon magyarázza. Ez azt jelenti, hogy a modell önmagában fedezi fel a felhasználók és/vagy az elemek jellemzőit. Emiatt az egyedileg kivont jellemzőnek matematikai jelentése van, de emberi fejlesztő számára lehetetlen értelmezni. A kinyert adatok azonban közel állnak ahhoz, amit az emberi intuíció értelmezne. Elméletileg ez a megközelítés nagyobb torzítást, de kisebb szórást eredményez, ami pontosan ellentétes a memória alapú megközelítéssel. Ennek a megközelítésnek egy példája a mátrixfaktorizálás.

A fenti ábrák alapján a felhasználói elemek interakciós mátrixainak tartalma három színkód használatával egyszerűsíthető és általánosítható: a piros a negatív interakciókat, a narancssárga a semleges interakciókat, a zöld a pozitív interakciókat, és az üres, ha még nincs interakció. A mátrix sorokra és oszlopokra van felosztva, ahol minden sor egyetlen felhasználó interakcióját képviseli egy elemlistával, minden oszlop pedig egyetlen elem interakcióját a felhasználók listájával.

A kollaboratív szűrési módszer előnye, hogy kevesebb információt igényel a felhasználókról és magukról az elemekről, mint a tartalom alapú módszer alkalmazása. Számos helyzetben használható, mivel a modell alapú megközelítés csak magát a tulajdonságot tudja meghatározni emberi beavatkozás nélkül. Ez a módszer a már sok adattal rendelkező rendszereket is előnyben részesíti, mert növeli az eredmények pontosságát és relevanciáját. A fő hátránya, hogy ez a módszer hajlamos a hidegindítási problémára, ellentétben a tartalom alapú módszerekkel. A hidegindítási probléma elkerülése érdekében néhány módszer alkalmazható, mint például véletlenszerű tételek ajánlása új felhasználóknak vagy új elemek véletlenszerű felhasználóknak (véletlenszerű stratégia), népszerű cikkek ajánlása új felhasználóknak vagy új elemek ajánlása a legtöbb aktív felhasználónak (maximális elvárás stratégia). , különféle elemek készletének ajánlása új felhasználóknak vagy új elem készletének ajánlása különböző felhasználók halmazának (feltáró stratégia), vagy nem együttműködési módszer alkalmazása új felhasználók/elemek esetében (hibrid módszer).

Az ajánlások létrehozása után az eredmények szűrése van hátra. Ahogy a név is sugallja, a top-N ajánlórendszerek N elemből álló listát adnak vissza, amely a leginkább releváns a felhasználó számára. A jelöltkészítési folyamat során legtöbbször a szűrés már folyamatban van. A fennmaradó időben azonban további információra van szükség a jelöltek további metszéséhez, amíg csak N számú elem marad.

Az ajánlási rendszermodell elkészítése után a fő rendszerrel való egyesítése előtt kiértékelést kell végezni. Az értékelésnek két alapja van: a metrika alapú értékelés és az ember alapú értékelés. A metrikákon alapuló értékelés számokat használ annak meghatározására, hogy egy ajánlási rendszer pontos-e vagy sem. Ilyen mérőszámok a Mean Square Error (MSE)m K Fold Cross Validation, RMSD (Root Mean Square Deviation) és a regressziós találati arány. Az emberi alapú értékelések viszont szubjektív és az egyes megvalósításokhoz viszonyított értékelések. Ilyen értékelési módszerek az ajánlások sokfélesége, a rendszer értelmezhetősége és az eredmények.

Referenciák:

















Ez a cikk az ITB Graphics and Artificial Intelligence’s Assistant Selection 2022 programjának kiválasztási folyamataként készült.