Hogyan működnek az ajánlási rendszerek?

Mindennapi digitális életünkben számos ajánlórendszert látunk mindenhol, a közösségi médiától kezdve, amely új, nem látott tartalmakat ajánl, az e-kereskedelemig, amely olyan termékeket javasol, amelyeket esetleg bevásárlókosarunkba tesz. Számítógépes programokat látunk, amelyek megpróbálják megjósolni, hogy egy adott időpontban mit akarunk és mit szeretünk. Ilyenek az ajánlórendszerek az őket használó felhasználók számára.

Technikai értelemben az ajánlási rendszer az információszűrő rendszerek egy alosztálya, amely a felhasználók által a múltban adott értékelés vagy preferenciák alapján ajánl egy terméket vagy terméket. Az információszűrési rendszer egy olyan tudományterület, amely szisztematikus megközelítés kialakítására szolgál az adott személy számára fontosnak tartott információk kinyerésére egy nagy információfolyamból. A két definíció kombinálásával az ajánlási rendszer olyan rendszer, amely nagy adatfolyamból kinyert információk alapján ajánl egy elemet.

Ez a cikk csak az általános top-N ajánlási rendszereket tárgyalja, kezdve az adatgyűjtéstől a modell értékeléséig. Ez a cikk az ajánlások generálásában általánosan használt megközelítésekre is összpontosít. Ez a cikk nem elemzi a matematikai egyenleteket és levezetéseket, és nem vizsgálja meg a leírt modellek felépítéséhez szükséges forráskódot.

Ahhoz, hogy megértsük, hogyan működik a top-N ajánlási rendszer, először is meg kell értenünk az adatokat, mint a modell alapvonalát az ajánlások előállításához. Az ajánlórendszerek két adatforrást használnak: explicit és implicit adatokat. Felmérések vagy visszajelzési űrlapok segítségével „explicit” adatokat gyűjthetünk. Azonban nem minden felhasználó szán időt az ilyen űrlapok kitöltésére, nem beszélve a társadalmi-gazdasági-politikai és földrajzi különbségek miatti információkülönbségek lehetőségéről. Másrészt vannak „implicit” adatok. Példa erre a kattintási adatfolyam adatok vagy információk, amelyeket egy webhelyen vagy bármely más digitális alkalmazáson keresztül böngésző felhasználóról gyűjtenek. Az ilyen típusú adatokat inkább használják a gyakorlatban, mivel rengeteg van belőlük, így ideálisak az egyszerű algoritmusok működéséhez. Az ilyen típusú adatok azonban hajlamosak a csalásra. Például a vállalatok véletlenszerű IP-címek és hamisított felhasználói ügynökök használatával hamis adatokat helyezhetnek el. Az ajánlórendszerek esetében az információkat addig kell tisztítani és feldolgozni, amíg a felhasználó-elem interakciós mátrixok listája nem lesz. A felhasználó-elem interakciós mátrix egy olyan mátrix, amely számszerű mennyiségeket tartalmaz a felhasználó és az elem közötti kapcsolat és interakció leírására. A könnyebb megjelenítés érdekében a színbesorolást a felhasználói elemek interakciós mátrixainak leírására használjuk számérték helyett. Először a memória alapú kollaboratív szűrésről szóló magyarázatok során mutatjuk be.

Az adatok összegyűjtése után a következő lépés az ajánlásjelöltek generálására szolgáló módszer meghatározása. Három általánosan használt módszer létezik: tartalom alapú szűrés, kollaboratív szűrés és hibrid szűrés. Mindegyik módszernek megvan a maga elméleti torzítási és varianciaszintje. A hibrid szűréssel ebben a cikkben nem foglalkozunk mélyrehatóan, mivel széleskörű vizsgálati területe van.

A tartalom alapú szűrés egy olyan módszer, amely két lehetséges forgatókönyv alapján állít elő jelöltajánlatokat: egy besorolási probléma (megjósolja, hogy a felhasználónak tetszik-e a javaslat vagy sem) és egy regressziós probléma (megjósolja az értékelést, folytonos változó, a felhasználó ad egy elemet ). Az ezt a módszert használó algoritmus ajánlásokat hoz létre a referenciafelhasználó által megvásárolt egyéb cikkek különféle tulajdonságainak hasonlósági mértékei alapján. Meg kell jegyezni, hogy ennél a módszernél egy elem jellemzői kifejezetten betáplálódnak a modellbe.

A tartalom alapú szűrési módszer előnye, hogy elkerülhető a hidegindítási problémák. Más szavakkal, az új elemek és a felhasználók továbbra is releváns ajánlásokat kaphatnak, amennyiben ezek az elemek és felhasználók rendelkeznek olyan funkciókkal, amelyek összehasonlíthatók az adatbázis más elemeivel vagy felhasználóival. Ez a modell könnyebben méretezhető nagyszámú felhasználóra és/vagy elemre anélkül, hogy az adataiktól és egyéb információiktól függne. Ez a modell azonban sok tartományi ismeretet igényel, mivel a legtöbb funkciót kézzel kellett megtervezni. Ez a modell a felhasználó meglévő érdeklődésére is korlátozódik, ami megnehezíti a modell számára, hogy új, de kissé eltérő termékeket ajánljon azoktól, amelyeket a felhasználó jelenleg kedvel.

A tartalom alapú szűrési módszernek számos változata létezik. Íme a négy legnépszerűbb variáció:

Tartalmi hasonlóság alapján. Ez a legalapvetőbb típus az összes elérhető változat közül. Ez a variáció magában foglalja a metaadatai alapján közel álló tartalom ajánlását, és általában olyan katalógusú platformokon használják, amelyek sok metaadattal és alacsony forgalommal rendelkeznek az adatbázisban lévő termékek számához képest.
A látens faktor modellezés segítségével. Ez a variáció hasonló az elsőhöz, azzal a különbséggel, hogy az egyének eredendő érdeklődésére következtet a tétellel kapcsolatban korábban betáplált jellemzőkből, valamint abból a feltételezésből, hogy a felhasználók által korábban meghozott döntések bizonyos ízekre vagy hasonlóságra utalnak.
Témamodellezés használatával. Ez a látens tényezők modellezésének egy változata, de ahelyett, hogy figyelembe venné a felhasználó nagyobb műveleteit, mint például egy tartalom kedvelése vagy egy tétel megvásárlása, ez a modell a strukturálatlan szöveg elemzésével következtet az érdeklődési körökre, hogy felismerje az adott érdeklődési témákat. Főleg hírplatformokon használják.
A népszerű tartalom promóciója alapján. Ez magában foglalja a tételre vonatkozó ajánlások kiemelését az elem belső jellemzői alapján, amelyek érdekesek lehetnek a széles közönség számára, például ár, jellemző, népszerűség, minőség stb. Ez a modell figyelembe veszi a tartalom frissességét vagy korát is, ezért ez a modell széles körben használják olyan esetekben, amikor az újabb tartalom dominánsabb, például a közösségi médiában.

Míg a tartalomalapú szűrési módszerek a referenciafelhasználó jellemzőire és/vagy az elemekkel való interakciójára összpontosítanak, az együttműködési szűrési módszerek más felhasználók jellemzőit és/vagy elemeit használják a referenciafelhasználóéval való összehasonlításhoz. Ez a módszer a felhasználó-elem interakciós mátrixot is használja, de ahelyett, hogy modellt használna a felhasználó és egy elemhez hasonló tartalom-alapú szűrési módszer közötti korreláció explicit magyarázatára, ez a modell a mátrix egyes celláiban található numerikus értékeket használja a hasonló észlelésére. felhasználókat és/vagy elemeket, és előrejelzéseket készíthet e becsült közelségek alapján. Ennek a módszernek két megközelítése van:

Memória alapú megközelítés. Ez a megközelítés a korábban rögzített és tárolt interakciók értékeivel működik. Ez a megközelítés feltételezi, hogy nincs olyan modell, amely megmagyarázná a mátrixok számértékét. Az ajánlások létrehozásához ez a megközelítés a mátrixokban található legközelebbi szomszédok keresésén alapuló információkat használ. Ez azt jelenti, hogy ez a modell megtalálja a leghasonlóbb felhasználót a többi felhasználó között, majd a legnépszerűbb terméket ajánlja a felhasználó körében. Elméletileg ennek a módszernek alacsony a torzítása, de nagy a szórása, ami azt jelenti, hogy a modell szorosan illeszkedik az adathalmazhoz, de drámaian más modellré válhat minden alkalommal, amikor más bemenetet vagy feltevést adnak. Egy másik hátránya ennek a megközelítésnek, hogy idő- és számítási energiaigényes. Két példa van erre a megközelítésre: a felhasználó-felhasználó és az elem-elem. Mindkét példát a lista alatti grafikon segítségével illusztráljuk.
Modell alapú megközelítés. Ez a módszer feltételezi, hogy létezik olyan modell, amely a mátrixokon belüli információkat implicit módon magyarázza. Ez azt jelenti, hogy a modell önmagában fedezi fel a felhasználók és/vagy az elemek jellemzőit. Emiatt az egyedileg kivont jellemzőnek matematikai jelentése van, de emberi fejlesztő számára lehetetlen értelmezni. A kinyert adatok azonban közel állnak ahhoz, amit az emberi intuíció értelmezne. Elméletileg ez a megközelítés nagyobb torzítást, de kisebb szórást eredményez, ami pontosan ellentétes a memória alapú megközelítéssel. Ennek a megközelítésnek egy példája a mátrixfaktorizálás.

A fenti ábrák alapján a felhasználói elemek interakciós mátrixainak tartalma három színkód használatával egyszerűsíthető és általánosítható: a piros a negatív interakciókat, a narancssárga a semleges interakciókat, a zöld a pozitív interakciókat, és az üres, ha még nincs interakció. A mátrix sorokra és oszlopokra van felosztva, ahol minden sor egyetlen felhasználó interakcióját képviseli egy elemlistával, minden oszlop pedig egyetlen elem interakcióját a felhasználók listájával.

A kollaboratív szűrési módszer előnye, hogy kevesebb információt igényel a felhasználókról és magukról az elemekről, mint a tartalom alapú módszer alkalmazása. Számos helyzetben használható, mivel a modell alapú megközelítés csak magát a tulajdonságot tudja meghatározni emberi beavatkozás nélkül. Ez a módszer a már sok adattal rendelkező rendszereket is előnyben részesíti, mert növeli az eredmények pontosságát és relevanciáját. A fő hátránya, hogy ez a módszer hajlamos a hidegindítási problémára, ellentétben a tartalom alapú módszerekkel. A hidegindítási probléma elkerülése érdekében néhány módszer alkalmazható, mint például véletlenszerű tételek ajánlása új felhasználóknak vagy új elemek véletlenszerű felhasználóknak (véletlenszerű stratégia), népszerű cikkek ajánlása új felhasználóknak vagy új elemek ajánlása a legtöbb aktív felhasználónak (maximális elvárás stratégia). , különféle elemek készletének ajánlása új felhasználóknak vagy új elem készletének ajánlása különböző felhasználók halmazának (feltáró stratégia), vagy nem együttműködési módszer alkalmazása új felhasználók/elemek esetében (hibrid módszer).

Az ajánlások létrehozása után az eredmények szűrése van hátra. Ahogy a név is sugallja, a top-N ajánlórendszerek N elemből álló listát adnak vissza, amely a leginkább releváns a felhasználó számára. A jelöltkészítési folyamat során legtöbbször a szűrés már folyamatban van. A fennmaradó időben azonban további információra van szükség a jelöltek további metszéséhez, amíg csak N számú elem marad.

Az ajánlási rendszermodell elkészítése után a fő rendszerrel való egyesítése előtt kiértékelést kell végezni. Az értékelésnek két alapja van: a metrika alapú értékelés és az ember alapú értékelés. A metrikákon alapuló értékelés számokat használ annak meghatározására, hogy egy ajánlási rendszer pontos-e vagy sem. Ilyen mérőszámok a Mean Square Error (MSE)m K Fold Cross Validation, RMSD (Root Mean Square Deviation) és a regressziós találati arány. Az emberi alapú értékelések viszont szubjektív és az egyes megvalósításokhoz viszonyított értékelések. Ilyen értékelési módszerek az ajánlások sokfélesége, a rendszer értelmezhetősége és az eredmények.

Referenciák:

Ajánlási rendszer: 1 projekt, amelyet minden adattudomány-rajongónak tudnia kell, és meg kell próbálnia…
Saloni és Riteshmedium.com

Minden, amit az ajánlási rendszerekről tudni kell – 1. rész
Bevezetés és ajánlási keretmedium.com

Ajánlási rendszer – Az alapfogalmak megértése
Ebben a blogban az ajánlási rendszerrel kapcsolatos különféle dolgokat fogok tárgyalni, például mi az az ajánlási rendszer? Mit…www.analyticsvidhya.com

Bevezetés az ajánlórendszerekbe
Néhány főbb ajánlóalgoritmus áttekintése.towardsdatascience.com

Ajánlási rendszersorozat 1. rész: Vezetői útmutató az ajánlórendszer kiépítéséhez
Ajánlási rendszerek az akadémiában és az iparbantowardsdatascience.com

Az ajánlási rendszerek magyarázata
Tartalomalapú, együttműködésen alapuló szűrési és hibrid ajánlórendszerek magyarázata és megvalósítása a Pythonbantowardsdatascience.com

Bevezetés a Bias-Variance Tradeoff-ba
Nemrég beszéltem a modell alul- és túlillesztéséről. Lényegében ez a két fogalom különböző módokat ír le, amelyek…builtin.com

Az információszűrés jövője
Paul Canavese Könyvtár és Információs Tanulmányok 296A Howard Besser 1994. április 29. MEGJEGYZÉS Ez egy nagy inputú társadalom. Ez…besser.tsoa.nyu.edu

Ez a cikk az ITB Graphics and Artificial Intelligence’s Assistant Selection 2022 programjának kiválasztási folyamataként készült.

hasonló anyagok:

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS ChatGPT Javascript Development Statistics Data Golang Code Java Science Open Source Software DevOps Programming Languages Data Structures