Bevezetés az anomália-észlelésbe

Az adatok minden szervezet éltető elemei, és a siker kulcsa a megfelelő adatkészletekben a fenyegetések proaktív és hatékony nyomon követésének, osztályozásának és azonosításának képessége. Iparágakban, különösen az olyan szektorokban, mint a banki és pénzügyi szolgáltatások, ez kritikus szükséglet, mivel az adatvédelem és a biztonság kulcsfontosságú szempont az ügyféladatok kezelése és a teljesítménymutatók pontos felhasználása során. Ha fenyegetést észlel, minden másodperc számít, ezért olyan csapatokkal és partnerekkel kell dolgozni, akik nem csak megértik ezt az igényt, hanem tapasztalattal is rendelkeznek ezen a területen megoldások kidolgozásában, hogy vállalkozása megkülönböztethető legyen egy folyamatosan fejlődő piacon.

Mi az anomália észlelése?

Egyszerűen fogalmazva, az anomália észlelése az, amit a név is sugall: olyan adatpont vagy minta észlelése, amelyek nem felelnek meg a várt viselkedésnek. Frank E. Grubbs, a híres statisztikus, akiről a Grubb-teszt a kiugró értékekre elnevezték, 1969-ben ezt a definíciót adta: „egy kiugró megfigyelés vagy kiugró érték az, amely úgy tűnik, hogy jelentősen eltér ugyanazon minta többi tagjától. amelyben előfordul.”

Az anomália-észlelés alkalmazásai

Az anomáliák észlelésének mint gyakorlatnak és tudománynak számos alkalmazása van, például:

Weboldal forgalmi elemzése.

A botforgalmi és/vagy webhelykonfigurációs problémák azonosítása. Az internetes elemzési platformok, például a Google Analytics, Bayes-féle állapottér-idősor-modellezést alkalmaznak a múltbeli adatokra, hogy segítsenek megjelölni a webes adatok anomáliáit.

Hálózati behatolás.

A hálózati forgalom és a szerveradatok viselkedési mintáinak figyelése és elemzése a lehetséges fenyegetések jelzése érdekében. Ez vonatkozhat a kis szerverhálózatokra, az IoT-re és akár a felhőalapú számítástechnikai rendszerekre is. Például a Google Cloud, amelyet olyan platformokról származó szegmentációs algoritmusok kezelésére használnak, mint a Big Query, anomália-észlelési lehetőségekkel védi adatait. Ez kritikus fontosságú, ha hatékonyan kell létrehozni a szegmentációs megoldásokat a marketinghez és azon túl.

Csalások felderítése.

A tranzakciós viselkedési adatok figyelése a gyanús tevékenységek észlelése és megjelölése érdekében. A lakossági banki szolgáltatásokban rengeteg olyan vállalat kínál gépi tanulási szolgáltatásokat, amelyek nyomon követik a tranzakciós viselkedés mintáit és jelzik az anomáliákat. A teljesítménymarketingben ez kulcsfontosságú téma az olyan csatornákon belül, mint a Display. Az alábbiakban kitérünk néhány, ebben a gyakorlatban alkalmazott technikára.

Beteg monitorozás.

Az orvostudomány területén például abnormális sejtek vagy rákos daganatok azonosítása.

Értékesítési trendek.

Rendellenes viselkedés azonosítása az értékesítési adatokban.

Hibafelismerés.

Például az Aerospace és Aeronautics kutatásában a NASA olyan algoritmusokon dolgozik, amelyek a repülésrögzítő adatok anomáliáit figyelik.

Teljesítménymarketing.

Fizetett kereséssel – Győződjön meg arról, hogy az ajánlatok pontos adatokon alapulnak a speciális PPC-ajánlattételhez.

Adatkezelés.

Például ETL-hangolás adattárházakkal. A marketingben a CRM és a tranzakciós adatokat adattárházakban tárolják, és ezeknek az adatkészleteknek az egyik általános feldolgozási módja az ETL (Extract, Transform, Load) nevű réteg. Az adattárház építésére fordított idő nagy része erre a folyamatra telik. Nagyon fontos, hogy az adattárházakban lévő adatok tiszták legyenek, és az előrelátó vállalatok anomáliák észlelési technikáit használják a gyanús adatkészletek azonosítására.

Az anomáliák típusai

Az anomáliák általában három kategóriába sorolhatók:

Pont.

Az adateloszlás egyetlen pontja, amely nyilvánvaló kiugró érték a többi elérhető adatponthoz képest. Példa: Hitel- vagy bankkártyája hirtelen magas terhelést naplóz, amely kívül esik a tranzakciós adatkészleten.

Kontextuális.

A megfigyelés kontextusán alapuló rendellenesség (azaz az egyik kontextusban szokatlan, de a másikban nem). Példa: Várakozásaink szerint az elektronikai eladásaink novemberben élénkülni fognak a fekete péntek miatt, de júniusban, amely jellemzően lassú hónap, éles kiugrást tapasztalunk.

Kollektív.

A teljes adatkészletre vonatkozó kapcsolódó példányok gyűjteményén alapuló rendellenesség. Példa: Nagyszámú magas árú tranzakció, amelyek kapcsolatban állnak egymással, és kívül esnek a normákon.

Outliers vs Anomáliák

Fontos különbséget tenni az anomália és a kiugró érték között. Mindkét kifejezést gyakran felcserélhetően használják, és ha különbséget kell tenni közöttük, az az lenne, hogy a kiugró értékek a mintaadatkészlet átlagától távol eső adatpontokra vonatkoznak, míg az anomáliák az adatkészleten belüli egyes pontok vagy adatminták, amelyek más folyamat hozta létre, mint ami a többi adatot generálta. Ha az anomáliákat nem csoportosítják és nem osztályozzák megfelelően, akkor összetéveszthetők kiugró értékekkel:

A statisztikai modellezésben a kiugró értékek olyan adatpontok, amelyeket általában kizárnak, miközben azon dolgozunk, hogy a modellhez illeszkedjenek az adatkészlet pontos leírásához. Az anomáliák szokatlan/gyanús adatpontok a kiugró értékeken belül (az anomáliák ritka esetekben a „normál” adatokban is megtalálhatók). Az adatok és a mérőszám történelmi kontextusa ezért fontos az anomáliák azonosításakor.

Hamis pozitívumok/hamis negatívumok

Vegyük fontolóra ezt a forgatókönyvet: Ön bankkártyájával pénzt vett ki egy ATM-ből, de vissza kellett utasítania azt a feltételezett csaló tevékenység miatt. Ezután a kártya újraaktiválása előtt felhívja a bank ügyfélszolgálati vonalát, és jóváhagyja a legutóbbi díjak listáját (beleértve a híváshoz vezető jogos díjat is). Ismerős? Amit Ön tapasztalt, az a bank felügyeleti rendszerének „hamis pozitív” leolvasása volt. A bank egy esemény vagy események sorozata alapján „megjelölte” legutolsó tranzakcióját valószínűleg csalásnak, és valószínűleg egy szabályokon alapuló rendszert használt arra, hogy összehasonlítsa Önt az elismert múltbeli csalási típusokkal és az egyszerű tranzakciós viselkedéssel. A hamis pozitív adatok számos módon ronthatják a vállalkozás eredményét, például:

  • A lakossági banki szolgáltatásokban potenciális bevételkiesés a kártyák leállítása és az újak megrendelése közötti késleltetési idő alatt.
  • A marketingelemzésben a hamis „riasztások” kivizsgálásával töltött idő, az az idő, amelyet bevételtermelő kezdeményezésekre (új kampányötlet stb.) lehetett volna fordítani.
  • Az e-kereskedelemben egy webhely helytelenül fenyegetésként jelöli meg a jogos ügyfeleket, és kizárja őket az ügyfélcsatornából.
  • Egy anomáliaészlelő rendszer, amely nem veszi megfelelően figyelembe az összes érvényes anomália forgatókönyvet a szűrési szabályaiban. Gondoljon egy víruskeresésre egy olyan számítógépen, amely nincs megfelelően frissítve az aktuális fenyegetésekkel szemben.

Hamis negatívumok.

Figyelembe kell vennünk a hamis negatívumokat is, amelyek érvényes anomáliák (fenyegetések), amelyeket nem kap el az észlelési folyamat. Ezek általában magasabb költséggel járnak, mint a hamis pozitívumok. Például egy pénzügyi szolgáltató cég, amely statikus szabályokat használ a gyanús tranzakciók megjelölésére, hogy egy ember felülvizsgálja, miközben átengedi a jogos csalárd tranzakciókat a rendszeren. Ez pénzbírságot, jó hírnév-károsodást és jelentős költségeket vonhat maga után.

Az anomáliák kimutatásának technikái

Eltérés a mintaadatok elosztásától.

Ez a módszer a legkönnyebben megvalósítható, és túlmutat a trendadatok tüskéinek vagy csökkenéseinek lehívásán. Minden adatkészletnek van eloszlása, és az adatok átlagának azonosítása jelzi, hogy az adatok milyen irányban mozognak. Ez az idősoros adatok gördülő átlagának használatával valósítható meg, amely egyúttal „kisimítja” a kiugrásokat, eltávolítja a rövid távú volatilitást, és feltárja a hosszú távú változásokat vagy trendeket. Az anomáliák az egyes figyelembe vett adatpontok gördülő átlagtól való szórásának vizsgálatával észlelhetők:

Míg a mozgóátlagok nagyon hasznosak a trendek észleléséhez és az idősorok adatainak simításához, ehhez a módszerhez meg kell értenie, hogy az átlagtól való szórás mit jelent anomáliának (jelző), és ezt a tudást felhasználni a küszöbértékek felépítéséhez. Ez azt jelenti, hogy ezen adatok felhasználóinak teljes mértékben meg kell érteniük adataikat és azok üzleti hatásait. Ez a megközelítés hasznos lehet olyan helyzetekben, amikor az adatok szabályai nem bonyolultak, de nem lehet hasznos olyan helyzetekben, amikor a küszöbértékek nem határozhatók meg, és az anomáliák szintje megváltozik, például hackerek, akik módosítják a technikáikat, vagy egy új vírus, amely folyamatosan alkalmazkodik és megváltozik a szerkezet. Végül ez a megközelítés reaktív, nem proaktív, és előfordulhat, hogy nem kezeli megfelelően a kontextuális anomália típusait.

Gépi tanulás.

A gépi tanulás egyszerűen a számítógépek tapasztalatból való tanulásának művészete, és gyakran használják adatok osztályozására, előrejelzések készítésére és anomáliák azonosítására. A gépi tanulási megközelítés algoritmusokat és modelleket alkalmaz fejlett statisztikai folyamatokon keresztül az anomáliák azonosítására. A gépi tanulási anomáliák észlelésével kiválaszthatja, hogy „tanítási” és tesztadatkészletek létrehozásával „tanítja” a gépet, és lehetővé teszi a gép számára, hogy idővel fejleszthesse és felépítse paramétereit és kapcsolati megfigyeléseit az alapján, hogy Ön betanítja, amíg el nem ér egy bizonyos szintet. a bizalom. Ezt a megközelítést általában „felügyelt” gépi tanulásnak nevezik. Az alternatíva egy „felügyelet nélküli” modell, ahol a gép saját feltevéseket és asszociációs szabályokat hoz létre címkézetlen bemeneti adatok alapján. A felügyelet nélküli tanulást klaszterezési technikákkal, a felügyelt tanulást pedig osztályozási és regressziós technikákkal használják. Mindkét megközelítésnek vannak előnyei és hátrányai, és rengeteg algoritmus tartozik az egyes gyűjtőhelyek alá. Például léteznek olyan osztályozási technikák, mint a KNN (K-legközelebbi szomszéd), amelyet akkor használnak, ha kevés ismeretünk van az adatok eloszlásáról (az a feltételezés, hogy az új anomáliák közelebb állnak a régi anomáliákhoz), és olyan felügyelet nélküli klaszterező algoritmusok, mint a DBSCAN (sűrűség-alapú). -Spatial-Clustering-of-Applications-with-Noise), amelyek a mintaadatok nagy sűrűségű területeit fürtökbe csoportosítják, és a fürtökben nem szereplő elemeket anomáliákként jelölik meg.

Az üzletmenet gyakran kiszámíthatatlan, ezért a statisztikusok gyakran a felügyelet nélküli gépi tanulási technikákat részesítik előnyben, amikor az anomáliák azonosításáról és előrejelzéséről van szó.

Összegzés

A teljesítmény nyomon követésének és az anomáliák megbízható, valós idejű azonosításának képessége kritikus szükséglet a különböző iparágakban működő szervezetek számára, különösen ebben a bizonytalan időszakban, mivel a COVID-19 világjárványból hasznot húzó csaló egyének és szervezetek, valamint a kiegyensúlyozott gazdaság elkerülhetetlenül szabálytalanságok a marketing és a tranzakciós adatokkal kapcsolatban. Az anomáliák észlelése kritikus eleme a kockázatcsökkentésnek és a teljesítmény optimalizálásának. Noha ebben a gyakorlatban a téves pozitív eredmények aggodalomra adnak okot, ezek a hibaarányok az új algoritmusok és megközelítések kifejlesztésével csökkennek. A teljesítményadatokat kezelő partnerek bevonásakor létfontosságú, hogy megértsük az anomáliák észlelésére vonatkozó hozzáállásukat, és azt, hogy az megfelel-e az Ön üzleti modellje igényeinek.