Koncepcióépítés és összehasonlítás az AI/ML és a Data Science között, a bioinformatikai kutatásban való alkalmazásaira összpontosítva.

A Big Data, a mesterséges intelligencia, az adattudomány és az információ korszakába lépve a szervereken és az emberiségen kívül számos más ágazat is előállítja az adatokat, mint például az érzékelők, mobiltelefonok, IT-ipar, egészségügyi ágazatok, orvosi és biotechnológiai eszközök, például MRI-szkennelő gépek. , Bioszenzorok, Microarray vizsgálatok, nagy teljesítményű technológiák, tudományos kutatás stb.

Emellett a digitalizáció egy új trend, az Internet of Things (IoT), amely hálózatba köti az összes ember alkotta dolgot, például háztartási gépeket, autókat, fegyvereket, közlekedési lámpákat stb. Az intelligens működési döntések meghozatala jelent meg, és gyorsan növekszik, amely gépek közötti kapcsolatokat és hatalmas mennyiségű adatot hoz létre.

Figyelembe véve a generált adatok éves növekedését, 2020 végére valószínűleg eléri a 44 zettabájtot (44 billió gigabájtot) (Forrás: International Data Corporation, INDC_1672).

A prediktív elemzéshez használható haszonelvű nézetben azonban nem az összes generált adat látható, csak egy kis része hasznos, az úgynevezett „Metaadat vagy Célban gazdag adat”.

A biológiai adatkészletek számának nyilvánvaló növekedése a bioinformatikai kutatásban megnövekedett igényt támasztott az összetett és optimalizálható adatelemző eszközök, szabványosított big data architektúrák, valamint a két fő visszaesés elleni módszerek iránt. és folyamatosan bővülő adatkészletek, amelyek nem csak a megjegyzéseket tartalmazzák, hanem releváns információkat is biztosítanak tesztelhető modellek formájában, amelyek segítségével prognosztikai és előrejelző információkat, döntéshozatalt és intelligens vezérlést kaphatnak a számítástechnika és a statisztikák metszéspontjain, például a mesterséges intelligencia (AI) segítségével. vagy gépi tanulás (ML).

A mesterséges intelligencia, az adattudomány, a gépi tanulás és a mélyreható tanulás a mai kor divatos szavaivá váltak, és gyakran helytelenül és felcserélhetően használják őket.

A nem számítástechnikai szakon végzett hallgatók fejében a következő kérdések merülnek fel: ezek a szavak ugyanazok? Ugyanazok a céljaik? Mi a különbség?

Válaszoljunk mindegyikre,

A mesterséges intelligencia egy hatalmas eszköztárat foglal magában, amely ötvözi a számítástechnikát és a robusztus adatkészleteket, amelyek segítségével a számítógépek racionálisan és intelligensen viselkednek különféle összetett és kombinatorikus problémák megoldásában, amelyek utánozzák az emberi elme problémamegoldó és döntéshozatali készségeit.

Különféle részhalmazokat tartalmaz, mint például a gépi tanulás, a mély tanulás, a robotika, a neurális hálózatok stb., amelyek mesterséges intelligencia-algoritmusokat tartalmaznak, és az AI-val együtt említik. Az összes részhalmaz közül a gépi tanulás a mesterséges intelligencia egyik legnépszerűbb részhalmaza, és számos olyan alkalmazással rendelkezik, amelyek több más területtel is átfedésben vannak.

A gépi tanulás egy valós folyamat statisztikai reprezentációja, amely naponta generált adatkészletek mennyiségén alapul, és mesterséges intelligencia-algoritmusokat használó számítási eszközökkel optimalizálja a modellt vagy a teljesítménykritériumot a példaadatok vagy a múltbeli tapasztalatok felhasználásával. Az ML két fő célja a jövőbeli események előrejelzése, mint például az időjárás előrejelzés, a következő lépés a játékban, a robot, aki eldönti az útját, stb., valamint következtetni az események okaira, az előfordulás különböző mintáira és viselkedésére. Ez a statisztika és a számítástechnika interdiszciplináris keveréke, és nem igényel kifejezett programozást. Az ML modellek megtanulják a mintákat a meglévő adatokból, és alkalmazzák azokat új adatokra, és a pontos előrejelzésekhez jó minőségű adatokra van szükség.

Az AI és az adattudomány céljai különbözőek, az AI a számítógépek intelligenciájára utal, míg a Data Science az adatok felhasználásáról szól az adatokból származó betekintések felfedezésére és közlésére. Az ML egy fontos eszköz, amely mesterséges intelligencia algoritmusokat használ az adattudományhoz kapcsolódó munkák elvégzésére, hogy az adatokat iteratív és interaktív módon releváns tudássá alakítsa. Így egyértelmű különbséget téve e három fogalom között.

3 típusú gépi tanulási modell létezik:

  1. Megerősítő tanulás: Az ML-modellek a szekvenciális műveletek eldöntésére szolgálnak olyan potenciálisan összetett környezetben, amelyek összetett matematikai számításokat, hatékony számítógépes infrastruktúrát és szimulációs környezet előkészítését igényelnek az elvégzendő feladattól függően. A számítógép próba- és hibaüzenetet használ, hogy megoldásokat találjon az ilyen összetett problémákra, lehetővé téve a gép számára, hogy tanuljon a hibáiból. Az AI-algoritmusok jutalmat vagy büntetést kapnak az általuk végrehajtott műveletek alapján. Például játékszerű helyzetek, autonóm autók, döntés sakklépések stb.

Mielőtt rátérnénk a másik két típusra, először ismerjük meg, hogyan jellemzik az adatokat egy adatkészletben:

Az adatkészletben az adatok a célváltozóba, a célváltozó címkéibe és a szolgáltatásokba vannak besorolva. A célváltozó az az, amelyet meg akarunk jósolni. A címkék lehetnek számok vagy kategóriák formájú értékek, például igaz/hamis vagy igen/nem stb. a célváltozó. A gépi tanulási modellek egyszerre sok funkciót elemeznek, hogy megtalálják a kapcsolatot a különböző jellemzők között. A modell betanításához adatként címkéket és jellemzőket adunk meg.

2. Felügyelt tanulás: A felügyelt gépi tanulási modellekben a képzési adatok címkézve vannak. A modell betanításához és prediktív vizsgálatok elvégzéséhez olyan címkéket és jellemzőket adunk meg, mint az életkor, a családtörténet, a társbetegségek.

3. Felügyelet nélküli tanulás: A felügyelt gépi tanulási modellekben a képzési adatok nincsenek címkézve, csak funkciókkal rendelkeznek. A pajzsmirigy-betegségben szenvedő betegek adatait tartalmazó adatkészletek gyakori példájára hivatkozva. Tudjuk, hogy minden beteg másként reagál a különböző kezelésekre. Tehát felügyeletlen ML-modelleket használhatunk a betegek különböző „típusainak/kategóriáinak” megértésére, a jellemző megfigyeléseket megkerülve a klaszterezési modellre, hogy megkapjuk a betegek kategóriáit a jellemzők hasonlósága alapján. Így a betegek csoportosítása és jobb kezelések kutatása az egyes kategóriákhoz.

Most, ha új beteg érkezik, akkor beírhatjuk a funkciókat a Unsupervised ML modellbe, és megkaphatjuk, hogy melyik beteg „Típusa” illik, és ennek megfelelően nagy késedelem nélkül előírhatjuk a kezelést. A valós világban az adatokhoz nem mindig címkék tartoznak, és a címkézés sok kézi munkát igényel. Ezért a felügyelet nélküli tanulási modellek gyakoriak és előnyösebbek, mivel nincsenek címkék, és a modell megtalálja a mintáit.

A felügyelet nélküli tanulás főként anomáliák észlelésére és klaszterezésre használható, amely az adatok hasonlóság alapján történő csoportosítása.

AL/ML alkalmazások a biológiában

Az AI/ML technikák a biológiai kutatás és fejlesztés különböző területein alkalmazhatók releváns ismeretek kinyerésére, prediktív és leíró elemzésekre, mint például a genomika, a proteomika, a szövegbányászat, a rendszerek és a szerkezetbiológia, a mikrotömbök stb.

A Genomicshoz érve ez a számítógépes biológia egyik legnépszerűbb és legfontosabb területe, a növekvő számú genomiális szekvenciát szem előtt tartva hatalmas mennyiségű bioinformatikai eszköz szükséges az adatok feldolgozásához a hasznos előállításhoz. információk, mint a pozíció és a génstruktúrák, a nem kódoló RNS gének és a génszabályozó elemek azonosítása. Számítógépes AI/ML modelleket alkalmaznak az újonnan felfedezett gének és RNS másodlagos struktúrák génfunkcióinak előrejelzésére.

A proteomika magában foglalja a fehérjék nagyszabású tanulmányozását, amelyek az élő szervezetek létfontosságú részei, amelyek számos funkciót látnak el a génekben lévő információk életté alakításában, és számítási és statisztikai alkalmazásokat igényelnek, mint például a rejtett Markov-modellek, ML/AI, Neurális hálózatok a nagyon összetett és kombinatorikus fehérjeszerkezet 3D-s előrejelzésének megoldására, amelyet tovább használnak a fehérjék működésébe és az előrejelzésbe való betekintésre.

Alkalmazásai vannak a Rendszerbiológiában is, ahol a biológia és a gépi tanulás ötvözete, valamint az AI/ML modellek a sejten belül zajló életfolyamatok, biológiai, genetikai és anyagcsere-hálózatok, valamint jelátviteli útvonalak modellezésére szolgálnak.

Különféle evolúciós tanulmányok alkalmazzák a gépi tanulást és a statisztikai megközelítéseket a filogenetikai faépítéshez. A filogenetikai fák az élőlények közötti evolúciós kapcsolatok sematikus ábrázolásai, amelyek azt tükrözik, hogy a különböző fajok hogyan fejlődtek ki egy sor közös ősből, különböző jellemzők, például morfológia, anyagcsere stb. alapján.

A számítási modelleket a Microarray vizsgálatokból származó összetett és nagy kísérleti adatkészletek kezelésére és elemzésére is használják, ami magában foglalja a képzési adatok (meglévő adatok, amelyekből tanulni kell) előfeldolgozását az ML modellek betanításához és felépítéséhez. elemzés. A Microarray adatok alkalmazhatók az expressziós mintázat azonosításában, a genetikai és metabolikus hálózatok indukciójában és osztályozásában.

A Szöveg-adatbányászat magában foglalja a strukturálatlan szöveg szabványos és strukturált adatformátummá történő átalakítását, amely könnyebben tárolható és feldolgozható elemzési és gépi tanulási algoritmusok számára, így összetett és fejlett elemzési technikák, például mélytanulási algoritmusok segítségével betekintést és értelmes mintákat kaphat. , támogatja a vektorgépeket (SVM), a naiv Bayes-t stb., hogy feltárja a strukturálatlan adatokon belüli rejtett kapcsolatokat.

Záró megjegyzések

Az egyik kihívás, amellyel a hozzánk hasonló bioinformatikusok szembesülnek a mai big data elemző eszközökkel, hogy kötegelt üzemmódban működnek, nagyon lassúak és szinte nincs optimalizálva az iteratív feldolgozásra, valamint nagy a műveletek adatfüggősége.

De a többnézetű gépi tanulási algoritmusok ösztönzése kifogástalanul csökkentette a korlátokat, az I/O költségeket és megnövelte az iteratív feldolgozást. Az ML eszközök a bioinformatikai adatelemzés egyik leggyakrabban használt és legígéretesebb eszközei az adatok kis és nagy léptékű elemzésére, különféle technikák, például mintavétel, elosztott számítások és jellemzők kiválasztásával. Sok erőfeszítést tesznek annak érdekében, hogy a Big Data inkrementális, párhuzamos és többnézetű klaszterező gépi tanulási modellekkel bővítsék a biológiában az összetett bioinformatikai problémák kezelését, valamint a kutatás hatékonyságát és költséghatékonyságát.

Személy szerint úgy érzem, nekünk biológiakutatóknak meg kell tanulnunk az AI/ML modellek működése mögött meghúzódó fő koncepciót, és meg kell ismerkednünk a számítástechnikával és a statisztikával, hogy értékes ismereteket szerezzünk, és interdiszciplináris megközelítéssel kezeljük a jelenlegi problémákat. Összességében sok cikkel találkoztam az interneten az AI/ML-ről, de a legtöbbjük bőven tele volt technikai szavakkal és összetett definíciókkal. Jó sok idő, keresés és YouTube videók után végre megértettem az alapkoncepciót, és szerettem volna egy egyszerű nyelven megosztani. Ennek a cikknek az volt a célja, hogy mindenkit megismertessen az AI/ML alapjaival, és hogy mi a különbség köztük.

Csatolok linkeket kedvenc cikkeimhez és YouTube-videóimhoz:

  1. A gépi tanulás alapjai | Mi az a gépi tanulás | Bevezetés a Simplilearn gépi tanulásába: https://youtu.be/ukzFI9rgwfU
  2. AI VS ML VS DL VS Data Science, Krish Naik: https://youtu.be/k2P_pHQDlp0
  3. Larranaga P et al., (2006), Machine Learning in Bioinformatics, Briefings in Bioinformatics, 7. kötet, 1. szám: https://doi.org/10.1093/bib/bbk007
  4. Naresh E et al., (2020), Impact of Machine Learning in Bioinformatics Research, e-fejezet: https://link.springer.com/chapter/10.1007/978-981-15-2445-5_4