1. Méretezhető mRMR funkció kiválasztása a nagy dimenziós adatkészletek kezelésére: Függőleges particionáláson alapuló Iteratív MapReduce keretrendszer (arXiv)

Szerző :Yelleti Vivek, P. S. V. S. Sai Prasad

Absztrakt :A gépi tanulási modellek építése során a jellemzőválasztás (FS) kiemelkedik az adatok bizonytalanságának és homályosságának kezelésére szolgáló alapvető előfeldolgozási lépésként. A közelmúltban a minimális redundancia és maximális relevancia (mRMR) megközelítés hatékonynak bizonyult az irredundáns jellemzők részhalmazának megszerzésében. A terjedelmes adathalmazok generálása miatt elengedhetetlen a skálázható megoldások tervezése elosztott/párhuzamos paradigmák segítségével. A MapReduce megoldások bizonyítottan az egyik legjobb megközelítés a hibatűrő és méretezhető megoldások tervezésében. Ez a munka elemzi a meglévő MapReduce megközelítéseket az mRMR jellemzők kiválasztására, és azonosítja ezek korlátait. A jelenlegi tanulmányban a VMR_mRMR-t javasoltuk, egy hatékony vertikális particionáláson alapuló megközelítést, amely memorizálási megközelítést alkalmaz, ezzel leküzdve a megközelítések jelenlegi korlátait. A kísérlet elemzése szerint a VMR_mRMR jelentősen felülmúlta a meglévő megközelítéseket, és jobb számítási nyereséget (C.G) ért el. Ezenkívül összehasonlító elemzést is végeztünk a HMR_mRMR [1] horizontális particionálási megközelítéssel, hogy felmérjük a javasolt megközelítés erősségeit és korlátait.

2.C2IMUFS: Kiegészítő és konszenzusos tanuláson alapuló hiányos többnézetű, felügyelt funkcióválasztás (arXiv)

Szerző: Yanyong Huang, Zongxin Shen, Yuxin Cai, Xiuwen Yi, Dongjie Wang, Fengmao Lv, Tianrui Li

Absztrakt: A többnézetű, felügyelet nélküli jellemzőkiválasztás (MUFS) hatékony módszer a többnézetű, címkézetlen adatok dimenziójának csökkentésére. A meglévő módszerek feltételezik, hogy minden nézet teljes. A többnézetű adatok azonban általában hiányosak, azaz a példányok egy része megjelenik néhány nézeten, de nem minden nézetben. Emellett a teljes hasonlósági gráf megtanulása, mint a meglévő MUFS módszerek egyik fontos ígéretes technológiája, nem valósítható meg a hiányzó nézetek miatt. Ebben a cikkben egy kiegészítő és konszenzusos tanuláson alapuló hiányos többnézetű, nem felügyelt jellemzőkiválasztási módszert (C2IMUFS) javasolunk a fent említett problémák megoldására. Konkrétan, a C2IMUFS integrálja a funkciók kiválasztását egy kiterjesztett súlyozott, nem negatív mátrixfaktorizációs modellbe, amely a nézetsúlyok adaptív tanulásával és ritka ℓ2,p-normával van felszerelve, ami jobb alkalmazkodóképességet és rugalmasságot kínál. A különböző nézetekből származó többszörös hasonlósági mátrixok ritka lineáris kombinációival egy kiegészítő tanulás-vezérelt hasonlósági mátrix rekonstrukciós modellt mutatunk be, hogy minden nézetben megkapjuk a teljes hasonlósági gráfot. Ezenkívül a C2IMUFS megtanul egy konszenzusos klaszterezési indikátormátrixot a különböző nézetek között, és beágyazza azt egy spektrális gráf kifejezésbe, hogy megőrizze a helyi geometriai szerkezetet. A valós adatkészleteken végzett átfogó kísérleti eredmények bizonyítják a C2IMUFS hatékonyságát a legmodernebb módszerekkel összehasonlítva.

3. Az egyváltozós Cox-regressziót kell használni a jellemzők kiválasztásához az eseményig eltelt idő függvényében? (arXiv)

Szerző: Rong Lu

Absztrakt :FONTOS: Az eseményig eltelt idő eredményeit gyakran használják klinikai vizsgálatokban és biomarker-felfedezési tanulmányokban, és elsősorban Cox-féle arányos kockázati modellekkel elemezték őket. Nem világos azonban, hogy mely statisztikai modelleket kell ajánlani a jellemzőválasztási feladatokhoz, amikor az eseményig eltelt idő az elsődleges szempont. CÉLKITŰZÉS: Annak feltárása, hogy a log-transzformált túlélési idő Gauss-regressziója felülmúlhatja-e a Cox-féle arányos veszélymodelleket a jellemzők kiválasztásában. TERVEZÉS: Ebben a szimulációs tanulmányban az igazi modellek többváltozós Cox-féle arányos veszélymodellek 10 kovariánssal. Az összes jellemzőválasztás összehasonlításakor azt feltételezzük, hogy a 10 valódi jellemzőből csak 5-öt figyelnek meg/mérnek meg minden modellillesztésnél, valamint 5 véletlenszerű zajjellemzőt. Minden mintaméret és cenzúraarány forgatókönyvet 10 000 szimulációs adatkészlet segítségével vizsgálunk meg. Különböző statisztikai modelleket alkalmazunk ugyanarra az adatkészletre a jellemzőhatások becslésére. A modell teljesítményét az érzékenység, a specifitás és az effektusméret rangsorolásának pontossága alapján hasonlítják össze. EREDMÉNYEK: Ha a jellemzők függetlenek, és a valódi modellek többváltozós Cox-arányos veszélymodellek, a log-transzformált túlélési idő (válaszváltozó) Gauss-féle regressziója mindössze két kovariánssal felülmúlta mind az egyváltozós Cox-arányos kockázati modellt, mind a logisztikus regressziót a jellemzők kiválasztásában. nem csak nagyobb érzékenység, összehasonlítható specificitás, hanem nagyobb pontosságú hatásméret-rangsorolás is, függetlenül a minta méretétől és a cenzúra sebességétől. KÖVETKEZTETÉSEK ÉS RELEvancia: Ez a tanulmány bemutatja annak fontosságát, hogy a log-transzformált túlélési idő Gauss-regresszióját beépítsék a jellemzők kiválasztásának gyakorlatába az eseményig tartó idő szempontjából.