„Adattudomány”, „Matematika”

Az adatkutatóknak fel kell ismerniük a matematikát

Az adattudósnak át kell vennie a matematikát, hogy megbízható modelleket tudjon felépíteni az adatok felhasználásával

Az adattudomány egy interdiszciplináris terület, amely tudományos módszereket, folyamatokat és algoritmusokat használ az adatokból ismeretek és betekintések kinyerésére. Az adattudomány területe több felosztással rendelkezik, mint például adatbányászat, adatátalakítás, adatvizualizáció, gépi tanulás, mély tanulás stb. Tudományos tudományágként egy adattudományi feladat három fő szakaszra bontható:

1. Észrevételek

Ez az a szakasz, ahol adatokat gyűjtenek, elemeznek az adatok mintázatainak és összefüggéseinek feloldása érdekében, és kérdéseket tesznek fel az adatok felhasználásával.

2. Modellépítés

Itt jönnek képbe a matematikai készségek. Ebben a szakaszban matematikai eszközöket használnak modellek (prediktív modellek) felépítésére a minták számszerűsítésére vagy az adatkészlet jellemzői közötti kapcsolatok tanulmányozására.

3. Alkalmazás

Ebben a szakaszban a matematikai modellt telepítik és gyártásba kezdik. A modell ellenőrzése és érvényesítése új, nem látott adatok alapján történik. A modell teljesítményét visszacsatolják az 1. szakaszba, és ennek megfelelően finomítják a matematikai modellt.

Az adattudomány nagyon gyakorlatias és gyakorlatias terület. Az adattudomány szilárd alapot igényel a matematikában és a programozásban. Adattudósként elengedhetetlen, hogy megértse az adattudomány elméleti és matematikai alapjait, hogy megbízható modelleket tudjon felépíteni valós alkalmazásokkal.

Nagyon sok jó csomag használható prediktív modellek felépítésére. A leíró és prediktív elemzésekhez használt leggyakoribb csomagok közé tartozik

Ggplot2
Matplotlib
Seaborn
Sci-kit learn package
Caret package
Tensorflow
PyTorch Package
Keras Package

Fontos, hogy mielőtt ezeket a csomagokat használná, sajátítsa el az adattudomány alapjait, így nem csak blackbox eszközként használja ezeket a csomagokat.

A gépi tanulási modellek működésének megértésének egyik módja az, ha megérti az egyes modellek mögött rejlő elméleti és matematikai alapokat. Adattudósként a valós problémákra alkalmazható megbízható és hatékony modellek felépítésének képessége attól függ, hogy milyen jók a matematikai készségei.

Ez a cikk az adattudományi gyakorlathoz elengedhetetlen elméleti és matematikai alapokat tárgyalja.

(I) Statisztika és valószínűség

A Statisztikát és a Valószínűséget jellemzők megjelenítésére, adat-előfeldolgozásra, jellemző transzformációra, adatimputációra, dimenziócsökkentésre, jellemzőtervezésre, modellértékelésre stb. használják. Íme, a témakörök, amelyeket ismernie kell:

1. Mean
2. Moving average
3. Median
4. Mode
5. Standard deviation/variance
6. Correlation coefficient and the covariance matrix
7. Probability distributions (Binomial, Poisson, Normal)
8. p-value
9. Baye’s Theorem (Precision, Recall, Positive Predictive Value, Negative Predictive Value, Confusion Matrix, ROC Curve)
10. Central Limit Theorem
11. R_2 score
12. Mean Square Error (MSE)
13. A/B Testing
14. Monte Carlo Simulation

Például az Átlag, a Medián és a Mód egy adott adatkészlet összefoglaló statisztikáinak megjelenítésére szolgál. Adatimputációra is használják (átlagimputáció, medián imputáció és módusimputáció).

A korrelációs együtthatók és a kovariancia mátrix az adatkészlet különböző jellemzői közötti kapcsolatok tanulmányozására szolgálnak, és a jellemzők kiválasztására és a dimenziók csökkentésére is használhatók.

A valószínűségi eloszlásokat a jellemzők skálázására, például a jellemzők normalizálására és szabványosítására használják. Az adatok szimulálására valószínűségi eloszlást és Monte-Carlo szimulációt is használnak. Például, ha a mintaadatok a normális eloszlás szerint vannak elosztva, ismert átlaggal és szórással, akkor populációs adatkészlet generálható a normális eloszlás véletlenszám-generátorával.

A Baye-tételt a modell tesztelésére és értékelésére, valamint a pontossági pontszám kiszámítására használják.

A Central Limit Theorem (CLT)a statisztika és adattudomány egyik legfontosabb tétele. A CLT szerint a nagyobb számú megfigyelést tartalmazó mintaadatkészlet használata előnyös a modellépítéshez, mert a nagyobb minta jobban közelíti a sokaságot. Tudjon meg többet a CLT-ről itt: A központi határtétel bizonyítása Monte-Carlo szimulációval.

Az R_2 pontszám és az MSE a modellértékeléshez használatos. Itt van egy cikk, amelyben az R_2 pontszámot és az MSE-t használják a modellértékeléshez:

Gépi tanulási ajánlási modell készítése a semmiből.

(II) Többváltozós kalkulus

A legtöbb gépi tanulási modell több funkcióval vagy előrejelzővel rendelkező adatkészlettel készül. Ezért a többváltozós számítások ismerete rendkívül fontos a gépi tanulási modell felépítéséhez. Itt vannak azok a témák, amelyeket ismernie kell:

1. Functions of several variables
2. Derivatives and gradients
3. Step function, Sigmoid function, Logit function, ReLU (Rectified Linear Unit) function
4. Cost function
5. Plotting of functions
6. Minimum and Maximum values of a function

A többváltozós kalkulus gépi tanulási folyamatban való használatára vonatkozó példákért tekintse meg a következő példákat:

«Az első gépi tanulási modell felépítése: Lineáris regressziós becslés

Alapvető perceptron-modell a legkisebb négyzetek módszerével

(III) Lineáris algebra

A lineáris algebra a gépi tanulás legfontosabb matematikai készsége. Egy adatkészlet mátrixként van ábrázolva. A lineáris algebrát adat-előfeldolgozásban, adattranszformációban, dimenziócsökkentésben és modellértékelésben használják.

Itt vannak azok a témák, amelyeket ismernie kell:

1. Vectors
2. Norm of a vector
3. Matrices
4. Transpose of a matrix
5. The inverse of a matrix
6. The determinant of a matrix
7. Dot product
8. Eigenvalues
9. Eigenvectors

Például a kovariancia mátrix egy nagyon hasznos mátrix, amely a jellemzők közötti összefüggéseket jeleníti meg. A kovariancia mátrix segítségével kiválasztható, hogy milyen jellemzőket használjon prediktor változóként. Íme egy példa arra, hogy a kovarianciamátrix hogyan használható a jellemzők kiválasztására és a dimenziók csökkentésére: Jellemzők kiválasztása és dimenziócsökkentés a kovarianciamátrix diagram segítségével.

A jellemzők kiválasztásának és a méretcsökkentés további fejlett módszerei a Főkomponens-elemzés (PCA) és a Lineáris diszkriminancia-elemzés (LDA). A PCA és az LDA működésének megértéséhez meg kell értenie a lineáris algebra témaköreit, például a mátrix transzponálását; egy mátrix inverze; egy mátrix determinánsa; pont termék; sajátértékek; és sajátvektorok. Íme néhány LDA és PCA megvalósítás:

Gépi tanulás: dimenziócsökkentés főkomponens-elemzés révén

Gépi tanulás: dimenziócsökkentés lineáris diszkriminancia-analízissel

(IV) Optimalizálási módszerek

A legtöbb gépi tanulási algoritmus prediktív modellezést hajt végre egy célfüggvény minimalizálásával, ezáltal megtanulja, hogy milyen súlyokat kell alkalmazni a tesztelési adatokra az előrejelzett címkék megszerzéséhez. Itt vannak azok a témák, amelyeket ismernie kell:

1. Cost function/Objective function
2. Likelihood function
3. Error function
4. Gradient Descent Algorithm and its variants (e.g. Stochastic Gradient Descent Algorithm)

Itt található egy példa arra, hogyan használják az optimalizálási módszereket az adattudományban és a gépi tanulásban: Gépi tanulás: Python Linear Regression Estimator Using Gradient Descent.

Források az alapvető matematikai készségek fejlesztéséhez

1. Khan Akadémiát

A Khan Academy egy nagyszerű webhely az adattudományhoz szükséges alapvető matematikai, statisztikai, számítási és lineáris algebrai ismeretek elsajátításához. Ez nagyszerű forrás lehet azoknak, akik érdeklődnek az adattudomány iránt, de nem rendelkeznek a szükséges mennyiségi háttérrel.

2. YouTube

A YouTube számos oktatóvideót és oktatóanyagot tartalmaz, amelyek megtaníthatják az adattudományhoz szükséges alapvető matematikai és programozási ismereteket, valamint számos adattudományi oktatóanyagot a kezdőknek. Egy egyszerű keresés több oktatóvideót és előadást generálna. Egy jó kurzus a lineáris algebráról a YouTube-on Gilbert Strang MIT professzor kurzusa: Linear Algebra by Gilbert Strang

Összegzés

Összefoglalva, megvitattuk azokat az alapvető matematikai és elméleti készségeket, amelyekre szükség van az adattudományban és a gépi tanulásban. Számos ingyenes online tanfolyam van, amelyek megtanítják az adattudományban szükséges matematikai készségeket. Adattudósként fontos szem előtt tartani, hogy az adattudomány elméleti alapjai nagyon fontosak a hatékony és megbízható modellek felépítéséhez.

Hivatkozások

  1. „Gépi tanulási modell betanítása erősen korrelált tulajdonságokkal rendelkező adatkészletre”.
  2. "Jellemzők kiválasztása és dimenziócsökkentés kovarianciamátrix diagram segítségével".
  3. Raschka, Sebastian és Vahid Mirjalili. Python Machine Learning, 2. kiadás. Packt Publishing, 2017.
  4. Benjamin O. Tayo, Machine Learning Model for Predicting a Ships Crew_Size, https://github.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size.