Kezdő megjegyzések a mély tanuláshoz
A mély tanulás ismét egy olyan kifejezés, amelyet az emberek gyakran összetévesztenek és felcserélhetően használnak másokkal, bár deep learning refers to training the Neural Networks
.
Mi az a neurális hálózat?
Egy Neural Network is a series of algorithms
, amely megpróbálja felismerni a bemeneti adatok mögöttes összefüggést, akárcsak az emberi agy. Ily módon a neurális hálózatok a systems of neurons
-ra utalnak, akár szerves, akár mesterséges természetű. A neurális hálózatok alkalmazkodni tudnak a változó bemenetekhez; így a hálózat a lehető legjobb eredményt hozza létre anélkül, hogy újra kellene tervezni a kimeneti feltételeket.
A neurális hálózatok a series of algorithms
igyekeznek felismerni a underlying relationship
bemeneti adatok között, ahogy az emberi agy teszi.
A legkisebb neurális hálózatnak lehet egy neuronja, egy bemenete (x) és egy kimenete (y).
Az itt található neuron: computing unit
,amely bemenetet vesz és kimenetet ad vissza.
A input layer(x)
és output layer(y)
közötti neuronrétegek hidden layers,
néven ismertek, és az ezekben a rejtett rétegekben lévő neuronok mindegyike hidden unit.
ezek a rejtett egységek mindegyike bemenetet fogad az összes input features(x).
Az NN legtöbb lenyűgöző alkalmazása a „felügyelt tanulásból” származik, a inputs
típusok alapján különböző NN-ek létezhetnek, például Ad or user info
Standard NN
,a images
esetében a CNN
,t használjuk sequential data
A hanghoz és a természetes nyelvhez hasonlóan RNN
,képként és radarinformációként is bevihető, ami néha összetettebb is lehet custom made/hybrid NN architecture.
A fenti képre hivatkozva rövid magyarázatot kaptak az összes NN architektúrára..!
Strukturált vs strukturálatlan adatok
A hagyományos tanulási algoritmusoknál, mint a SVM
és Logistic regression
, amikor az adatok növelik, az algoritmus teljesítménye növekszik, de a platók, ahogyan tovább nő. És mivel sokkal inkább digitálissá váltunk, és szinte mindenhol bevezettük az IOT-t, az elmúlt 20 évben az adatok nagymértékben emelkedtek. És ezért szükségünk volt egy learning algorithm that could give more performance with respect to rising data
-re, és ehhez van Deep learning
.
azaz larger the NN
van a amount of data
-el, a better
a mi performance
lenne.
Bár smaller training set(the amount of data)
számára a dolgok not certain
és inkább attól függnek, hogy egyesek számára milyen funkciókat kapnak a bemeneti adatok, még SVM
is jobb lehet, mint NNs.
Az elmúlt néhány évben nem csak added up the data
, hanem nyertünk is much more computation ability
, és ami még fontosabb, hatalmasat algorithmic innovation
nyertünk az elmúlt években.
Az egyik áttörés a Sigmoid
-ról ReLu
-ra való váltás. A ReLu függvény sokkal gyorsabbá tette az olyan algoritmusokat, mint a gradient descent
, mivel a szigmoid eléri a 0-t, és a gradiens alkalmazása egy ilyen értékre lassítja és több időt vesz igénybe.
Az ilyen algoritmikus újítások és a számítási megvalósíthatóság hatása sokkal nagyobb a vártnál, mivel ez a tanulási megközelítés általában iterative
, akkor train a model
, akkor kap egy better idea
, kódol és again train a model
, és ha sok időt vesz igénybe egy modell betanítása iteratív folyamat sok lesz much more time and computation expensive
. Kevesebb edzési időért megteheti a more experiments
-t, és találhat egy olyan modellt, amely jobban működik egy alkalmazáshoz. Ez áldás volt az új tanulási algoritmusok megújításában.
Logisztikus regresszió
Ez egy algorithm for binary classification
, nézzünk át néhány jelölést, mielőtt belemennénk,
Így néz ki egy training pair
példa (x, y), ahol x ∈
y ∈ {0,1}
mintha 64 x 64
pixeles színes képekről beszélnénk, először feature vector X
képpé kell konvertálni a képet, logisztikus regressziót kell végrehajtani rajta, tehát itt a bemeneti jellemzők nₓ = 64 x 64 x 3 =12288
3 itt az RGB csatorna, vagyis a képünk mélysége .
A logisztikus regresszió hasznos a bináris osztályozáshoz, mivel megadja a kimenet valószínűségét, ha X jellemzővektort adunk.yˆ= P(y=1|X)
, itt yˆ
a kimenet valószínűsége y
.
A logisztikus regresszió paraméterei::
A Sigmoid alapvetően átskálázza az értéket 0-ra és 1-re
Ha a kimenet negatívabbra megy, akkor az érték közelebb kerül a 0-hoz, pozitívabb érték esetén pedig inkább az 1-hez.
A Sigmoid és a Softmax függvények hasonlónak tűnhetnek, de különböznek,
Összegzés:
Veszteség funkció
megtehetnénk az MSE-t (Mean Squared Error), mint a lineáris regresszióban, de ha ezt itt megtesszük, akkor egy nem konvex függvényt kapnánk, ami több minimumhoz vezetne, és ezért nem a legoptimálisabb megoldás. .
Költségfüggvény (J)
Mivel az elveszett funkció egyetlen edzési példa alapján lett definiálva, ez azt mutatja meg, hogy milyen jól teljesít az egyes edzési példákon.
Annak mérésére, hogy mennyire teljesít a teljes edzés során. állítsa be a költségfüggvényt,
Bővebben tájékoztatok róla, ha kétségei vannak, forduljon a Harshit Jainhez – LinkedIn: Harshit Jain
Ne felejtsen el tapsolni👏👏 ehhez a cikkhez, ha hasznosnak találja.