A ResNet-50 egy 50 réteg mélységű konvolúciós neurális hálózat. A ResNet, a Residual Networks rövidítése egy klasszikus neurális hálózat, amelyet számos számítógépes látási feladat gerinceként használnak.A ResNet alapvető áttörése az volt, hogy rendkívül mély, több mint 150 rétegű neurális hálózatokat tanítottunk. Ez egy innovatív neurális hálózat, amelyet először Kaiming He, Xiangyu Zhang, Shaoqing Ren és Jian Sun mutatott be 2015-ös számítógépes látással kapcsolatos kutatási tanulmányukban „Deep Residual Learning for Image Recognition”.

A konvolúciós neurális hálózatoknak van egy jelentős hátrányuk: „Eltűnő gradiens probléma”. A visszaszaporítás során a gradiens értéke jelentősen csökken, így a súlyokban alig történik változás. Ennek kiküszöbölésére a ResNet-et használják. Használja a „KAPCSOLAT KIHAGYÁSA” funkciót

ResNet-50 architektúra

Kapcsolat kihagyásaAz eredeti bemenet hozzáadása a konvolúciós blokk kimenetéhez.

Minden algoritmus az „Y” kimeneten edz, de a ResNet az F(X) kimeneten. Egyszerűbb szavakkal, a ResNet megpróbálja beállítani az F(X)=0-t úgy, hogy Y=X legyen.

A CSIP CONNECTION egy közvetlen kapcsolat, amely átugorja a modell egyes rétegeit. A kimenet nem ugyanaz a kihagyás miatt. Az átugrási kapcsolat nélkül az „X” bemenetet megszorozzuk a réteg súlyával, majd hozzáad egy torzítási tagot.

Ezután jön az aktiváló függvény, az F(), és a kimenetet így kapjuk:

F( w*x + b ) (=F(X))

De a kihagyásos csatlakozási technikával a kimenet a következő:

F(X)+x

A ResNet-50-ben kétféle blokk létezik:

  1. Identity Block
  2. Konvolúciós blokk

Az „x” értéke akkor és csak akkor kerül hozzáadásra a kimeneti réteghez, ha a

Ha nem ez a helyzet, akkor a parancsikon elérési útjába egy „konvolúciós blokkot” adunk, hogy a bemeneti méret megegyezzen a kimeneti mérettel.

Kétféleképpen lehet a bemeneti méretet megegyezni a kimeneti mérettel -

  1. A bemeneti hangerő feltöltése,
  2. 1*1 kanyarulat végrehajtása.

A kimeneti réteg méretének kiszámítása a következőképpen történik:

ahol,

n = bemeneti képméret,

p = padding,

s = lépés,

f=szűrők száma.

1*1 konvolúciós rétegeknél a kimeneti réteg mérete =

mivel a bemeneti méret „n”.

A CNN-ekben a kép méretének csökkentése érdekében poolinget használnak. Itt helyette a stride=2-t használjuk.

Köszönjük, hogy elolvasta! Ha kérdése van, forduljon hozzám bizalommal a Gmailon vagy a LinkedIn-profilomonvagy a GitHub profilomon. em>