Hogyan kezdje el MLOps utazását az Amazon SageMakeren

Az „MLOps” olyan kritikus út, amelyet gyakran figyelmen kívül hagynak a gyártás felé vezető úton. Könnyű elkülöníteni egy egyedi modellt, amelyet betanítani és telepíteni szeretne. A valóságban sok olyan modell lesz, amelyekkel együtt fog dolgozni. Győződjön meg arról, hogy megfelelő infrastruktúrával rendelkezik a képzés, a modellkövetés és a telepítés kezeléséhez. Az MLOps segít felépíteni és egyszerűsíteni ezeket a folyamatokat egy áttekinthető munkafolyamattá, amely a gépi tanuláshoz lett igazítva.

A „SageMaker Pipelines” az Amazon SageMaker által támogatott elsődleges MLOps funkció. A folyamatok segítségével nagy léptékben hozhat létre és kezelhet végpontok közötti ML munkafolyamatokat. A mai cikkünkben bevezető pillantást vetünk a SageMaker Pipelines beállítására.

MEGJEGYZÉS: Azok számára, akik még nem ismerik az AWS-t, feltétlenül hozzanak létre fiókot a következő link oldalon, ha követni kívánják a lépést. Ez a cikk az AWS és a SageMaker ismeretek kezdő és középhaladó szintjét feltételezi.

Tartalomjegyzék

  1. Hogyan működnek a SageMaker csővezetékek?
  2. Beállítás SageMaker projektekkel
  3. A SageMaker csővezetékek megjelenítése
  4. További források és következtetések

1. Hogyan működik a SageMaker Pipelines?

Magas szinten a SageMaker Pipeline egy sor összehangolt „lépés” révén épül fel. Különböző lépéstípusokat határozhat meg, például „Tréning lépés” vagy „RegisterModel Step”. A SageMaker SDK használatával elkészítheti ezeket a lépéseket Pythonban, és a végrehajtás után létrejön egy vizuális „DAG”, amely megjeleníti a munkafolyamatot.

A SageMaker Pipeline másik kulcsfontosságú része a Pipeline Parameters. A paramétereken keresztül változókat injektálhat a Pipeline-ba. A változók szerint a példánytípustól a példányszámig terjedhet, hogy csak néhányat említsünk. Ezekkel a paramétereket a munkafolyamat különböző részein hívhatja meg.

2. Beállítás

A SageMaker Pipelines a leghatékonyabban a SageMaker Studio-ból hangszerelhető. A SageMaker Studio a SageMaker által biztosított IDE, itt olyan környezetben dolgozhat, amely nagyon hasonlít a JupyterLabhoz, de minden SageMaker képességgel rendelkezik. A SageMaker konzol bal oldalán el kell érnie a Studio-t.

A Studio Console-on a Felhasználó hozzáadása lehetőségre kell kattintania, ahol létrehozhat egy SageMaker Domain-t. Miután rákattintott a létrehozott felhasználóra, képesnek kell lennie egy Studio alkalmazás elindítására. Itt látnia kell az általános beállításokat, ahol elkezdheti a Stúdióval való munkát.

Most azonnal hozzáláthatunk a munkához, és a semmiből kezdhetjük el a Pipeline felépítését a SageMaker Python SDK segítségével. Azonban egy csővezeték felépítése az alapoktól fárasztó lehet, és az alapbeállítások nagy része automatizálható. A SageMaker Projects segítségével kész sablonokat biztosítanak, amelyeket módosíthat és fejleszthet saját egyedi ML használati eseteihez. A projekteket a SageMaker Studio felhasználói felületén találjuk.

Ha rákattintunk a Projekt létrehozása lehetőségre, láthatjuk a felkínált különféle sablonokat.

Itt használhatjuk az egyszerű modellépítési és képzési sablont az induláshoz. A kiválasztást követően elnevezhetjük és létrehozhatjuk a projektet, ez a folyamat néhány percet vesz igénybe.

Most mélyebben megvizsgálhatjuk, hogy valójában miből áll a Pipeline.

3. A SageMaker Pipelines megjelenítése

Közvetlenül a Lerakatok lap mellett látnia kell egy Csővezetékek lapot. Itt láthatjuk, hogy projektsablonunk egy előre elkészített Pipeline-t hozott létre számunkra. Ha a Pipeline-ra kattintunk, látni kell a végrehajtást folyamatban.

A munkafolyamat megértéséhez, ha rákattintunk a Grafikonra, láthatjuk a folyamat különböző lépéseit.

A másik fő rész, amiről beszéltünk, az a paraméterek vagy változók voltak, amelyeket a csővezetékünkbe injektálunk. Ez a jobb oldali Paraméterek lapon látható.

Most hol szerkesztheti ténylegesen a folyamat mögött lévő kódot? Ha visszatérünk a SageMaker Projects lapra a Randomforest-pipeline Projecthez, akkor képesnek kell lennie klónozni ezt a tárat, és helyileg megjelenik a Studio IDE.

Ha rákattint a megjelenő helyi elérési útra, látnia kell azt a kódot, amelyet ennek a folyamatnak a megszervezéséhez és felépítéséhez használtak.

Alapértelmezés szerint a Pipelines egy példát készít az Abalone adatkészlettel, de ezt a kódot szerkesztheti az adatokhoz és a felépíteni/tanítani kívánt modellhez. Ha a Pipelines könyvtárba lépünk, akkor sok ilyen alapkódot láthatunk, amelyekből építhetünk. A gyökérkönyvtárban egy jegyzetfüzet is található, amely segít a folyamatkönyvtárban megadott Python-szkriptek végrehajtásában.

A fő Python-szkript, amely miatt aggódnia kell, a pipeline.py. Ez az a szkript, amely összefogja az összes lépést, és rögzíti az Ön által meghatározott munkafolyamat teljességét. Ezt a Python fájl végén láthatod.

Ezek a szkriptek ezután a jegyzetfüzet celláiban futnak, amelyek már előre elkészítettek az Ön számára.

4. További források és következtetések

Ez egy gyengéd bevezetés volt abba, hogyan használhatja fel a SageMaker Pipelines-t az MLOps-utazáshoz. A Projects segítségével előre elkészített sablonokat kaphat, amelyeket könnyen beállíthat saját használati esetéhez. A csővezetékek lépések és lehetőségek széles skáláját kínálják, a SageMaker által kínált számítási skálával és teljesítménnyel párosulva.

További források

"Példa a SageMaker csővezetékek végétől a végéig"

"Csővezetékek Youtube-demója"

"MLOps a SageMakerrel"

Ha tetszett ez a cikk, forduljon hozzám bizalommal a LinkedIn-en, és iratkozzon fel közepes hírlevelemre. Ha még nem ismeri a Mediumot, iratkozzon fel a Tagsági ajánlásom segítségével