Hogyan kezdje el MLOps utazását az Amazon SageMakeren
Az „MLOps” olyan kritikus út, amelyet gyakran figyelmen kívül hagynak a gyártás felé vezető úton. Könnyű elkülöníteni egy egyedi modellt, amelyet betanítani és telepíteni szeretne. A valóságban sok olyan modell lesz, amelyekkel együtt fog dolgozni. Győződjön meg arról, hogy megfelelő infrastruktúrával rendelkezik a képzés, a modellkövetés és a telepítés kezeléséhez. Az MLOps segít felépíteni és egyszerűsíteni ezeket a folyamatokat egy áttekinthető munkafolyamattá, amely a gépi tanuláshoz lett igazítva.
A „SageMaker Pipelines” az Amazon SageMaker által támogatott elsődleges MLOps funkció. A folyamatok segítségével nagy léptékben hozhat létre és kezelhet végpontok közötti ML munkafolyamatokat. A mai cikkünkben bevezető pillantást vetünk a SageMaker Pipelines beállítására.
MEGJEGYZÉS: Azok számára, akik még nem ismerik az AWS-t, feltétlenül hozzanak létre fiókot a következő link oldalon, ha követni kívánják a lépést. Ez a cikk az AWS és a SageMaker ismeretek kezdő és középhaladó szintjét feltételezi.
Tartalomjegyzék
- Hogyan működnek a SageMaker csővezetékek?
- Beállítás SageMaker projektekkel
- A SageMaker csővezetékek megjelenítése
- További források és következtetések
1. Hogyan működik a SageMaker Pipelines?
Magas szinten a SageMaker Pipeline egy sor összehangolt „lépés” révén épül fel. Különböző lépéstípusokat határozhat meg, például „Tréning lépés” vagy „RegisterModel Step”. A SageMaker SDK használatával elkészítheti ezeket a lépéseket Pythonban, és a végrehajtás után létrejön egy vizuális „DAG”, amely megjeleníti a munkafolyamatot.
A SageMaker Pipeline másik kulcsfontosságú része a Pipeline Parameters. A paramétereken keresztül változókat injektálhat a Pipeline-ba. A változók szerint a példánytípustól a példányszámig terjedhet, hogy csak néhányat említsünk. Ezekkel a paramétereket a munkafolyamat különböző részein hívhatja meg.
2. Beállítás
A SageMaker Pipelines a leghatékonyabban a SageMaker Studio-ból hangszerelhető. A SageMaker Studio a SageMaker által biztosított IDE, itt olyan környezetben dolgozhat, amely nagyon hasonlít a JupyterLabhoz, de minden SageMaker képességgel rendelkezik. A SageMaker konzol bal oldalán el kell érnie a Studio-t.
A Studio Console-on a Felhasználó hozzáadása lehetőségre kell kattintania, ahol létrehozhat egy SageMaker Domain-t. Miután rákattintott a létrehozott felhasználóra, képesnek kell lennie egy Studio alkalmazás elindítására. Itt látnia kell az általános beállításokat, ahol elkezdheti a Stúdióval való munkát.
Most azonnal hozzáláthatunk a munkához, és a semmiből kezdhetjük el a Pipeline felépítését a SageMaker Python SDK segítségével. Azonban egy csővezeték felépítése az alapoktól fárasztó lehet, és az alapbeállítások nagy része automatizálható. A SageMaker Projects segítségével kész sablonokat biztosítanak, amelyeket módosíthat és fejleszthet saját egyedi ML használati eseteihez. A projekteket a SageMaker Studio felhasználói felületén találjuk.
Ha rákattintunk a Projekt létrehozása lehetőségre, láthatjuk a felkínált különféle sablonokat.
Itt használhatjuk az egyszerű modellépítési és képzési sablont az induláshoz. A kiválasztást követően elnevezhetjük és létrehozhatjuk a projektet, ez a folyamat néhány percet vesz igénybe.
Most mélyebben megvizsgálhatjuk, hogy valójában miből áll a Pipeline.
3. A SageMaker Pipelines megjelenítése
Közvetlenül a Lerakatok lap mellett látnia kell egy Csővezetékek lapot. Itt láthatjuk, hogy projektsablonunk egy előre elkészített Pipeline-t hozott létre számunkra. Ha a Pipeline-ra kattintunk, látni kell a végrehajtást folyamatban.
A munkafolyamat megértéséhez, ha rákattintunk a Grafikonra, láthatjuk a folyamat különböző lépéseit.
A másik fő rész, amiről beszéltünk, az a paraméterek vagy változók voltak, amelyeket a csővezetékünkbe injektálunk. Ez a jobb oldali Paraméterek lapon látható.
Most hol szerkesztheti ténylegesen a folyamat mögött lévő kódot? Ha visszatérünk a SageMaker Projects lapra a Randomforest-pipeline Projecthez, akkor képesnek kell lennie klónozni ezt a tárat, és helyileg megjelenik a Studio IDE.
Ha rákattint a megjelenő helyi elérési útra, látnia kell azt a kódot, amelyet ennek a folyamatnak a megszervezéséhez és felépítéséhez használtak.
Alapértelmezés szerint a Pipelines egy példát készít az Abalone adatkészlettel, de ezt a kódot szerkesztheti az adatokhoz és a felépíteni/tanítani kívánt modellhez. Ha a Pipelines könyvtárba lépünk, akkor sok ilyen alapkódot láthatunk, amelyekből építhetünk. A gyökérkönyvtárban egy jegyzetfüzet is található, amely segít a folyamatkönyvtárban megadott Python-szkriptek végrehajtásában.
A fő Python-szkript, amely miatt aggódnia kell, a pipeline.py. Ez az a szkript, amely összefogja az összes lépést, és rögzíti az Ön által meghatározott munkafolyamat teljességét. Ezt a Python fájl végén láthatod.
Ezek a szkriptek ezután a jegyzetfüzet celláiban futnak, amelyek már előre elkészítettek az Ön számára.
4. További források és következtetések
Ez egy gyengéd bevezetés volt abba, hogyan használhatja fel a SageMaker Pipelines-t az MLOps-utazáshoz. A Projects segítségével előre elkészített sablonokat kaphat, amelyeket könnyen beállíthat saját használati esetéhez. A csővezetékek lépések és lehetőségek széles skáláját kínálják, a SageMaker által kínált számítási skálával és teljesítménnyel párosulva.
További források
"Példa a SageMaker csővezetékek végétől a végéig"
"Csővezetékek Youtube-demója"
"MLOps a SageMakerrel"
Ha tetszett ez a cikk, forduljon hozzám bizalommal a LinkedIn-en, és iratkozzon fel közepes hírlevelemre. Ha még nem ismeri a Mediumot, iratkozzon fel a Tagsági ajánlásom segítségével