Szia! Roman Kucev vagyok, a Neatsy, Inc. adattudósa. Két évvel ezelőtt egy érdekes hírepizódra bukkantam a tévében. Bejelentették, hogy az Informatikai Tanszék neurális hálózatot épít a vízóra állásainak fotókon való felismerésére. A híradó arra kérte a nézőket, hogy segítsenek a neurális hálózat képzésében, és küldjék el a vízmérőik fotóit egy online portálra.

Arra gondoltam, oké, ha Ön egy nagy kormányzati ügynökség, könnyen kivetíthet egy videót a tévében, és megkérheti az embereket, hogy küldjenek fotókat a vízmérőikről. De mi van akkor, ha egy kis startup vagy, és nem engedheted meg magadnak ezt a fajta elérést? Mit tehetsz, hogy ötezer képet gyűjts a vízmérőkről?

Nos, ez a tökéletes ok a Toloka használatára!

A „Toloka” egy crowdsourcing platform, ahol az emberek a világ minden tájáról végeznek mikrofeladatokat, és pénzt kapnak érte. A Toloka fellépői, más néven Tolokerek, segíthetnek a gyalogosok azonosításában a fényképeken, hangos asszisztensek kiképzésében, a keresési eredmények relevanciájának ellenőrzésében és "sok minden másban". Bárki csatlakozhat a Tolokához előadóként vagy kérőként.

A cél

Tehát olyan neurális hálózatot szeretne építeni, amely felismeri a vízóra állásait a fényképeken.

MVP készítéséhez ezer fotóra lesz szüksége a vízmérőkről. Két paramétert keres: az aktuális leolvasást és a számjegyek pozícióját a mérőn.

1. rész. Képek gyűjtése

Első pillantásra minden világos és egyszerű. Létrehozol egy feladatot Tolokában, és megkéred az előadókat, hogy nyissa meg az alkalmazást a telefonján, és készítsenek képet a vízórájukról. Ha nem rendelkezem több éves tapasztalattal a Tolokával, az utasításaim valahogy így néznek ki: „Készítsen képet a vízórájáról, és küldje el nekünk.”

Sajnos ilyen feladatleírással lehetetlen jó minőségű adatkészletet szerezni. A probléma az, hogy nem igazán mondja meg, hogyan kell kinéznie egy érvényes beadványnak. Ennek eredményeként az emberek olyan tartalmakat küldhetnek be, amelyek nem használhatók neurális hálózat képzésére, például:

  • Homályos képek.
  • Olyan képek, amelyeken nem lehet tisztán látni a leolvasást.
  • Több méter egy képen.

A Tolokának kiváló oktatóanyaga van az utasítások írására. Követtem a tanácsukat, és összeállítottam az alábbi utasításokat:

Most pedig térjünk át magának a feladatnak a beállítására. Csak néhány lépésből áll.

  1. Állítsa be a feladatazonosítót bemeneti paraméterként, és egy img fájlt kimenetként.

A feladatfelület mindössze két sornyi kódból áll!

2. Ezután hozzon létre egy készletet, és tegye a következőket:

  • Adja meg, mennyi idejük van az előadóknak a feladat elvégzésére.
  • Nem automatikus elfogadás beállítása.
  • Határozza meg, mennyit fog fizetni a feladatért. Az alábbi példában ez 0,01 USD.

3. Annak érdekében, hogy az előadók ne csaljanak ugyanazon képek újra és újra elküldésével, tiltsa le az ismételt beküldést a minőségellenőrzési beállításokban.

4. Határozza meg, milyen előadókat keres. Ebben az esetben az oroszul beszélő előadók a Toloka mobilalkalmazást használják.

5. Töltse fel a feladatot a készletbe.

2. rész: A képek ellenőrzése

Néhány órán belül a Tolokerek elvégzik a feladatot. Mivel beállította a nem automatikus elfogadást, nem kapják meg azonnal a fizetést: először is ellenőriznie kell, hogy a beadványaik érvényesek-e. Az érvényes beadványokat el kell fogadnia, az érvényteleneket pedig el kell utasítania, meg kell adnia az elutasítás okát.

Ne feledje, a cél több tízezer fénykép beszerzése. Képzeld el, hogy mindegyiket ellenőriznéd! Óriási időt és erőfeszítést igényelne. Szerencsére nem kell megtenned magad.

Létrehozhat egy új feladatot, és megkérheti a Tolokerek egy másik csoportját, hogy állapítsák meg, hogy az egyes képek megfelelnek-e a minőségi kritériumoknak. Nevezzük „vízmérő képellenőrzésnek”.

Ismét néhány lépést kell követnie.

  1. Határozza meg, mi számít érvényes fényképnek.

A fénykép akkor érvényes, ha:

  • Csak egy vízmérőt mutat (meleg vagy hideg vízhez).
  • A leolvasások jól láthatóak.

Ha a feltételek egyike sem teljesül, tekintse érvénytelennek a fényképet.

2. Írjon egyértelmű utasításokat.

3. Adja meg a kép URL-címét bemeneti paraméterként. A kimeneti oldalon két „igen” vagy „nem” paraméter található:

  • check_count — a válasz az első kérdésre.
  • check_quality — a válasz a második kérdésre.

Az értékváltozó a mérőállást tartalmazza.

A feladat felülete hosszabb – 14 kódsor.

4. A pontosság növelése érdekében állítson be 5-ös átfedést, ami azt jelenti, hogy öt Toloker fog mindegyik képet egymástól függetlenül ellenőrizni. Ezután megnézi a válaszaikat, és a leggyakrabban előforduló választ tekinti helyesnek (ezt a minőség-ellenőrzési módszert „többségi szavazásnak” hívják. Erről egy kicsit bővebben). Ennek a feladatnak nincs nem automatikus elfogadása.

5. Tegye elérhetővé a feladatot a teljesítők legjobb 50%-a számára.

A nem automatikus elfogadás nélküli feladatoknál mindenki kap fizetést, függetlenül attól, hogy a feladatot megfelelően teljesítette-e. De azt akarod, hogy a Tolokerek jó munkát végezzenek. Hogyan éred el ezt?

Minőségellenőrzés

A Tolokának két fő eszköze van a jó minőség fenntartására:

  1. Képzés. A fő feladat elvégzése előtt felkérheti a Tolokereket, hogy vegyenek részt képzésben. Az edzőmedencében az előadók olyan feladatokat kapnak, amelyekre előre tudja a helyes válaszokat. Ha egy előadó helytelenül válaszol, akkor azt mondják neki, hogy ez hiba. Megmutatják nekik a helyes választ is. A képzés befejezése után láthatja azoknak a feladatoknak a százalékos arányát, amelyeket az egyes előadók sikeresen teljesítettek. Ennek alapján a fő feladatot csak a legmagasabb sikerarányú előadók számára teheti elérhetővé.
  2. Minőségellenőrzési szabályok. Néha olyan helyzetbe kerülünk, hogy az előadó remekül teljesíti az edzést, hozzáfér a feladathoz, de aztán azonnal elmegy focizni, és megkapja hároméves bátyját. a számítógéphez ülni és elvégezni helyettük a tényleges feladatokat. Szerencsére a Toloka számos eszközzel rendelkezik, amelyek segítségével nyomon követheti az előadók tevékenységét és ellenőrizheti a feladatok elvégzésének minőségét, például a többségi szavazás vagy az ellenőrzési feladatok.

Az edzőmedence felállítása egyszerű. Csak annyit kell tennie, hogy hozzáadja a feladatokat, beállítja azokat a Toloka felületén, és meg kell adnia azt a küszöböt, amely felett a főfeladathoz engedélyezni kell a teljesítőket.

Többségi szavazás

Öt független személynek adjuk a feladatot. Ha négy ember igennel válaszol, az ötödik pedig nemmel, az ötödik valószínűleg téved. Így láthatjuk, hogy egy toloker válaszai összhangban vannak-e a többiekével, és kitilthatjuk azokat az előadókat, akiknek a válaszai eltérnek.

Vezérlőfeladatok

Keverheti a dolgokat, és olyan feladatokat is beilleszthet a medencébe, amelyekre már tudja a helyes választ. Így a minőség-ellenőrzési feladatok pontosan ugyanúgy néznek ki, mint a normál feladatok. Az alapján, hogy egy személy helyesen végzi-e el az ellenőrző feladatokat, eldönthetjük, hogy a többi feladatot (amire nem tudja a választ) helyesen hajtja-e végre. Ha egy személy érvénytelen válaszokat ad az ellenőrzési feladatokban, akkor kitiltja, ha pedig érvényes válaszokat ad, akkor bónuszt ad neki.

Így néz ki az ellenőrzési feladat az előadó számára:

3. rész. A feladatok kombinálása

Most, hogy mindkét feladat készen van, össze kell kapcsolnia őket, hogy a második feladat az első után induljon el.

Megteheti kézzel a felületen, de van egy sokkal jobb lehetőség. Használhatja a Toloka API-t és egy Python-szkriptet.

Nincs más hátra, mint lefuttatni a kódot, és megkapja a várt eredményt: 871 vízmérőből álló adatkészletet! Valójában ez egészen elképesztő: egyszer konfigurálja a projektet, és egy teljesen automatizált adatgyűjtési és érvényesítési folyamatot kap. Sőt, az adatgyűjtés könnyen méretezhető – néhány kattintással növelheti az adatkészlet méretét.

Mennyibe kerül mindez?

Példámban 0,01 USD-t kínálunk az első feladatban beküldött minden egyes képért. De van egy bökkenő: ha 0,01 USD-t kínál az előadóinak, akkor valójában 0,018 USD-t fizet beküldésenként.

Íme, miért:

  • Toloka 20%-os, de legalább 0,005 dolláros jutalékot számít fel. A 0,01 dolláros feladat esetén a jutalék 50%.
  • 20% ÁFA.

Ön 0,01 dollárt fizet az előadóknak, ha ellenőriznek 10 vízmérőt. De ne feledje, hogy egy képet 5 különböző személy 5-ször ellenőrzi. Összességében a képenként elköltött összeg (0,01 x 5/10) x 1,2 x 1,5 = 0,009 USD.

Tegyük fel, hogy ezer beküldött képből 871-et fogadott el és 129-et utasított el. Összességében egy 871 képből álló adatkészlethez 0,018 USD x 871 + 0,009 USD x 1000 = 25 USD összeget kell költenie. Határozottan olcsóbb, mint reklámkampányt indítani a tévében!

Még tovább csökkentheti az árat. Íme néhány módszer:

  • Ajánlja fel az első feladatban szereplőknek, hogy egy helyett több fotót készítsenek, és emelje meg a befizetés összegét. Toloka jutaléka ekkor 20% lesz 50% helyett.
  • Használjon dinamikus átfedést a második feladatban. Ha 5 előadóból 4 ugyanazt a választ adta, akkor nem kell átadni a feladatot az 5. előadónak.
  • Dolgozzon együtt a Tolokával, mint külföldi szervezettel, hogy ne kelljen áfát fizetnie.

P.S.

Tudom, hogy ez a cikk úgy tűnhet, mintha Toloka szponzorálta volna, de biztosíthatom, hogy nem. Nem kaptam fizetést Tolokától, és nem hiszem, hogy valaha is fogok. Csak egy kitalált, de releváns és érdekes példával szerettem volna bemutatni, hogy ez a crowdsourcing platform hogyan teszi lehetővé, hogy gyorsan és olcsón hozzon létre adatkészletet bármilyen feladathoz, legyen szó cicaképfelismerésről vagy autonóm járművek kiképzéséről.