Gépi tanulás használata az optimális tőzsdei árak meghatározásához

Adattudományi programom, a Metis részeként arra törekedtem, hogy jobb árképzési rendszert alakítsak ki az Airbnb-házigazdák számára, hogy optimalizáljam a listaárukat. Ebben a cikkben remélem, hogy elmagyarázom azokat az okokat, amelyek motiváltak ennek a modellnek a megtervezésére, és azt a megközelítést, amelyet az optimális regressziós modell képzéséhez alkalmaztam.

Háttér

Ha Ön házigazda, valószínűleg már hallott az AirBnB intelligens árazásáról, egy olyan árképzési eszközről, amely segít a házigazdáknak az árak automatikus szabályozásában a kereslet és számos egyéb tényező függvényében. De bár az intelligens árazás képes figyelembe venni olyan tényezőket, mint például a foglalási előzmények, célja a kihasználtság maximalizálása, és alacsonyabb árakat javasolhat, mint amennyit a házigazdák szeretnék.

Ezért szerettem volna egy olyan eszközt megtervezni, amely az aktív listákra oktatott, hogy optimális árakat javasoljon, miközben lehetővé teszi a házigazdák számára, hogy összehasonlítsák az ajánlott árat a hasonló listák áraival.

Maga az árképzés nagyon személyes, mivel egyes házigazdák megfizethető és pénztárcabarát élményt kívánnak kínálni, míg mások extravagánsabbak lehetnek, és szuper luxus élményt kívánnak nyújtani. Ahelyett, hogy pusztán árat javasoltam volna a házigazdának, azt szerettem volna, ha a házigazdák össze tudják hasonlítani az ajánlott árat a közvetlen versenytársakkal, hogy jobban segítsék őket a jegyzési árra vonatkozó döntés meghozatalában.

Célok

  • Azonosítsa a használható funkciókat, amelyeket a gazdagépek használhatnak a piacképesség javítására
  • Fedezze fel az aktív listák földrajzi helyeit
  • Hozzon létre egy értelmezhető regressziós modellt, amely lehetővé teszi a gazdagépek számára, hogy megértsék a javasolt áraik mögött meghúzódó tényezőket

Saját megközelítés

  1. Gyűjtsön adatokat az InsideAirBnB-től
  2. Az adatok előfeldolgozása és az optimális listák meghatározása
  3. Feature Engineering / Feltáró adatelemzés
  4. Regressziós modellezés és értékelés
  5. A NearestNeighbors segítségével azonosítson hasonló bejegyzéseket

Az adat

Sajnos az AirBnB-nek nincsenek nyitott adatkészletei, de az InsideAirBnB egy független entitás, amely a világ nagyvárosaiban nyilvánosan elérhető információkat gyűjt össze az AirBnB-adatokról. A projekt hatóköreként úgy döntöttem, hogy a Tokióban (Japánban) lévő listákra összpontosítok.

Az adatoknak van néhány korlátozása, mivel csak a 2019 szeptemberében összegyűjtött listákat használtam. Továbbá, bár a szezonalitást idősorokkal akartam modellezni, az InsideAirBnB nem rendelkezett egy évre vonatkozó Tokiói adatokkal.

Adatfeldolgozás

Ne feledje, hogy nincs sok értelme az árak modellezésének az összes kikapart listán. Sok ilyen adatlap ára alacsony vagy inaktív lehet, és egy modell betanítása nem feltétlenül javasolja az optimális árakat. Ezért az adattisztítási folyamat első lépése volt a „jó” lista meghatározása és a nem optimális listák kiszűrése. Az egyik legfontosabb nyomon követendő jellemző a foglaltság volt, amely nem volt az adatkészletben.

A San Francisco-i modell

A San Francisco-i modell az InsideAirBnB kihasználtsági modellje, amelynek célja annak becslése, hogy milyen gyakran adnak bérbe egy AirBnB-adatlapot. Röviden a következőket teszi:

  • Becsülje meg a foglalások számát 50%-os felülvizsgálati arányt feltételezve
  • Határozzon meg átlagos tartózkodási időt városonként (a legtöbb városban 3 nap)
  • A kihasználtság meghatározásához szorozza meg a becsült foglalásokat és az átlagos tartózkodási időt

Erről a kihasználtsági modellről bővebben itt olvashat.

Tehát hogyan azonosíthatjuk az aktív, piacképes listákat?

  • A listát az elmúlt 6 hónapban felülvizsgálták
  • Az adatlapon több mint 5 értékelés érkezett az elmúlt 12 hónapban
  • A lefoglalt napok becsült száma havonta több mint 7 nap

Áreloszlás

Ha megnézzük a célváltozónk, az ár eloszlását, kiderül, hogy a listák 76,69%-aára 150 USD alatt van. Ez később szerepet játszik, mivel azt tapasztaltam, hogy a 150 dolláros küszöb használata és két modell létrehozása, az egyik a küszöb feletti listákhoz, a másik pedig a küszöbérték alatti listákhoz, javította a modell teljesítményét.

Kezelési szolgáltatások

A lista által kínált szolgáltatások száma határozottan szerepet játszik az árban. Az InsideAirBnB adatkészlete rendelkezik egy kényelmi funkcióval, amely felsorolja az összes olyan szolgáltatást, amelyet egy lista kínál, de az ilyen formátumú szolgáltatások nem voltak hasznosak a regressziós modellezéshez.

Így elemeztem az egyes listák kényelmét, és létrehoztam egy új szolgáltatásoszlopot minden lehetséges kényelmi szolgáltatáshoz, logikai értékkel annak jelzésére, hogy egy lista kínál-e ezt a szolgáltatást vagy sem. Ennek egyik problémája, hogy nagymértékben megnöveli az adathalmaz dimenzióját, de később megszabadulhatunk a kevésbé informatív kényelemektől, ha p-értékeket nézünk és lasszó-regularizálást alkalmazunk.

Népszerű turisztikai látványosságok

Egy másik fontos tényező a turisztikai látványosságok közelsége. Míg Tokióban kiváló tömegközlekedési rendszer működik, azt szerettem volna megvizsgálni, hogy bizonyos turisztikai látványosságok távolsága befolyásolja-e a listák árát. Az általam választott 5 turisztikai látványosság a következő:

  1. Tokiói császári palota
  2. Ginza bevásárlónegyed
  3. Sensoji templom
  4. Ueno Park
  5. Tokyo Skytree

Valójában az adathalmazban az előfeldolgozás után megmaradt legideálisabb listák helyeinek ábrázolása azt mutatta, hogy ezeknek a listáknak a többsége viszonylag közel van ezekhez a turisztikai helyszínekhez.

Modellezés és értékelés

Lineáris regresszió

A modellezési fázis során sok irreleváns tulajdonság kimaradt az OLS magas p-értékei vagy a multikollinearitás miatt. Annak érdekében, hogy a házigazdák könnyen megérthessék az ár-előrejelzést befolyásoló tényezőket, a lineáris regressziót választottam a könnyű értelmezhetőség érdekében. Az átlagos abszolút hiba (MAE) körülbelül 18 dollárra kerekedik. Ridge és lasszó regressziót is alkalmaztam a túlillesztés megelőzésére, de egyik módszer sem volt észrevehető hatással a végső MAE pontszámra.

Végül nézzük meg azokat a használható funkciókat, amelyek hatással voltak a modell előrejelzésére. Amint az alább látható, a szuperhost-házigazdává válás és az edények/ezüsteszközök biztosítása az ügyfelek számára nagymértékben javítja a hirdetés eladhatóságát, valamint növeli az árakat.

XGBoost

A lineáris regresszió mellett az XGBoost-ot használtam, mivel ez képes nemlineárisabb illeszkedést találni az adatokhoz. A várakozásoknak megfelelően az XGBoost a lineáris regressziót felülmúlta, átlagos abszolút hibája körülbelül 14,23 USD. De bár az XGBoost felülmúlja a lineáris regressziót, kevésbé értelmezhető. Használhatók olyan algoritmusok, mint a SHAP, hogy az XGBoost modell értelmezhetőségét növeljék, de a gazdagép szemszögéből még mindig könnyebb lenne megérteni a lineáris regressziós súlyokat, mint megérteni egy SHAP diagramot.

Hasonló hirdetések keresése

Az egyik eredeti célom ebben a projektben az volt, hogy a felhasználók számára hasonló listákat adjak, hogy összehasonlíthassák az olyan dolgokat, mint a szolgáltatások, árak stb. A projekt ezen részében a NearestNeighbors algoritmust használtam, hogy egyszerűen megtaláljam a legközelebbi listákat a funkciótérben. Mivel az eredeti adatkészlet rendelkezik egy lista url funkcióval, az adatkészlet indexelése a legközelebbi listákhoz egyúttal megadja a listázási URL-t is a gazdagép számára, amellyel az adott listák AirBnB oldalára léphetnek.

Következtetés

Összességében ez a projekt szórakoztató gyakorlat volt a tokiói népszerű AirBnB-oldalak jellemzőinek feltárásában. Meg kell azonban jegyezni, hogy határozottan más tényezőket is figyelembe kell venni, mint például a szezonalitás, a kereslet és a hét napja. Noha az általam használt adatkészletben nem volt nagyszerű módja ezeknek a tényezőknek a beépítésére, a projekt fejlesztésének következő lépései az idősor-modell használata lenne a szezonalitás kezelésére és a kereslet modellezésére.

Köszönjük, hogy elolvasta!

A projekt tárháza "itt" található.