Airbnb árképzési ajánlás

Gépi tanulás használata az optimális tőzsdei árak meghatározásához

Adattudományi programom, a Metis részeként arra törekedtem, hogy jobb árképzési rendszert alakítsak ki az Airbnb-házigazdák számára, hogy optimalizáljam a listaárukat. Ebben a cikkben remélem, hogy elmagyarázom azokat az okokat, amelyek motiváltak ennek a modellnek a megtervezésére, és azt a megközelítést, amelyet az optimális regressziós modell képzéséhez alkalmaztam.

Háttér

Ha Ön házigazda, valószínűleg már hallott az AirBnB intelligens árazásáról, egy olyan árképzési eszközről, amely segít a házigazdáknak az árak automatikus szabályozásában a kereslet és számos egyéb tényező függvényében. De bár az intelligens árazás képes figyelembe venni olyan tényezőket, mint például a foglalási előzmények, célja a kihasználtság maximalizálása, és alacsonyabb árakat javasolhat, mint amennyit a házigazdák szeretnék.

Ezért szerettem volna egy olyan eszközt megtervezni, amely az aktív listákra oktatott, hogy optimális árakat javasoljon, miközben lehetővé teszi a házigazdák számára, hogy összehasonlítsák az ajánlott árat a hasonló listák áraival.

Maga az árképzés nagyon személyes, mivel egyes házigazdák megfizethető és pénztárcabarát élményt kívánnak kínálni, míg mások extravagánsabbak lehetnek, és szuper luxus élményt kívánnak nyújtani. Ahelyett, hogy pusztán árat javasoltam volna a házigazdának, azt szerettem volna, ha a házigazdák össze tudják hasonlítani az ajánlott árat a közvetlen versenytársakkal, hogy jobban segítsék őket a jegyzési árra vonatkozó döntés meghozatalában.

Célok

Azonosítsa a használható funkciókat, amelyeket a gazdagépek használhatnak a piacképesség javítására
Fedezze fel az aktív listák földrajzi helyeit
Hozzon létre egy értelmezhető regressziós modellt, amely lehetővé teszi a gazdagépek számára, hogy megértsék a javasolt áraik mögött meghúzódó tényezőket

Saját megközelítés

Gyűjtsön adatokat az InsideAirBnB-től
Az adatok előfeldolgozása és az optimális listák meghatározása
Feature Engineering / Feltáró adatelemzés
Regressziós modellezés és értékelés
A NearestNeighbors segítségével azonosítson hasonló bejegyzéseket

Az adat

Sajnos az AirBnB-nek nincsenek nyitott adatkészletei, de az InsideAirBnB egy független entitás, amely a világ nagyvárosaiban nyilvánosan elérhető információkat gyűjt össze az AirBnB-adatokról. A projekt hatóköreként úgy döntöttem, hogy a Tokióban (Japánban) lévő listákra összpontosítok.

Az adatoknak van néhány korlátozása, mivel csak a 2019 szeptemberében összegyűjtött listákat használtam. Továbbá, bár a szezonalitást idősorokkal akartam modellezni, az InsideAirBnB nem rendelkezett egy évre vonatkozó Tokiói adatokkal.

Adatfeldolgozás

Ne feledje, hogy nincs sok értelme az árak modellezésének az összes kikapart listán. Sok ilyen adatlap ára alacsony vagy inaktív lehet, és egy modell betanítása nem feltétlenül javasolja az optimális árakat. Ezért az adattisztítási folyamat első lépése volt a „jó” lista meghatározása és a nem optimális listák kiszűrése. Az egyik legfontosabb nyomon követendő jellemző a foglaltság volt, amely nem volt az adatkészletben.

A San Francisco-i modell

A San Francisco-i modell az InsideAirBnB kihasználtsági modellje, amelynek célja annak becslése, hogy milyen gyakran adnak bérbe egy AirBnB-adatlapot. Röviden a következőket teszi:

Becsülje meg a foglalások számát 50%-os felülvizsgálati arányt feltételezve
Határozzon meg átlagos tartózkodási időt városonként (a legtöbb városban 3 nap)
A kihasználtság meghatározásához szorozza meg a becsült foglalásokat és az átlagos tartózkodási időt

Erről a kihasználtsági modellről bővebben itt olvashat.

Tehát hogyan azonosíthatjuk az aktív, piacképes listákat?

A listát az elmúlt 6 hónapban felülvizsgálták
Az adatlapon több mint 5 értékelés érkezett az elmúlt 12 hónapban
A lefoglalt napok becsült száma havonta több mint 7 nap

Áreloszlás

Ha megnézzük a célváltozónk, az ár eloszlását, kiderül, hogy a listák 76,69%-aára 150 USD alatt van. Ez később szerepet játszik, mivel azt tapasztaltam, hogy a 150 dolláros küszöb használata és két modell létrehozása, az egyik a küszöb feletti listákhoz, a másik pedig a küszöbérték alatti listákhoz, javította a modell teljesítményét.

Kezelési szolgáltatások

A lista által kínált szolgáltatások száma határozottan szerepet játszik az árban. Az InsideAirBnB adatkészlete rendelkezik egy kényelmi funkcióval, amely felsorolja az összes olyan szolgáltatást, amelyet egy lista kínál, de az ilyen formátumú szolgáltatások nem voltak hasznosak a regressziós modellezéshez.

Így elemeztem az egyes listák kényelmét, és létrehoztam egy új szolgáltatásoszlopot minden lehetséges kényelmi szolgáltatáshoz, logikai értékkel annak jelzésére, hogy egy lista kínál-e ezt a szolgáltatást vagy sem. Ennek egyik problémája, hogy nagymértékben megnöveli az adathalmaz dimenzióját, de később megszabadulhatunk a kevésbé informatív kényelemektől, ha p-értékeket nézünk és lasszó-regularizálást alkalmazunk.

Népszerű turisztikai látványosságok

Egy másik fontos tényező a turisztikai látványosságok közelsége. Míg Tokióban kiváló tömegközlekedési rendszer működik, azt szerettem volna megvizsgálni, hogy bizonyos turisztikai látványosságok távolsága befolyásolja-e a listák árát. Az általam választott 5 turisztikai látványosság a következő:

Tokiói császári palota
Ginza bevásárlónegyed
Sensoji templom
Ueno Park
Tokyo Skytree

Valójában az adathalmazban az előfeldolgozás után megmaradt legideálisabb listák helyeinek ábrázolása azt mutatta, hogy ezeknek a listáknak a többsége viszonylag közel van ezekhez a turisztikai helyszínekhez.

Modellezés és értékelés

Lineáris regresszió

A modellezési fázis során sok irreleváns tulajdonság kimaradt az OLS magas p-értékei vagy a multikollinearitás miatt. Annak érdekében, hogy a házigazdák könnyen megérthessék az ár-előrejelzést befolyásoló tényezőket, a lineáris regressziót választottam a könnyű értelmezhetőség érdekében. Az átlagos abszolút hiba (MAE) körülbelül 18 dollárra kerekedik. Ridge és lasszó regressziót is alkalmaztam a túlillesztés megelőzésére, de egyik módszer sem volt észrevehető hatással a végső MAE pontszámra.

Végül nézzük meg azokat a használható funkciókat, amelyek hatással voltak a modell előrejelzésére. Amint az alább látható, a szuperhost-házigazdává válás és az edények/ezüsteszközök biztosítása az ügyfelek számára nagymértékben javítja a hirdetés eladhatóságát, valamint növeli az árakat.

XGBoost

A lineáris regresszió mellett az XGBoost-ot használtam, mivel ez képes nemlineárisabb illeszkedést találni az adatokhoz. A várakozásoknak megfelelően az XGBoost a lineáris regressziót felülmúlta, átlagos abszolút hibája körülbelül 14,23 USD. De bár az XGBoost felülmúlja a lineáris regressziót, kevésbé értelmezhető. Használhatók olyan algoritmusok, mint a SHAP, hogy az XGBoost modell értelmezhetőségét növeljék, de a gazdagép szemszögéből még mindig könnyebb lenne megérteni a lineáris regressziós súlyokat, mint megérteni egy SHAP diagramot.

Hasonló hirdetések keresése

Az egyik eredeti célom ebben a projektben az volt, hogy a felhasználók számára hasonló listákat adjak, hogy összehasonlíthassák az olyan dolgokat, mint a szolgáltatások, árak stb. A projekt ezen részében a NearestNeighbors algoritmust használtam, hogy egyszerűen megtaláljam a legközelebbi listákat a funkciótérben. Mivel az eredeti adatkészlet rendelkezik egy lista url funkcióval, az adatkészlet indexelése a legközelebbi listákhoz egyúttal megadja a listázási URL-t is a gazdagép számára, amellyel az adott listák AirBnB oldalára léphetnek.

Következtetés

Összességében ez a projekt szórakoztató gyakorlat volt a tokiói népszerű AirBnB-oldalak jellemzőinek feltárásában. Meg kell azonban jegyezni, hogy határozottan más tényezőket is figyelembe kell venni, mint például a szezonalitás, a kereslet és a hét napja. Noha az általam használt adatkészletben nem volt nagyszerű módja ezeknek a tényezőknek a beépítésére, a projekt fejlesztésének következő lépései az idősor-modell használata lenne a szezonalitás kezelésére és a kereslet modellezésére.

Köszönjük, hogy elolvasta!

A projekt tárháza "itt" található.

hasonló anyagok:

Új anyagok

A rádiógomb ellenőrzött eseményének használata a jQueryben

Ebben a cikkben látni fogjuk, hogyan kell dolgozni a jquery választógombbal ellenőrzött eseményeivel. A választógombok HTML gombok, amelyek segítenek kiválasztani egyetlen értéket egy csoportból...

Körkörös függőségek megoldása terraformban adatforrásokkal – lépésről lépésre

Mi az a körkörös függőségek Dolgozzunk egy egyszerű eseten, amikor az SQS-sor és az S3-vödör közötti körkörös függőség problémája van egy egymástól függő címkeérték miatt. provider..

Miért érdemes elkezdeni a kódolást 2023-ban?

01100011 01101111 01100100 01100101 — beep boop beep boop Világunk folyamatosan fejlődik a technológia körül, és naponta fejlesztenek új technológiákat a valós problémák megoldására. Amint..

🎙 Random Noise #2 – Örökbefogadás és hit

az analitika íratlan világának gondozása Szeretné, hogy ezek a frissítések a postaládájába kerüljenek? Iratkozzon fel itt . "Ha önvezető autókat gyártanak, akkor mi miért ne..

A legrosszabb politika és prediktív modellek májátültetésre jelöltek számára az Egyesült Államokban

A máj (vagy óangolul lifer) az emberi test legnehezebb belső szervére utal, amely csendesen működik a nap 24 órájában. Mit csinál a máj? 500 feladatot hajt végre a szervezet egészségének..

5 webhely, amely 2022-ben fejleszti front-end fejlesztői készségeit

Frontendmentor.io A tényleges projektek létrehozásával a Frontendmentor.io segítséget nyújt a front-end kódolási képességeinek fejlesztésében. A kódolást azután kezdheti meg, hogy..

Mikor kell használni a Type-t az interfészhez képest a TypeScriptben?

A TypeScript a JavaScript gépelt szuperkészlete, amely statikus gépelést ad a nyelvhez. Ez megkönnyíti a robusztus és karbantartható kód írását azáltal, hogy a hibákat a fordítási időben..

Címkék

Machine Learning JavaScript Artificial Intelligence Data Science Python Software Development Web Development Coding Deep Learning AI React Nodejs Front End Development Software Engineering Javascript Tips NLP Computer Science HTML Neural Networks Algorithms Tech Development Typescript Python Programming CSS ChatGPT Javascript Development Statistics Data Golang Code Java Science Software DevOps Programming Languages Data Structures Open Source