A Boston Airbnb adatvezérelt története

Bevezetés

A 2008-ban alapított Airbnb célja egy olyan világ létrehozása, ahol bárki bárhová tartozhat, egészséges, helyi, hiteles, sokszínű, befogadó és fenntartható utazást biztosítva. Az Airbnb egyedülállóan kihasználja a technológiát, hogy emberek millióinak gazdaságilag feljogosítsa a világot arra, hogy szabaddá tegye tereit, szenvedélyeit és tehetségét, és ezáltal vendéglátó vállalkozókká váljon.

A versenyképes ár előnyeivel az Airbnb agresszíven terjeszkedett. Érdemes tehát elemezni az Airbnb adatait.

Ehhez az elemzéshez a CRISP-DM folyamat és a gépi tanulás egy változatát fogom követni, hogy megválaszoljam az ehhez hasonló kérdéseket

A felhasználói megjegyzések hangulatpontszámának előrejelzése

Értékelje fel az értékelés pontszáma, a vélemények száma és az ár közötti kapcsolatot

Azonosítsa a legfontosabb attribútumokat, amelyeket a házigazdák hangsúlyoznak, és amelyek a bérlők számára szükségesek

A bérleti díj pénzbeli értékének előrejelzése a lista adatai alapján

Azonosítsa a bérleti árat befolyásoló kiemelkedő funkciókat

Merüljünk el ebbe!

Úgy döntöttem, hogy megvizsgálom az Airbnb-tulajdonokat Bostonban. Érdekes módon ezek az adatok nyilvánosan elérhetők az „Inside Airbnb”-n és a „kaggle” oldalon is. Ehhez a gyakorlathoz a kaggle adatait használjuk. Listákkal kapcsolatos információkat és a felhasználók megjegyzéseit tartalmazza a bostoni Airbnb-listákkal kapcsolatban.

A felhasználói megjegyzések hangulatpontszámának előrejelzése

A kérdés megválaszolásához az áttekintési adatkészletből származó megjegyzéseket használtam fel, hogy értékeljem a felhasználó megjegyzését pozitív vagy negatív hangulatban.

A „negatív”, „semleges”, „pozitív” és „összetett” megjegyzések hangulatának kiszámításához az NLTK Python könyvtárban található „Vader lexikon” hangulatintenzitás-elemzőt használtam a „negatív”, „semleges”, „pozitív” hozzárendeléshez. és „összetett” hangulatpontszám minden megjegyzéshez.

Először is, a vélemények túlnyomó része a pozitív vagy semleges polaritás felé hajlik.

A semleges és negatív megjegyzések többsége az angoltól eltérő nyelveken írt pozitív megjegyzés, és a modell egyszerűen rosszul osztályozta a pontszámokat.

Az angol nyelven írt megjegyzések elenyésző részét a modell rosszul minősíti. Egyetlen modell sem igazán pontos és elvárható.

Értékelje az értékelések pontszáma, a vélemények száma és az ár közötti összefüggést

A 40 és 400 dollár közötti árat tartalmazó listák kapják a legtöbb véleményt, valószínűleg azért, mert a vásárlók nagyobb részei számára elfogadható árfekvés. Az értékelések száma gyorsan csökken, ahogy az árak emelkedő trendben mozognak, ami azt jelzi, hogy egyre többen könyvelnek el 40 és 400 dollár közötti árakat. A 400 USD és 1000 USD közötti tartományban lévő árakon szintén kis mennyiségű megjegyzés található, jelezve, hogy nem az ár az egyetlen tényező a foglalásnál. A továbbiakban az árak és a vélemények száma fordított arányban áll az ésszerű ártartomány utáni mértékkel. Az értékelések száma csökken az árak ésszerű tartományon túli emelésével, amely egyenesen arányos a foglalások számával.

A 3D-s tervek magas értékelési pontszámot mutatnak, és a vélemények száma 40 és 400 dollár közötti ártartományban figyelhető meg.

A házigazdák által kiemelt és a bérlők számára kötelező legfontosabb tulajdonságok

A szófelhők mennyiségileg összegzik és megjelenítik a népszerű szavakat az előfordulás gyakorisága szerint. Egy szó mérete a felhőben megfelel a szövegben való előfordulási gyakoriságának.

A cím és a kép feltüntetése az első benyomást kelti a potenciális vendégben. Ezért nagyon fontos, hogy a lista címe felkeltse a vendég figyelmét.

Az olyan szavak, mint az apartman, hálószoba, szoba, társasház, stúdió, tágas, hátsó öböl, gyakori szavak a címekben. A szavaknak van értelme, mivel az Airbnb elsődleges célja nem a luxuslakosztályok biztosítása, hanem csak egy megfelelő tartózkodási hely. A házigazdák megértik ezeket a célokat, és összefoglalóikat készítik, kiemelve a helyet és a kényelmi lehetőségeket, hogy sok utazót vonzanak.

A vélemények és megjegyzések befolyásoló szerepet játszanak a vendégek figyelmének felkeltésében. Az olyan megjegyzések, mint a „nagyon ajánlott”, pozitív hangulatot kölcsönöznek az adatlapnak, és vonzzák a vendégeket, hogy megtekintsék az adatlapot. A vendégek megjegyzéseiben a népszerű szavak közé tartozik a nagyszerű elhelyezkedés, a nagyszerű házigazda, a sétatávolság és az erősen ajánlott.

Internet, légkondicionálás, vezeték nélküli internet, füstérzékelő a házigazdák által említett kiemelkedő szolgáltatások. A további kényelmes felszerelések, például a mosógép, a szárítógép és a szén-monoxid-érzékelő szintén sokat idéztek az ártartomány növekedésével.

Jósolja meg a bérleti díj pénzbeli értékét a listán szereplő információk alapján

Elfogadtam egy „Lightgbm” nevű, adattudományi versenyeken használt, népszerű gépi tanulási könyvtárat, hogy megértsem a bostoni Airbnb bérleti díjak árait.

A kérdés megválaszolásához az adathalmaz vizsgálatával kezdtem. Feltáró adatelemzést hajtott végre az adatkészleten, hogy részletesen megértse az adatokat, valamint szükség szerint az alkalmazott adattisztítást és funkciótervezést.

A rácskeresési technikával és a Lightgbm Modell segítségével végrehajtott hiperparaméter-hangolásnak sikerült elérnie a 0,01072-es átlagos abszolút hibát és a 0,019-es gyökérnégyzetes hibát, ami az előrejelzési képességek szempontjából kiváló.

További részletekért keresse fel a Github webhelyet

Azonosítsa a bérleti árat befolyásoló kiemelkedő funkciókat

A fa alapú modellek másik előnye, hogy értékelni tudjuk a funkciók fontosságát.

Nem meglepő, hogy a helyfüggő funkciók, például az irányítószám nagyon fontosnak bizonyulnak, mivel a bérleti díj nagymértékben függ az ingatlan helyétől. Az egyéb szolgáltatások, mint például az availability_365, reviews, cleaning_fee, host_acceptance_rate, minimum_nights, az árral leginkább korrelált szolgáltatások közé tartoznak.

Újrafutóz

Ebben a projektben a Boston Airbnb adatkészleteibe mélyedtünk, és érdekes mintákat találtunk:

  • A Vader NLTK könyvtárat használtuk a felhasználó véleménypontszámának előrejelzésére megjegyzéseik alapján.
  • Értékeltük az értékelési pontszámok értékelése, a vélemények száma és az ár közötti kapcsolatot
  • Azonosítottuk a legfontosabb tulajdonságokat, amelyeket a házigazdák hangsúlyoznak és a bérlőktől elvárnak
  • A Lightgbm ML könyvtárat használtuk a bérleti díj előrejelzésére a listázási információk alapján.
  • Azt találtuk, hogy a legfontosabb jellemzők a bérleti díj előrejelzésében.

Ezzel elemzésünk végére értünk! Szeleteltünk, felkockáztunk, pontszámokat rendeltünk hozzá, azonosítottuk a népszerű funkciókat és kényelmi lehetőségeket az adatokból, és elmondhatjuk, hogy most már szélesebb körben megértjük az árat jelentősen befolyásoló változókat. Köszönjük, hogy elolvastad, és ha tetszett, tapsolj bátran.

Kapcsolatba lépni a Szerzővel

Csatlakozás a LinkedIn-en

További részletekért keresse fel a Github webhelyet