Анализ объявлений Airbnb в Нью-Йорке за 2019 год
Авторы:
Кушен Вадим Витальевич
Каландаров Жуманазар Тимурович
Ермошко Даниил
Аннотация
Для нашего последнего проекта мы решили работать с набором данных Airbnb по Нью-Йорку за 2019 год, который предоставляет обширные данные о ценах, местоположении и листингах аренды Airbnb в популярных районах Нью-Йорка. Наш набор данных позволяет нам понять активность листинга по хостам, географической доступности и истории цен, которые мы можем легко использовать в нашем анализе.
В этом последнем проекте нашей главной целью было понять, как эти различные показатели объявлений влияют на цены и популярность аренды Airbnb и как они различаются в разных районах Нью-Йорка. В частности, мы стремились ответить на вопрос, как цена влияет на такие показатели листинга, как район и тип номера. Мы также стремились понять, как на доступность этих объявлений влияют одни и те же показатели (местоположение и тип номера), а также на более абстрактном уровне, какие хосты наиболее загружены и почему.
Анализ
Мы начнем с пары исследовательских графиков наших ключевых переменных. Мы рассмотрим одномерное распределение наших переменных: цены, типа номера и группы соседства. Это позволит нам понять наши отдельные переменные для наших более поздних, более сложных моделей.
Приведенная выше визуализация показывает, что наша переменная цены сильно смещена влево: подавляющее большинство Airbnbs имеют цену аренды менее 1000 долларов США и пару выбросов с ценой выше 1000 долларов США. Далее мы видим, что наиболее распространенными объявлениями являются отдельные комнаты или целые квартиры, что имеет контекстуальный смысл, поскольку Airbnb позволяет владельцам домов сдавать свои дома в аренду посетителям/туристам, поэтому предложение общей комнаты может быть непривлекательно для большинства посетителей. Наконец, мы видим, что Бруклин и Манхэттен являются наиболее распространенными районами Нью-Йорка, что опять же имеет контекстуальный смысл, поскольку это наиболее посещаемые районы Нью-Йорка, поэтому эти районы являются наиболее популярными для аренды.
Теперь нас интересуют именно группы соседства, а точнее, какие особенности каждой группы соседства привлекают потенциального клиента. Это может быть связано с тем, как варьируется цена для каждой соседской группы. Лучше всего это можно продемонстрировать, проанализировав названия объявлений на Airbnb, которые часто имеют описательные функции. Ниже приведены облака слов, которые показывают наиболее распространенные термины для каждой группы районов.
Облака слов с именами в списках по группам районов
Мы видим, что эти названия объявлений включают описательные прилагательные, многообещающие характеристики и другую информацию, что делает их особенно полезными для определения того, что гости ценят в каждой из групп соседства. В частности, следует отметить тот факт, что во многих группах термины «Манхэттен» и «Нью-Йорк» являются частыми, подразумевая, что для многих гостей желательно находиться рядом с Манхэттеном и главным городом. Кроме того, в каждой группе есть уникальные слова, такие как «Янки» и «Стадион» для Бронкса, аэропорт для Квинса, парк для Манхэттена, сад для Бруклина и пляж для Статен-Айленда. На Манхэттене в качестве популярных прилагательных для объявлений используются слова «роскошь» и «солнечный», а в Стейтен-Айленде — «частный» и «уютный» в качестве более ярких слов.
Еще одна ключевая переменная, которую следует изучить, — это количество отзывов о объявлении, что может помочь определить популярность и спрос на эту недвижимость. Ниже представлена гистограмма, отображающая частоту количества отзывов по группам районов в зависимости от типа номера. Это может рассказать нам больше о популярности и спросе на объявления в разных группах районов и на разные типы номеров.
Частота количества отзывов по группам соседей о типе номера
Основываясь на этой визуализации, мы ясно видим, что большинство объявлений имеют от 0 до 100 отзывов во всех 5 группах соседей. Манхэттен и Бруклин, похоже, имеют наибольшее количество отзывов, что и ожидалось, поскольку они являются крупнейшими группами районов. Меньше всего отзывов имеют Статен-Айленд и Бронкс. Наконец, можно видеть, что целые дома и квартиры имеют наибольшее количество отзывов на Манхэттене, но частные комнаты имеют наибольшее количество отзывов для всех других групп района. Из этого можно сделать вывод, что Манхэттен и Бруклин являются наиболее популярными районами, а отдельные комнаты, а также целые дома и квартиры являются наиболее востребованными типами номеров.
Переходя к вопросам нашего исследования, мы хотим понять, как на ценообразование влияют различные показатели листинга, такие как тип номера и район (которые мы изучали ранее). Итак, в этой визуализации мы рассмотрели условную гистограмму цен по типам номеров и, более того, фасетировали наши гистограммы, чтобы можно было исследовать каждый район отдельно.
Цена в зависимости от типа номера и района
На приведенном выше графике мы исследовали условное распределение цен с учетом типа номера и района, но рассматривали только Airbnb с более низкими ценами (устранив некоторые выбросы, которые могут оказаться бесполезными для нашей визуализации). Мы видим, что целые дома, как правило, стоят дороже в сутки, чем отдельные комнаты, и эта тенденция наблюдается во всех исследованных нами районах. Кроме того, как и ранее, мы видим, что общие комнаты встречаются очень редко, но когда мы видим списки общих комнат, цена часто самая низкая, поскольку она находится в диапазоне <100 долларов США. Мы видим, что для каждого района наиболее распространенные предложения находятся в диапазоне от 100 до 300 долларов за ночь, при этом простая отдельная комната стоит немного дешевле (в диапазоне от 0 до 200 долларов), а целые дома немного дороже и роскошнее (в районе диапазон от 100 до 1000 долларов).
Далее мы хотели понять, как географическое положение влияет на цену этих объектов Airbnb. Для этого мы создали карту, на которой каждый список представляет точку на нашей карте Нью-Йорка.
Дорогие объявления по районам
На этом графике мы специально рассмотрели более дорогие объявления (>= 1000 долларов США за ночь). Мы видим, что местоположение действительно диктует цены на эти объекты, поскольку большинство очень дорогих объектов расположены на Манхэттене и Бруклине. Но даже дальше мы видим, что географически эти списки тяготеют к основным и наиболее популярным районам Нью-Йорка. Мы понимаем это исходя из контекста, что самые дорогие объявления — это те, которые расположены в районе с наибольшим количеством посетителей и в наиболее привлекательном месте.
Мы хотим изучить взаимосвязь количества объявлений Airbnb, имеющихся у владельца, с ценой за ночь размещения. Чтобы изучить взаимосвязь, мы создали диаграмму рассеяния наших двух переменных, которая раскрашена в зависимости от группы окрестностей.
Связь между количеством объявлений и ценой листинга
Изучая набор данных, мы обнаружили владельцев Airbnb, у которых было более 100 объявлений. Поэтому мы посчитали, что количество объявлений, имеющихся у владельца, может повлиять на цену объявления. Из диаграммы рассеяния мы видим, что имеются явные отклонения в цене там, где количество принадлежащих объявлений невелико (< 10). Более того, мы видим больший разброс цен на листинг по мере уменьшения количества принадлежащих ему листингов. Поскольку количество принадлежащих нам объявлений увеличивается, мы видим, что цена объявлений не превышает 1250 долларов. Владелец Airbnb, у которого есть несколько объектов недвижимости, скорее всего, владеет несколькими квартирами меньшего размера, а не множеством больших и дорогих квартир. Таким образом, отрицательная связь между количеством принадлежащих листингов и ценой листинга, которую мы видим на диаграмме рассеяния, также согласуется с контекстом данных.
Заключение
В ходе исследования набора данных Airbnb NYC мы обнаружили, что район, тип комнаты и количество принадлежащих объектов недвижимости связаны с ценой объекта. Мы также увидели, что количество отзывов о объявлении показывает нам спрос в различных группах районов и типах номеров, что может подразумевать косвенную связь с ценой. Кроме того, анализ названий различных групп кварталов выявил разные желательные характеристики для каждой группы кварталов, что также может повлиять на цену. Анализируя районы, мы обнаружили, что жилье на Airbnb в Манхэттене и Бруклине, как правило, дороже, чем жилье в других районах. Более того, объявления, занимающие весь дом, обычно стоят дороже, чем номера других типов (отдельная комната или общая комната). Интересно, что мы также обнаружили отрицательную связь между количеством объявлений, принадлежащих владельцу, и ценой. Мы обнаружили, что чем больше объявлений у владельца, тем дешевле цена объявления.
СПИСОК ЛИТЕРАТУРЫ
Статья // https://medium.com/almabetter/exploratory-data-analysis-on-nyc-airbnb-2019-dataset-fe908c2accaa
Статья // https://github.com/otavio-s-s/data_science/blob/master/Analysing%20New%20York%20City%20Airbnb%20Data.ipynb
Статья // https://adamhoward56.github.io/Airbnb/
Статья // https://nycdatascience.com/blog/r/data-analysis-on-airbnb-nyc-market/