Сим-сим, откройся! — Как мы запустили проект «Открытые данные»
Всем привет! Меня зовут Сергей Фолимонов, в ДомКлик я отвечаю за direct marketing и коммуникации с клиентами. С недавних пор я выступаю еще в роли PO проекта «Открытые данные», и хочу рассказать об истории создания этого продукта, сделав акцент на проблемах, с которыми нам пришлось столкнуться, на ошибках, которые были нами допущены, и на итоговом результате и вариантах его использования.
Data-driven культура внутри компании — это, конечно же, хорошо, но в мире, где всё большую популярность набирают концепции открытого контента, open source-решений и открытых данных в целом, информацией хочется не только пользоваться, но и делиться. Именно это подтолкнуло ДомКлик на идею создания «Открытых данных».
Стартуем!
Я присоединился к разработке продукта на ранней стадии. Ну очень ранней. Скажем так, у нас было два пакетика тра 2 макета от UX-дизайнера на фоне карты РФ и обозначенный руководством срок в 2 недели до выкатки MVP в прод. В течение пары часов из сотрудников совершенно разных команд была собрана группа энтузиастов (разработчики, аналитик, дизайнер, дата-инженер), готовых выложиться на все 100% ради запуска продукта.
Следующие две недели мы на настоящем драйве разрабатывали проект с нуля, стараясь избегать любых сложных процессов, вставляя, где можно, костыли, лишь бы не затянуть с MVP и проверить: «А что вообще у нас может получиться?».
Результат первого спринта: все обещанные данные в разрезе дней/недель/месяцев доступны как на карте (статистика по регионам и крупным городам), так и на графиках (рейтинг городов, динамика). Но, как вы можете догадаться, от той версии сейчас остались лишь скриншоты:
Данных здесь было очень много, функционально сайт работал отлично, однако UX не был продуман вовсе. И как итог: глаза разбегаются, непонятен клиентский путь и что вообще можно вынести из этого проекта. Забегая вперед, скажу, что ничего из первой версии проекта не было переиспользовано в дальнейшей разработке.
Казалось бы, две недели коту под хвост… Однако именно взгляд на готовый быстрый концепт и понимание его недостатков позволили сформировать окончательные требования и пожелания к сервису. Если не вдаваться в подробности, решили на первом этапе представлять данные в табличной форме, на следующем шаге предоставить пользователям графики с динамикой, а уже дальше прорабатывать визуализацию на карте и использование предиктивных моделей для построения прогнозов.
Можно спорить о том, были ли первые две недели ошибкой, можно ли было избежать лишней траты времени и сразу сделать тот продукт, который можно было бы показывать клиентам. Да, наверное, мы могли бы посвятить первые несколько дней проработке UX, провести несколько интервью и опросов, выбить на разработку не 2 недели, а 2 месяца. Но мораль моей истории в том, что не стоит бояться делать быстрые костыльные MVP. Работа в ускоренном темпе и с высоким уровнем энтузиазма сильно сплотила нас для создания по-настоящему хорошего продукта И да, не бойтесь выкидывать в мусорку первые наброски: это гораздо лучше, чем превращать в монолит сырую версию.
Жизнь после смерти MVP
В ходе дальнейшей работы над проектом мы столкнулись с рядом неординарных проблем. Очень постараюсь рассказать о них так, чтобы не перегружать читателей подробностями ипотечного бизнеса.
Учимся называть вещи своими именами
На этапе сбора данных по различным метрикам я столкнулся с тем, что разные люди в нашей компании могут называть разные вещи одинаково, а одни и те же вещи — по-разному. К примеру, два разных человека передавали мне данные по количеству сделок в разрезе регионов, и числа совершенно не бились по той причине, что сделками можно назвать сразу несколько бизнес-сущностей. Как оказалось, с одной стороны у меня были сделки по электронной регистрации объектов недвижимости, а с другой — ипотечные сделки. И данные по одному и тому же региону в рамках одного месяца могут не совпадать. Причем в обе стороны: регистраций может быть как больше, чем ипотечных сделок (если вдруг много клиентов стало покупать недвижимость без ипотеки и просто приобретать электронную регистрацию), так и меньше (если услуга электронной регистрации не пользуется большим спросом в регионе, и ипотека берется без нее).
Подобные случаи привели нас к необходимости создания справочника, чтобы и самим не путаться в определениях, и пользователю на портале объяснить все метрики максимально подробно.
Агрегируем разные данные по временным интервалам
Когда речь шла об аддитивных метриках (а первые метрики у нас были именно такие), агрегация не вызывала у нас никаких вопросов. Количество ипотечных сделок за август: берем и считаем все сделки, которые были выданы с 1 августа по 30 августа. Так же мы поступали и с периодом «Последние 30 дней», который дает наиболее актуальную картину по каждой метрике.
Однако появление неаддитивных метрик заставило нас задуматься. К примеру, количество опубликованных на конкретный момент времени объявлений о продаже квартир невозможно посчитать «за август». Если на 1 августа в каком-то регионе на витрине было опубликовано 1000 объявлений, а на 30 августа — 1200 объявлений, то какое число выводить? Среднедневное? Медианное за месяц? Значение на середину месяца? Мы решили, что и нам проще, и пользователям понятнее, если выводить подобные метрики не за период, а на последний день периода. Если выбран август, то данные на 30 августа; если выбраны «последние 30 дней», то данные на вчера. И информация об этом также помещена в справочник.
Определяем степень нашей открытости
На первых этапах подготовки данных мы хотели показать как можно больше информации. Если мы знаем, что в городе Н в июле 2020 года было оформлено 65 сделок по электронной регистрации, так давайте расскажем об этом пользователям! Однако в какой-то момент мы задумались, как этим смогут воспользоваться наши конкуренты. Ведь раскрытие абсолютных значений в разрезе городов, да еще и с динамикой по неделям может привести к тому, что данные будут использованы для проверки различных гипотез в рамках конкретных населенных пунктов. Наши данные обновляются каждый день, а значит у игроков рынка появляется возможность ежедневно мониторить практически все основные метрики нашего бизнеса, проводить различные кампании и моментально оценивать их эффект на наши результаты. Кроме того, раскрытие двух метрик (например, количество заявок и количество одобренных заявок) может, по сути, раскрыть другую метрику (например, коэффициент одобрения), которую показывать совершенно не хочется.
Чтобы избежать неприятных ситуаций, мы решили «закрывать» интервалами критичные метрики по регионам и городам. Причем построение рейтинга и сортировка внутри таблицы всегда происходит по реальным абсолютным значениям метрик, просто они не выводятся на фронт конечному пользователю.
Для кого и для чего мы открываем данные.
Сейчас на портале доступны четыре раздела (стрима), в каждом из которых находятся 5–6 метрик в табличной форме с рейтингом регионов. При нажатии на регион можно провалиться в него и увидеть рейтинг городов в рамках данного региона. Доступен выбор временного интервала (все месяцы, начиная с января 2019 года, и «последние 30 дней»), а также поиск по регионам и городам.
Подобная гранулярность позволяет использовать данные как материалы для исследований рынка. Например, анализ рынка недвижимости, который был проведен нами совместно со SberIndex, опираясь на «Открытые данные». Отдельное спасибо Николаю Корженевскому, директору лаборатории «СберИндекс» за проактивную позицию по исследованию.
Копипаст Выдержка из анализа:
- Цены предложения недвижимости в среднем по стране в последние два месяца выросли на 3,0% г/г по данным ДомКлик. На первичном рынке рост котировки достигает 6,2% г/г.
- Среди лидеров по приросту цен предложения — туристические регионы:
- Хабаровский край (18,9% г/г),
- Калининградская область (18,0% г/г),
- Республика Алтай (17,6% г/г).
- Динамика выдач в июле-августе также оставалась вблизи рекордных значений на фоне быстрого падения ипотечных ставок. Количество выданных ипотечных кредитов, по нашей оценке, растет на 44% г/г.
- После пандемии почти половина одобренных заявок на ипотеку в ДомКлик была подана онлайн, как свидетельствуют «Открытые данные».
Помимо анализа и исследований рынка «Открытые данные» могут быть полезны сразу нескольким аудиториям:
- Покупатели могут принять решение по использованию дополнительных услуг ДомКлик, заранее оценить примерную длительность сделки/регистрации объекта, и т.д.
- Продавцы могут увидеть, как быстро можно продать объект недвижимости в своем регионе и даже городе.
- СМИ могут выгружать данные в Excel и сами анализировать рынок.
- Агентства недвижимости могут фиксировать, в каких городах/регионах малая доля сделок проходит с участием риелторов, оценивать потенциальный спрос и конкурентное предложение по городам и регионам.
- Росреестр может отслеживать сроки регистрации объектов в электронной или оффлайн форме
- Студенты могут использовать данные для написания рефератов/курсовых/дипломных работ. Конечно же, наша основная целевая аудитория :)
Что дальше?
- В ближайшем будущем мы планируем сосредоточиться на построении графиков для более удобного отслеживания динамики изменения метрик по месяцам и по неделям. Макеты уже готовы, данные есть, работа идет полным ходом.
- Одновременно выбираем и начинаем собирать данные для новых разделов, пытаемся понять, что будет интереснее всего пользователям.
- Хотим сделать более удобную выгрузку агрегированных данных в Excel.
- И параллельно прорабатываем варианты визуализации метрик на карте РФ (тепловой картой или точками). То есть в какой-то степени возвращаемся к идее самой первой версии продукта, но уже с опытом за плечами, дружной командой и работающим в проде проектом.
Если у вас есть комментарии/вопросы по поводу портала, или идеи по поводу данных, которые интересно было бы «открывать», то пишите в комментарии, постараюсь всем ответить :)