Конференция в Будапеште (29-31 октября) Data Crunch

habr.png

В этом году я побывал на конференции Data Crunch в Будапеште посвященной аналитике данных и Data Engeneering. На эту конференцию приглашают спикеров из Linkedin, Uber, Github и множества компаний «второго эшелона», где люди делятся своим опытом или же рассказывают об инструментах по работе с данными. Ну и что мне так же интересно — это пообщаться с участниками конференции по понять, насколько наша российская действительность отличается от Европы и США.

Из того, чтобы я отметил это:


  1. Full Stack Data Sceince — 2 доклада были посвящены примерно той же теме, что я писал раньше. Сделайте DS/DA человеком, кто может решать задачи от начала и до конца. Не делите работу по «функциям», а делите DS по «топикам». Т.е. работа с данными это не разделение на части между теми, кто готовит, обрабатывает, анализирует, строит модели и визуализирует, а это разделение «топиков» между специалистами, кто может сделать все полностью.
  2. From zero to hero — ребята рассказывали по то, как строили свой отдел DS с нуля. В целом как обычно, обычные здравые идеи работают:
    • 2 DS как минимальный размер команды.
    • и 2 Data engeneer к ним.
    • B product owner, кто бы общался с бизнесом.
    • Постройте хорошую экосистему. Докладчики топят обычно за опенсорс. Всякий доклад обычно упоминает Hadoop. Проблема правда во многом в том, что в проекте, в котором работаю я, а так же многие из читателей, никакой Hadoop не нужен, т.к. нет того объема данных, где бы от него был выигрыш. В целом мое отношение к опенсорсу — пробуйте, изучайте, но если ваша компания уже что-то купила, то продолжать жить в экосистеме проприетарного ПО может быть выгоднее, чем бросаться в другие технологии и потом их «сопрягать» или учить с нуля.
    • Тестируйте, что делаете. А/Б тесты и оценка результатов. Как ни странно, но простые советы не все делают на практике.
  3. Democratisation of data in Uber — про это я уже написал отдельную статью
  4. AI ethics — обсуждали, что многие задачи, имеют несколько принципиально разных оптимумов. Условно у вас может быть «эффективное» решение и «этичное решение». И проблема в том, что их максимизация происходит при разных условиях. И верного решения нет в математике или алгоритмах. Это людям решать, что они хотят от своих «машин». Как пример, докладчик говорил, что алгоритм оценки риска рецидива по преступлениями имеет тенденцию давать повышенную оценку риска черным американцам. Эта оценка риска используется для принятия решения по досрочным освобождениям. Дилемма в том, что социально неприемлемая «дискриминация» черных наталкивается на объективно не приемлемый последующий рост преступности от тех, кого зря досрочно освободили. И нельзя совместить оба решения в одном алгоритме. Что кстати интересно, черное сообщество СШАв основном совершает преступления против своих же черных «братьев и сестер», так что даже попытка «выравнять» белых и черных не по риску, а по кол-ву освобожденных приведет к диспропорциональному росту жертв насилия именно среди черных.
  5. ML and information warfare — чувак рассказывал, как анализом текста и ссылок друг на другу, а в фейсбуке нашел какую-то подозрительную активность в фейсбуке перед выборами Трампа. Утверждает в том, что кто-то массового заинджектил «рассискую» повестку, так что язык, на котором стали говорить группы консерваторы стал более рассистским. Исследовал это путем анализа используемого лексикона в группах Нео-нацистов, а потом сравнил с языком консерваторов. И обнаружил, что лексикон стал сильно сближаться перед выборами Трампа, хотя до этого ничего подобного не наблюдалось. Вообщем, намекнул, что Путин виноват :)

Из разговоров с людьми на конференции:


  1. R vs Python. Люди живут с двумя инструментами и обычно R любят люди с бекграундов в науке и математике, а python любят люди с бекграундов в разработке. Наиболее частое использование R — для exploratory, Python для pipeline. Модели пишут на том и на другом. У меня личный опыт production моделей на R, например.
  2. А/Б тесты — внедрение регулярной оценки своих действий и выбора решений на основе А/Б тестов все так же остается редкой практикой у компаний (из десятка групп с кем я общался, только у 1 есть А/Б тесты). Не хотят люди тратить силы на А/Б тесты, говорят и так знают или CEO «видит» как правильно…
  3. Все имеют проблемы коммуникации — с менеджерами, с клиентами, внутри компании и т.п. Улучшение коммуникаций — это точка роста почти для всех команд.
  4. Основная работа на машинным обучением идет не по линии выбора крутейших моделей, а feature engeneering и подготовки данных. Ни у гугла, ни у фейсбука нет «тайных» моделей, но эффективность их алгоритмов скорее в процессинге и подготовке данных для этих моделей. Это в целом хорошая «новость», ведь это означает, что общедоступный xgboost или регрессия — это и есть cutting edge алгоритм для большинства задач.

© Habrahabr.ru