Пойди туда, не знаю куда: по следам конференции SmartData27.03.2018 11:48

Конференций, связанных с AI / ML / data science в последнее время и у нас стало довольно много. Организаторы до сих пор ищут форматы, концепции конференций меняются, но состав спикеров повторяется процентов на 50.

Задача поиска формата стояла и перед программным комитетом SmartData. Задача эта довольно размытая. Кто тот человек, который занимается анализом и / или обработкой данных, что ему интересно? От участников конференции мы получили частичные ответы на эти вопросы, но данных хочется больше. В связи с этим хочу поделиться тем представлением об идеальном мире, которое сложилось на данный момент, и пригласить читателей к дискуссии в комментариях. Помогите сделать такую конференцию, на которую вам потом самим захочется сходить.

Кроме вопросов о ваших интересах и задачах, за кликом вас ждут две ранее не публиковавшиеся видеозаписи выступлений с первой конференции, технический приём написания текстов на Хабр и один забавный факт о беспилотных автомобилях.

Но начнём мы с того, что узнали от посетителей конференции.

Data Science vs. Data Engineering
Многие участники отметили, что присутствие докладов «про алгоритмы» и «про инструменты» в одной конференции показалось им странным. Хотя отрасль и молодая, в ней уже есть специализация, одни люди настраивают пайплайны, а другие пользуются результатами труда первых, и общих интересов у них почти нет.

Тот, кто обучает модели для, скажем, рекомендаций видео, интересуется, что есть в данных, много ли их, насколько полны данные по каждому пользователю, очищены ли они от роботов. А вот берётся всё это из Вертики, КликХауса или откуда-то ещё, ему безразлично, лишь бы работало. А для того, кто поддерживает эту систему в рабочем состоянии, разница есть.

Пока непонятно, увеличивается или уменьшается аудитория конференции от совмещения этих двух тем: с одной стороны, для большего числа разных людей можно сделать что-то интересное, с другой же, для каждого будет много «чужих» докладов, и выбор в каждом временном слоте уменьшится.

Вопросы: А как у вас? Правда ли, что у людей из data science и data engineering мало интересов? Хорошо ли, что конференция охватывает оба направления, или лучше сосредоточиться на одном?

Не спешите отвечать! Если писать комментарий, не дочитав текст до конца, то с большими шансами к чтению уже не вернёшься. Но если не ответишь сразу, то вопрос потом забудется. Какой из этих путей хуже? Оба хуже. Для связности изложения вопросы я задаю в каждой секции отдельно, но в конце они будут собраны вместе и заданы ещё раз для удобства отвечающих. И это был приём для написания текстов на Хабр, да.

Поскольку нельзя объять необъятное, далее я буду рассуждать о стороне data scientist’а. Сторону data engineer’а постараемся позже рассмотреть отдельным постом.

Ещё наблюдения по итогам собранных отзывов

Фреймворки

Вполне благосклонно приняли зрители доклад Анны Вероники Дорогуш, посвящённый CatBoost. Полезна также сама возможность поймать разработчика в кулуарах и обсудить животрепещущие вопросы.

Собственно, CatBoost — проект довольно новый (на момент доклада так и вовсе), поэтому вполне естественно было рассказывать о нём базовые на тот момент вещи: зачем понадобился, в чём отличие от существующих реализаций бустинга, что там с производительностью на собственных измерениях авторов, для каких задач, по замыслу, лучше всего подходит, а для каких точно нет.

От продуктов с более длинной историей мы, наверное, ждали бы другой доклад. Кстати, какой?

Вопросы:
Интересно ли общаться с разработчиками фреймворков? Попробуем в следующий раз привезти не только Анну, но и таких людей как Tianqi Chen (XGBoost), Guolin Ke (LightGBM). Можете дополнить список? Какого плана рассказ у них просить?

Иностранные докладчики

Удивительно много отзывов было о том, что нет иностранных (почему-то писали «американских») докладчиков, и что это очень плохо. Ng не удалось привезти, извините. Мы, конечно, не оставим попыток, но… Давайте порассуждаем о том, кого стоит везти издалека.

Интересно ли увидеть основоположников и что-нибудь у них спросить? Пытаться ли привезти таких людей как Trevor Hastie / Robert Tibshirani / Jerome Friedman / Geoffrey Hinton? Разговор о том, насколько такие попытки в принципе могут или не могут быть успешными, оставим пока за рамками дискуссии. Есть ли вам о чём с ними поговорить?

Людей, занимающихся не наукой и преподаванием, а практическими задачами, выдернуть бывает сложно в связи с работой, к тому же они обычно делают что-то узкоспециализированное, интересное немногим. Например, лично я с удовольствием заплатил бы за возможность пообщаться с Роном Кохави, а кто без Гугла знает, чем он занимается? И в обратную сторону, я наверняка не знаю многих людей, которых стыдно не знать. Поэтому их имена мне кто-то должен подсказать. Подскажите, пожалуйста.

Вопросы:
Интересны ли и знакомы ли вам основоположники отрасли? Найдёте, о чём их спросить при встрече? Кого из иностранных знаменитостей я забыл? Из каких прорывных проектов стоит попробовать найти людей?

Практические кейсы

Если не укомплектовывать всю сетку докладчиками из Яндекса и Mail.ru, то найти людей, которые успешно решают какие-то интересные практические задачи, оказывается неожиданно сложно. Средний практик прочитал туториал, применил его as is, без всякой адаптации к своей конкретной задаче, получил на выходе какие-то числа, которые не умеет оценить, и сделал вывод, что было маловато данных для обучения. И должен теперь поделиться своим опытом на конференции.

Вместо этого хотелось бы найти людей, которые делают что-то настоящее.

Вопрос только, не окажутся ли их задачи слишком узкоспециализированными для большинства зрителей. Например, мой фаворит из программы SmartData, доклад Ивана Дрокина «Нет данных? Нет проблем! Deep Learning на CGI», проходил в полупустом зале. Возможно, правда, что мы нечётко отработали с названием доклада, и не все поняли, о чём он.

Это очень сильный доклад, не пожалейте полчаса. Речь про то, как обучать сетку распознавать детали на конвейере (физическом конвейере на фабрике), не имея заранее готовых образцов этих деталей. Самих деталей нет, но есть модели, из которых их изображения можно сгенерировать. Почему бы не обучиться на этих изображениях?

Иван опробовал несколько технических приёмов для аугментации данных, которые могут пригодиться или, по крайней мере, послужить источником вдохновения и в других ситуациях. Можно добавлять к сгенерированным изображениям, на которых учится сетка, шум с реальных камер, работающих в цеху. Можно и нужно эмулировать движение источников света (солнышко-то за окном не стоит на месте в нашей системе координат). Даже алгоритмы переноса стиля, уж на что, казалось бы, бесполезная вещь, и то можно применять для аугментации искусственных данных. Огонь, короче.

Но вот такого плана узкоспециальные штуки из разных областей интересно слушать?

Спрошу ещё про такую потенциальную практическую тему. Всем ведь интересно про самодвижущиеся экипажи беспилотные автомобили? У нас в России есть люди, которые ими занимаются, и не только в Яндексе. Но то, с чем эти люди бьются, часто не касается той магии, которую мы, обычные магглы, себе представляем. Собственно ездить автомобиль учится на симуляторе, в качестве которого может выступать GTA (и правда, зачем свой писать?). После того, как мы распарсим информацию с датчиков, фичи почти такие же. Вся проблема в этом «почти».

Вот ездит автомобиль, всё хорошо. А если положить ему в багажник пару мешков цемента — начинает глючить. Интересны ли рассказы про мешок цемента узкие подзадачи и неожиданные, не побоюсь этого слова, дурацкие проблемы, с которыми люди сталкиваются? Потому что про то, как наездить миллиард часов без аварий на симуляторе, им самим может быть неинтересно говорить.

По кейсам пока самый сложный план: ходим на митапы и конференции, общаемся со всеми, у кого могут быть интересные задачи, просеиваем слона через сито, собираем содержательные кейсы.

Вопросы:
Какие практические области особенно интересны? Хочется ли рассказов о решениях «в целом» (архитектура, выбор технологий и т.п.) или про узкие подзадачи тоже любопытно?

Чего не было совсем, а оно, возможно, нужно

Конкурсы по машинному обучению

Говорим «конкурсы», подразумеваем «Kaggle». Эта тема на первой СмартДате вообще не была представлена, а между тем это очень обширная область деятельности со своей экосистемой и огромной группой энтузиастов. Типовые ошибки при проведении конкурсов, экономия бюджета на Amazon Web Services при участии в них, очная встреча с кем-нибудь из топовых kaggler’ов кажутся интересными вариантами.

Вопросы:
Интересны ли темы, связанные с соревновательным решением задач машинного обучения?

Бизнес-кейсы

Какие-такие бизнес-кейсы? У нас же инженерная конференция!

А вот какие: иногда люди сделали что-то интересное и неочевидное, но открытие не в том, как они что-то реализовали, а в самой постановке задачи. Например, есть у вас, неважно откуда, корпус текстов email-сообщений от заведомо «белых» отправителей. Можно ли оттуда извлечь выгоду? Бывает так, что все годами проходили мимо возможности, и вдруг кто-то её заметил. Техническая реализация при этом может быть на уровне линейной регрессии, суть находки не в ней.

Мне кажется, в индустрии есть запрос на «как бы мне использовать / монетизировать данные, которые у меня уже есть», и в этом месте могут быть интересные рассказы. Но только нужно найти реально интересные, а не как обычно. Во всяком случае, в отзывах к конференции отметились люди, которые, оказывается, ждали подобных инсайтов.

Вопросы:
Возникает ли у вас ситуация, когда непонятно, «что бы мне сделать с данными»? Интересны ли решённые кем-то задачи анализа данных безотносительно применённых алгоритмов?

Идеальная картина мира
Я соберу здесь возникшие и буду рад предложениям и советам.

Кажется, что программа интересной инженерной конференции по ML / AI / анализу данных должна включать такие элементы:

Data science vs. data engineering

1. Имеет ли для вас смысл соединение этих тем?

Авторы популярных фреймворков

2. CatBoost, XGBoost, LightGBM, Tensorflow, кто ещё?
3. О чём просить рассказать этих людей?

Звёзды мирового уровня

4. Интересно ли вживую увидеть таких людей, как Ng / Hastie / Tibshirani / Friedman / Hinton?
5. Кого, с вашей точки зрения, я забыл добавить в список строчкой выше?
6. Живого участника какого знаменитого проекта вам хотелось бы послушать?

Практические кейсы

7. Из каких областей кейсы особенно интересны?
8. Ничего, если задачи будут довольно узкие?

Kaggle

9. Нужны ли доклады, специально посвящённые соревновательному решению задач машинного обучения?

Бизнес-кейсы, решения задач анализа данных

10. Нужны?