DataCon: как научиться применять ИИ на химических данных
Уже два года подряд Центр искусственного интеллекта в химии ИТМО проводит DataCon — это сочетание образовательного интенсива и хакатона. Ученые Центра «делегируют» участникам хакатона обработку данных, собранных в ходе экспериментов и по открытым источникам. Результат — обученные ML-модели, прогнозирующие характеристики новых наночастиц из проектов Центра. В то же время DataCon — бесплатный образовательный интенсив, который проходит онлайн для школьников и студентов, уже имеющих базу в области химии. Они расширяют свои знания по нейросетям и работе с ними в контексте обработки экспериментальных данных. В этой статье расскажем о том, как это работает и какие результаты дает.
Под капотом DataCon
DataCon — это конкурсная активность в рамках «Приоритета 2030», которая совмещает в себе обучение широкого круга заинтересованных и пользу для научных проектов в области биологии и химии наночастиц, над которыми Центр химии и искусственного интеллекта работает сегодня.
Задачи и примеры для DataCon подкидывают научные группы. Коллеги выбирают актуальный на момент проведения активности проект, который находится на нужной стадии развития. Каждый раз проекты разные, но объединяет их одна проблема — наличие большой базы необработанных данных, собранных нашими сотрудниками. Данные могут быть получены экспериментально или собраны по открытым источникам, но они не валидированы и не приведены к единому формату, т.е. в чистом виде не могут использоваться для дальнейших исследований. У самих подразделений не всегда хватает ресурсов эти данные обработать. Тут-то и подключаются участники DataCon.
Образовательная часть DataCon — это различные лекции, семинары и воркшопы, которые должны погрузить участников в предметную область проекта и показать, какие подходы используются для обработки данных. В среднем длятся они две недели, а ведут их магистранты и аспиранты ИТМО, плюс приглашенные внешние специалисты.
В рамках обучающей части участники прокачивают в том числе и практические навыки, а также разбиваются на команды. К каждой команде прикрепляется ментор. Кстати, именно этот фактор и определяет лимит на количество участников — мы берем столько, сколько может «переварить» команда организаторов.
Обучение завершается хакатоном, в рамках которого команды обрабатывают данные и формируют предсказания по собранной базе. Команда победителей имеет возможность проверить свое решение экспериментально. Понятно, что участвуя удаленно, они не могут прийти в лабораторию сами. Но им помогают сотрудники ИТМО, выполняя эксперимент (откровенно говоря, это продуктивнее, чем пытаться быстро познать экспериментальные методы в незнакомой лаборатории или стерильном боксе).
Конкурсная часть в данном случае — не главная. Основное — это обучение. Но хакатон помогает добавить соревновательный элемент и дополнительно мотивировать искать решение. А кроме того он дает огромную пользу именно научному проекту — группа получает сразу множество вариантов решения актуальной задачи.
Участие и тем более победа в DataCon дает определенные неформальные преференции. Например, за участие в этой инициативе абитуриентам добавляют баллы к ЕГЭ. Студенты могут указывать факт участия в DataCon при подаче заявок на стажировки — в этом случае у них будет приоритет. Также участники команды победителей могут попасть в магистратуру Центра для химиков без экзаменов.
Поскольку перед DataCon не стоит задачи кого-то отсеять и выбрать только самых лучших, проигравшие команды тоже в своем роде победители. Если им понравилось направление, после того как будет закончена экспериментальная проверка решения команды победителей, они могут напомнить о себе, постажироваться в группе или поработать удаленно, просто связавшись с организаторами.
Оказалось, что участие в подобных мероприятиях хорошо воспринимается и внешними работодателями. Одна из участниц последнего DataCon поделилась опытом, что рассказ об этом проекте (о кейсе, который разбирали в рамках DataCon) помог ей устроиться в крупный банк на новую для нее роль аналитика данных.
Как это было?
DataCon проходил уже дважды — летом в 2022 и 2023 годах. В 2022 году перед участниками стояла задача исследования цитотоксичности наночастиц, в этом — построение предсказательной модели регрессии для прогнозирования ZOI — зоны ингибирования роста бактерий — для комплексов лекарство-наночастицы. В основе была база данных, собранная в Центре ХИИ на основании данных реальных экспериментов, где содержалась информация по конъюгатам наночастиц с лекарственными препаратами (т.е. по свойствам сочетаний неорганических наночастиц и органических молекул).
В рамках обучающего этапа участники слушали лекции по химии по теме задания, в частности, по физике и химии наночастиц, а также по программированию, нейросетям и визуализации данных. Им требовалось с одной стороны, понять, на какие параметры наночастиц следует обращать внимание, на что они влияют при сборе базы данных, а с другой, научиться эти данные обрабатывать.
Приступив к решению задачи, они должны были обработать имеющуюся базу, провести визуальный анализ с помощью инструментов аналитики и наук о данных, создать модель машинного обучения или нейронную сеть для предсказания таргетного признака — процента выживаемости клеток в присутствии определенного материала. Помимо этого, нужно было подготовить питч и презентовать проделанную работу на финальной защите.
Кстати, после первого DataCon участники из команды победителей пришли работать в ИТМО. К текущему моменту они уже доработали начатое прямо во время хакатона исследование до крутой публикации.
Организацией первого DataCon занималось всего несколько человек, поэтому участников набирали мало — не более 50 из 120 заявившихся. В следующем 2023 году к организации подключились студенты и участники первого этапа — теперь команда тех, кто читает лекции и менторит, выросла до 15 человек. Это позволило почти в полтора раза увеличить прием, да и в целом сделать все более организованно.
Проанализировав опыт 2022 года, перед вторым хакатоном ввели тестовое задание, поэтому заявившихся (приславших задание) было меньше. Зато уровень знаний участников — выше. В 2023 году участники строили предсказательную модель регрессии для ZOI — зоны ингибирования роста бактерий для комплексов лекарство-наночастицы. Исходная база данных содержала около 1000 сэмплов, а от участников требовалось как минимум обработать данные и обучить модель. Спустя две недели после окончания соревнований, были проведены итоговые сборы участников, на которых объявляли результаты хакатона. Также, жюри подробно разбирали решения участников и давали комментарии по улучшению их подходов и методов.
Как попасть на DataCon
Задача DataCon — привлечь к образовательной инициативе как можно больше людей по всей стране, а может и из ближнего зарубежья. Поэтому мероприятие проходит летом в формате онлайн. Зарегистрироваться на него можно бесплатно. Обычно регистрация открывается в марте-апреле и закрывается примерно за месяц до проведения очередного этапа.
Мы приглашаем на DataCon не только студентов любых курсов, но и школьников 9–11 классов. Но надо понимать, что DataCon — это обучение методам машинного обучения, нейросети и моделирование для химиков, но не химия для программистов. Поэтому нужны базовые знания по естественным наукам — химии и физике. «На входе» эти знания мы не проверяем и не предъявляем никаких формальных условий, но без такой базы будет тяжело участвовать в проекте. Если же база есть, но нужно ее немного пополнить, как правило в команде находятся более знающие коллеги, у которых можно уточнить. Плюс группа читает лекции именно по той частной области, которая нужна будет для решения задач.
Все общение внутри команд, а также с лекторами и менторами, проходит в чатах. Иногда проходят видеосозвоны. Поэтому формальное требование к технике — она должна это поддерживать. Если при этом мощностей компьютера для выполнения заданий в сфере машинного обучения недостаточно, мы можем предоставить доступ к нашим вычислительным кластерам.
В зависимости от прошлых наработок каждый новый DataCon требования к зарегистрированным немного отличаются. В первый раз не проводили никакого конкурсного отбора, просили предоставить краткое резюме и учитывали самые разные моменты, даже участие в Русском медвежонке для школьников. Сейчас появилось небольшое тестовое задание на базовые знания Python и баз данных (в 2023 году была возможность выбрать — либо предоставлять резюме с релевантным опытом, либо выполнить задание). Задача этого задания — не увеличить порог входа и отсеивать, а проверить мотивацию участников. Без этого, к сожалению, многие просто не доходят до конца. Поэтому на сайте DataCon размещены полезные материалы — ссылки на короткие тематические курсы, изучение которых вряд ли отнимет более недели, но поможет решить задачу и впоследствии во время DataCon не тратить время на подтягивание базовых знаний.
Заявиться для участия можно как самостоятельно, так и с готовой командой. Нередки случаи, когда к нам приходят одноклассники и однокурсники и просят их включить в одну команду. Для тех, кто сам не распределился, мы ведем различные внеучебные активности — чатики, игры на знакомства — чтобы легче было выбрать команду. Если же человеку сложно определиться или для этого не хватает софт скиллов, помогают организаторы — распределяют с учетом компетенций.
Тему будущего года мы пока не определили. Центр ИИ в химии занимается генеративным дизайном новых веществ и у него есть два больших направления работы — органика (лекарственные препараты) и неорганика (наночастицы). Скорее всего на DataCon попадет задача из неорганики, потому что первая группа проектов ведется совместно с фармакологическими компаниями, соответственно многие задачи под NDA. Материаловедение же разрабатывается полностью в ИТМО и имеет более научную направленность, т.е. может быть открыто широкой публике.
Куда движется DataCon
Итоги DataCon 2023
Пока мы придерживаемся ежегодного графика, но смотрим на то, чтобы устраивать подобные инициативы два раза в год.
У нас также есть запрос как от коллег из научных учреждений, так и от компаний-партнеров, вроде ПАО «Татнефть», провести очередной DataCon очно в Альметьевске. Но мы пока не готовы настолько сузить «воронку» приема. Первоначальная идея была как раз в общедоступности инициативы, а в Альметьевск приедут далеко не все.
Опыт проведения DataCon оказался полезен со всех точек зрения. Темы финальных заданий были частью реальных исследовательских работ Центра искусственного интеллекта в химии. В научном плане мы получили даже больше, чем рассчитывали. Остается надеяться, что участников ждет достойное продолжение работы в этом направлении в нашем Центре или в коллективах коллег.