Про ML по-серьёзному: что расскажут в докладах на I'ML
Слова «доклад про ML/AI» могут звучать словно очередной рассказ про будущее, где вкалывают роботы, а не человек. Такое мы все уже слышали сто раз.
Но на нашей онлайн-конференции I’ML всё будет иначе:
Она рассчитана на тех, кто лично использует ML в проектах.
Она не о далёком будущем, а о вопросах, актуальных уже здесь и сейчас.
Она не об абстрактном («было бы здорово…»), а о конкретном: «как бороться с ML-галлюцинациями», «как рекомендовать размер одежды с помощью ML».
Она не о том, как «нейросети отберут работу», а наоборот: о ML-работе, которую нейросети нам дали.
В общем, она не для желающих просто пофантазировать, а для специалистов, желающих эффективно работать.
А что именно там будет? До конференции остался месяц, и мы представляем Хабру её программу:
Содержание
NLP (обработка естественного языка)
CV (компьютерное зрение)
MLOps
General ML
RecSys (рекомендательные системы)
Аналитика
ML-продукты
Заключение
NLP
Для нас аббревиатура NLP означает не «нейролингвистическое программирование», а совершенно другое: обработку естественного языка (natural language processing). Над чат-ботами теперь работает немало людей — что полезно знать в этой работе?
Обучение GigaChat с контекстом в сотни тысяч токенов
SberDevices
Обсудим, как GigaChat увеличил контекст модели до сотен тысяч токенов (дальше — больше) и как проверял качество получившейся модели. Евгений расскажет про плюсы и минусы разных подходов к ускорению модели и оптимизации использования памяти, а также объединит их в пайплайн — на котором обучался GigaChat — позволяющий обучать и использовать модели на контексте в сотни тысяч токенов и получать высокие показатели качества на LongBench.
Построение RAG-приложения с использованием YaGPT
Яндекс
Пройдемся по возможностям YaGPT и узнаем, как построить YaGPT-приложение на облачной инфраструктуре.
Галлюцинации в LLM: что это и как с ними бороться?
X5 Tech
Сейчас использование LLM — крайне горячая тема. Кто же не знает про ChatGPT? Но языковые модели все еще имеют особенности применения. Одна из таких особенностей — они «выдумывают». Это не плохо, скорее, особенность их работы. Но для применения в реальных проектах это может быть критично. Это значит, что нам нужны методы для детекции «галлюцинаций» LLM и методы борьбы с этим явлением. Об этом и будет доклад.
SAGE: мультиязычная коррекция орфографии и пунктуации
SaluteDevices
Никита расскажет о методологии для мультиязычной генеративной правки орфографии и пунктуации из статьи с EACL 2024.
Результат исследований — библиотека SAGE с открытыми весами предобученных трансформерных моделей для исправления орфографии и пунктуации, открытыми параллельными датасетами с ручной разметкой для исправления орфографии на русском языке и двумя алгоритмами аугментации на основе намеренного искажения правописания.
Синтез речи в Марусе: проблемы, успехи и неудачи
VK
Максим расскажет про ряд проблем, с которыми команда столкнулась при разработке продакшен-системы синтеза речи, а также про успешные и неудачные попытки их исправить.
CV
Эту аббревиатуру мы тоже воспринимаем не так, как многие: на I’ML это не про резюме и прочие HR-дела, а про computer vision.
Active Learning для нейросетей компьютерного зрения в складской робототехнике
Яндекс
Александр расскажет, как устроены жизни моделей на активно меняющихся доменах. Как Яндекс собирает данные для дообучения, дообучает, версионирует и тестирует сети. Особенности доменов и инструменты автоматизации, которыми пользуется спикер.
Компьютерное зрение в Wildberries: поиск товара по фотографии и детекция «главного» объекта
Wildberries
В Wildberries есть множество алгоритмов, которые помогают пользователю найти нужный товар из миллионов существующих: поисковый индекс по тексту и различные рекомендательные системы. Но что, если пользователь хочет найти товар только по фото из телефона? На помощь приходят алгоритмы поиска по изображению! Вам расскажут, как они работают, как это реализовано в Wildberries и какие получились результаты.
Обсудим решение проблемы выделения «главного товара» на фотографии с помощью современных детекторов.
ML для видеоконференций SberJazz: deep dive в разработку моделей замены фона
SberDevices
SberDevices
Дмитрий и Давид расскажут, как разрабатывали модели замены фона для платформы видеоконференций SberJazz.
Перед ними стояла задача ощутимо улучшить качество моделей по сравнению с доступными открытыми решениями, будучи существенно ограниченными в вычислительных ресурсах из-за необходимости запускать модели в веб-браузерах на обычных ноутбуках пользователей.
Вы узнаете, за счет чего спикеры уменьшили архитектуру, не теряя качество; какие результаты получили, применяя такие общеизвестные подходы, как дистилляция, прунинг и квантизация моделей.
MLOps
В ML важно не только непосредственное обучение моделей, но и вся сопутствующая инфраструктура: например, как эффективнее доставлять в продакшен всё обученное? И об этом речь тоже пойдёт.
Жизненный цикл ML-модели с помощью ClearML
Как с помощью мощной платформы ClearML организовать ML-эксперименты, запускать их и ставить в очередь. Как организовать обработку, хранение и версионирование датасетов. Все это позволяет легко и удобно проверять множество гипотез с сохранением всевозможной информации.
Управление жизненным циклом модели через Jira
Циан
В настоящий момент в Циан более 70 ML-моделей. В Циан используются автоматизированные пайплайны внесения изменений в код ML-моделей, доставки моделей в прод, регулярного переобучения по расписанию через Airflow. Но, конечно, так было не всегда. Из доклада вы узнаете, как в Циан устроен жизненный цикл работы с моделями и пайплайнами обработки данных через Jira, как это упростило и ускорило работу с моделями.
Тот самый ANN! Выбираем самую быструю и оптимальную базу для векторного поиска
Оператор Газпром ИД
Рассмотрим проблему применения моделей машинного обучения для поиска схожих векторов. Нас интересует:
база: какая быстрее и производительнее;
дополнительные функции, которые могут потребоваться для боевых задач: где и какие;
открытый бенчмарк и его результаты.
Можно использовать любую базу, которая поддерживает ANN Search. Но мы пройдемся по подводным камням реального продакшена, где такой поиск нужен бизнесу.
Как небольшой компании запустить MLOps
Napoleon IT
Игорь раскроет, что такое MLOps в контексте небольших компаний (100–300 человек). Как начинали, что делали и какие минимальные действия уже могут оказать влияние на скорость релиза решения с ML. Он поделится советами, что делать не стоит и почему. К чему пришли в плане автоматизации и итоговой архитектуры, которую можно внедрять и уже получать профит.
В конце он покажет роадмап по кварталам для создания своей MLOps-инфраструктуры, чтобы заводить ее без надрыва. В нем будет оценка ресурсов, подводных камней и прозрачности итогового результата.
General ML
Про машинное обучение «в целом».
Ищем релевантные признаки из сотен источников для любой модели
Upgini
Итак, вы хотите использовать внешние данные для обучения. Как найти нужные? Можно опираться на метаданные датасетов… и потом погрузиться в работу по очистке данных и в эксперименты. И может случиться так, что с виду хороший датасет совсем не подходит для вашей задачи.
А если иначе? В Upgini делают сервис, который упрощает этот процесс до одного вызова open-source библиотеки. Каков путь от эталона и сотен источников до фич, повышающих GINI? Какие ловушки подстерегают, когда из тысяч признаков нужно выбрать оптимальный набор? И при чем тут LLM? Обо всем этом Валерия расскажет в докладе.
Мир банкоматов, или Как мы оптимизируем инкассации
Тинькофф
Артем расскажет про мир банкоматов: как они устроены, где банк теряет деньги и где может заработать, как в Тинькофф оптимизируется прибыль с помощью планирования инкассаций. Разберем путь от бизнесовой постановки проблемы до нескольких версий решения с помощью ML.
ML на Big Data — правда или вымысел?
Сбер
В рамках мастер-класса поговорим о том, почему с ML на стеке технологий Big Data все непросто и какие есть опции. На примере разберем работу с пайплайнами Spark ML, поинженерим фичи, попробуем разные модели, поработаем с AutoML. На десерт посмотрим, как может выглядеть вывод модели в прод — запакуем полученную модель в web service (не изменив ни строчки кода!) и пошлем ей пару вызовов.
RecSys
Всё о рекомендательных системах.
Рекомендательная система в приложении с социальными механиками. Как мы ленту для Шедеврума делали и вырастили возвращаемость
Яндекс
Доклад о ленте рекомендаций в приложении Шедеврум. Рассмотрим постановку задачи и особенности сервиса с точки зрения рекомендаций. Разберем, как с помощью ленты можно влиять на KPI-метрики сервиса.
Отдельно поговорим про подходы, которые Даниил и коллеги попробовали в ранжировании: что в итоге дало наибольший профит, а что пришлось «закопать». Обсудим архитектуру рекомендаций с точки зрения ML. В конце разберем полученные результаты и возможные дальнейшие пути улучшения.
Как рекомендовать размер с помощью машинного обучения?
Lamoda
Как в Lamoda строили систему для рекомендации размера.
Выбор размера — достаточно нетривиальная задача, поскольку существуют разные размерные сетки, товары, которые большемерят / маломерят и т. д. Пользователю нужна помощь, чтобы не заказывать большое количество размеров на примерку и быстрее совершать покупки.
Никита расскажет о проблеме, первых подходах к решению и об эволюции подхода.
Advanced Analytics
Почему вам не стоит использовать байесовское A/B-тестирование
X5 Tech
Рассмотрим популярные мифы о байесовском A/B-тестировании.
Сравним подход с классическим. Александр подкрепит свои аргументы не словами, а реальными экспериментами. Рассмотрим все шаги A/B-тестирования, а именно: до начала A/B-теста, во время проведения и после его окончания.
В докладе спикер затронет такие темы, как расчет дизайна эксперимента, ранняя остановка, работа с метриками отношений и повышение чувствительности тестов. Он приведет примеры, когда можно применить байесовское A/B-тестирование.
ML Products
Построение интерпретируемых ML-моделей в задачах геоаналитики
Bestplace
Bestplace
Иван и Дмитрий представят алгоритм машинного обучения «Физмодель». Его особенности: — хорошо подходит для обучения на небольших выборках; — прозрачно интерпретируется; — позволяет внести априорное «знание об окружающем мире» в итоговую модель; — на их кейсах его работа сравнима по метрикам с XGBoost / CatBoost. Спикеры расскажут, как пришли к такой модели, обсудят детали ее реализации и приведут примеры со сравнением XGBoost / CatBoost на реальных геоаналитических задачах.
Пример использования нейронных сетей и ML-моделей при разработке нефтяных месторождений
АЛЬМА Сервисез Компани
Михаил продемонстрирует подходы, инструменты и результаты решения задачи оптимизации режимов скважин при разработке нефтяного месторождения с использованием технологии поддержания пластового давления.
При решении поставленных задач использовались такие технологии, как Лассо-регрессия, спектральная кластеризация, глубокая нейронная сеть, оптимизация методом SLSQP с индивидуальными и групповыми ограничениями.
Заключение
Про доклады поняли, а что ещё нужно понимать про конференцию?
Она будет полностью онлайновой, но это не значит «смотреть видеодоклады как с ютуба». Например, мы ценим зрительские вопросы, поэтому предоставляем им максимум: спикер отвечает не «пять минут до следующего доклада», а «сколько потребуется», задавать их можно хоть текстом, хоть в видеозвонке.
В общем, мы хотим, чтобы это было мероприятием, в котором интересно поучаствовать в реальном времени. Если звучит любопытно, напоминаем ссылку на сайт конференции: там и вся информация, и билеты.