GIGA R&D DAY: материалы конференции

99dd560db1bbf79a6a57a9a60b306448.jpg

На недавней конференции GIGA R&D DAY, организованной командой R&D SberDevices, участники обсудили последние достижения в разработке GigaChat, NLP, Vision и Audio.

Событие собрало ведущих специалистов и экспертов в области искусственного интеллекта, которые поделились своими идеями и разработками. В день рождения GigaChat’a делимся с вами видеозаписями выступлений и презентациями докладов, которые охватывают широкий спектр тем от мультимодальности и мультиэкспертности до проблем alignment и задач генерации речи.

R&D GigaChat: направления и фокусы

Валерий Терновский и Александр Капитанов рассмотрели ключевые направления экспериментов в NLP GigaChat. Они обсудили рецепты pretrain, мультиэкспертность и мультиагентность и GigaQ*, а также рассказали о мультимодальности: изображениях, видео, звуке, 2D/3D и манипуляции изображениями.

Слайды

Исследования в Alignment GigaChat

Никита Сидоров поделился опытом внедрения исследовательских решений в разработку GigaChat, и рассказал о том, как команда работает над его alignment`ом.

Слайды

GigaSearch или RAG на GigaChat

Прохор Гладких описал разработку и реализацию Retrieval Augmented Generation на основе GigaChat — GigaSearch. Он подробно остановился на вызовах, с которыми столкнулась команда, и продемонстрировал прирост по метрикам качества ответа на фактологические вопросы.

Слайды и Q&A

Вопрос: Почему используете именно Open Search? Другие системы пробовали?

  • У команды поиска уже был большой опыт работы с этой системой, поэтому выбрали ее. Были эксперименты и с другими системами.

Вопрос: Как отфильтровываете провокационные темы? Политику, наркотики и т.д.

Вопрос: Можно поподробнее про базу данных для извлечения — почему используются именно подход, основанный на чанках. Пробовался ли подход на графах знаний?

Вопрос: как вы замеряете качество модели и изменения в метриках на проде?

  • Перед каждым релизом есть контроль качества, в том числе через автометрики. Также есть разметка срезов потока с ПРОД-а.

Вопрос: Гигачат плохо придерживается формата выдачи, даже в json у него не всегда получается хорошо придерживаться формата. Как добиться того, чтобы гигачат вызывал гигафункции корректно?

  • Качество вызова функции сильно зависит от качества и подробности описания к ней и ее параметрам, а также выходным параметрам. Стоит поработать в эту сторону.

Вопрос: уместность и достоверность оцениваются независимо или достоверность оценивается только для того, что уместно?

  • Независимо.

Вопрос: анафоры разрешаются самим же гигачатом или есть отдельная модель?

mGPT-модели для малых языков России

Игорь Чурин и Мария Тихонова рассказали о новых экспериментах с мультиязычной моделью mGPT, представленных на конференции EMNLP. Особое внимание уделено разработке 23 файнтюнам mGPT на моноязычных корпусах языков малых народов России и стран СНГ. Этот набор дал уникальную возможность использовать мощь языковых моделей для малоресурсных языков.

Слайды и Q&A

Вопрос: А сколько времени у вас это всё заняло?

  • Обучение файнтюна mGPT до 250к шагов занимает около 3 дней на а100 с 80 гигами, ушло где-то 2 месяца, чтобы дообучить все модельки до плато

Вопрос: Какое вы видите использование данной модели кроме переводчика?

Вопрос: Что вы можете сказать о качестве работы ваших моделей на языках с разными особенностями (синтетические/аналитические, внутренняя флексия, галлюцинации и тд

  • Зависимость работы модели от упомянутых особенностей языков мы пока не изучали. Однако мы смотрели на связь моделей с алфавитом и выявили, что есть сильная связь между тем, использует ли язык латиницу или нет. Также есть связь между размером обучающего корпуса и качеством на этом языке.

Вопрос: Какой был размер словаря токенов, на базе которого вы гоняли cross-entropy loss? Использовались ли какие-то хаки по типу adaptive softmax, negative sampling и тд?

  • Размер словаря модели 100k токенов. Мы использовали единый токенизатор для всех языков. При обучении мы старались следовать классическому подходу из оригинальной статьи про GPT-3, не используя, упомянутых техник. Детальную информацию по обучению и использованных гиперпараметрах можно найти в оригинальной статье https://arxiv.org/abs/2204.07580.

Практические аспекты ранжирования ответов виртуальных ассистентов Салют

Артем Снегирев расскзал о методах ранжирования ответов виртуальных ассистентов. Он поделился опытом работы с данными, методами повышения качества ответов и оптимизациями по памяти и времени.

Слайды

MERA: бенчмарк для оценки фундаментальных моделей

Алёна Феногенова, Альбина Ахметгареева и Мария Тихонова подробно рассказали о методологии бенчмарка MERA и его особенностях, а также разобрали 21 задание для оценки навыков модели, включая здравый смысл, целеполагание, логику, знания о мире, память, математику, этику и многое другое.

Слайды

SAGE v1.1.0: мультиязычная правка орфографии и пунктуации

Никита Мартынов рассказал о трансформерных моделях для коррекции правописания на русском и английском языках, которые выигрывают у открытых спеллчекеров (Yandex.Speller, JamSpell, Hunspell) и проприетарных моделей (GPT-3.5, GPT-4). Никита также описал обновления в библиотеке SAGE: расширенная разметка в датасетах, метрика, учитывающая разные аспекты правописания, и пополнение в семействе открытых предобученных моделей.

Слайды

Панельная дискуссия: GPT-5, как догнать и перегнать западных конкурентов в российских реалиях

Сергей Марков, руководитель исследовательской программы GigaChat и R&D
Константин Крестников, лид проекта GigaChain (GigaChat SDK), амбассадор AI-агентов
Иван Оселедец, генеральный директор AIRI, профессор Сколтеха
Татьяна Шаврина, энтузиаст open source LLM, Старший научный сотрудник, ИЯ РАН
Денис Димитров, руководитель проекта Kandinsky, научный консультант AIRI

Как научить модель понимать жестовую речь

Александр Нагаев рассказал о ключевых особенностях жестового языка и основных проблемах, возникающих при его переводе. Были представлены технологии компьютерного зрения, описаны различия между задачами распознавания жестов и перевода жестовой речи, а также специфика данных для решения этих задач.

Слайды

Генеративный 3D, быстрый синтез и реконструкция 3D объектов

Михаил Мазуров: Исследование диффузионных моделей приоткрыло нам возможность переносить текстовые концепции на холст цифрового полотна. Казалось бы, что еще нужно для счастья? Перенести все это в 3D! Выясним, как создать практически любой объект в 3D-пространстве с помощью нейронных сетей, как заставить Кандинского смотреть за угол и ждет ли нас будущее, как в «Первому игроку приготовиться».

Скачать презентацию​

Тихо! Сейчас будет та самая сцена: как автоматически находить самые цепляющие моменты в видео

Марина Бессмертная рассказала о автоматизированном пайплайне для анализа видеоконтента. Её команда создала систему, работающую с запросами на естественном языке, которая выявляет увлекательные моменты в видео.

Слайды

LLM подходы в синтезе речи

Борис Жестков обсудил задачи генерации речи с помощью LLM, рассмотрел потенциал и ограничения этих архитектур и применении LLM в различных задачах речевого домена. Архитектуры, токенизация аудио, пайплайны сбора и валидации данных.

Скачать презентацию

Управление речевыми характеристиками в модели синтеза речи и инструктивные данные

Артемий Таразанов представил способ представления речевых характеристик, который позволяет управлять темпом, тоном, энергией, экспрессией и артикуляцией речи в модели синтеза речи на основе архитектур FastSpeech. Он поделился подходами к созданию инструктивного датасета для синтеза речи с помощью LLM.

Скачать презентацию

Не можешь сказать — спой! Синтез пения по нажатию одной кнопки

Максим Смоляков рассказал о синтезе вокала и генерации пения с аккомпанементом по тексту.

Скачать презентацию

Мы благодарны всем экспертам R&D SberDevices за их вклад и стремление делиться знаниями и опытом. Приглашаем вас в Telegram-канал Salute AI,  где ML-специалисты SberDevices делятся наработками в NLP, CV, Speech и других сферах.

Обязательно приходите на будущие мероприятия SberDevices!

© Habrahabr.ru