Открытый курс «Deep Learning in NLP» от создателей DeepPavlov на базе курса cs224n

Всем привет!

Вступление

Меня зовут Алексей Клоков, я хочу рассказать о запуске классного курса по обработке естественного языка (Natural Language Processing), который очередной раз запускают физтехи из проекта DeepPavlov — открытой библиотеки для разговорного искусственного интеллекта, которую разрабатывают в лаборатории нейронных систем и глубокого обучения МФТИ. Благодарю их и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге. Итак, поехали!

image
Рисунок 1. Лого

Кратко

C 11-го февраля 2020 года стартует открытый и бесплатный курс «Deep Learning in NLP».
Курс поможет Вам разобраться в NLP от самого начала до современного состояния. Вы получите фундаментальные знания, с помощью которых сможете решать задачи, связанные с обработкой текстовой информации. После Вы сможете продвигаться дальше в этой теме (NLP постоянно развивается), сможете читать и понимать умные папирусы на архиве. Ну, как бонус, вы сможете понять, при чем здесь вообще «Улица Сезам». Основа курса — cs224n Стенфорда, который является одним из лучших по NLP (см. лекции 2019 года). Все разборы лекций и дополнительные полезные «ништяки» на семинарах будут на русском языке!

image
Рисисунок 2. Элмо и GPU — лучшие друзья

Курс требует общего понимания работы алгоритмов машинного обучения, в частности нейросетей. Важно умение программировать на python. Начальные знания библиотек глубокого обучения tensorflow или pytorch приветствуются.

Подробно

Каждый запуск уникален, но основной набор тем следующий (советую еще посмотреть темы стенфордского курса этого года тут):


  1. Представления слов в многомерном пространстве (Word embeddings: w2v, fasttext и GloVe)
  2. Нейронные сети прямого распространения (FFNN, backprop)
  3. Рекуррентные и свёрточные сети в NLP (Language Modeling: RNN. И немного про CNN)
  4. Transfer learning (ELMo, ULMFiT)
  5. Механизм внимания на примере задачи нейронного машинного перевода (Attention, seq2seq на примере NMT)
  6. Архитектура трансформера (Self-Attention, Transformer)
  7. BERT
  8. Next steps: GANs in NLP и др.

Вести курс сейчас будут сотрудники лаборатории нейронных систем и глубокого обучения МФТИ Алексей Сорокин (@alexeysorokin89) и Василий Коновалов (@letmypeoplego).

Семинары будут проходить в учебном центре 1С по адресу: г. Москва, Дмитровское шоссе, д. 9 (метро «Тимирязевская»), аудитория 9235 (2 этаж).
Дата проведения первого семинара: 11.02.2019, 19:00.

Общий формат курса — inverted classroom. Включает в себя самостоятельный просмотр лекций стенфорда, выполнения тестиков, хождения/просмотра записей семинаров на Youtube, выполнения объемных домашних работ, обсуждение с другими ботающими, финальный проект. Далее подробно про каждый из аспектов:


  • Подготовка к семинарам. Перед каждым семинаром нужно посмотреть определенные лекции cs224n по roadmap. Далее нужно выполнить квиз по прослушанному материалу (советую несколько раз прослушать и разобраться). Приходить на семинар лучше подготовленными. Семинары проходят 1 раз в неделю. Внимание! Уже нужно посмотреть лекцию >>1<<, >>2<< и сделать квиз к первому семинару!
  • Семинары. На семинарах происходит обсуждение материала, который Вы ботали дома. Семинарист ответит на вопросы, разберет некоторые фундаментальные вещи еще раз и может быть разберет вопросы из текста. Общаться вживую — очень полезно. В предыдущих запусках курса после выкладывались записи на Youtube, сейчас мб зарелизят и онлайн трансляции. Семинары для меня были супер полезные (пример — transfer learning).
  • Задания с кодом — воркшопы. Задания объемные, в этом плане курс похож на cs231n. Реализуете руками w2v, backprop в RNN и много другого интересного. В предыдущий запуск весной 2019 года был запущен телеграм-бот для проверки заданий в кооперации (peer-reviewed). Т.е. Вы будете смотреть чужой код, а кто-то другой — ваш.
  • Проекты. Курс дает возможность почувствовать себя исследователем (модное слово NLP-Researcher). Каждый человек должен сделает свой проект. Проект можно делать и в командно. В cs224n дефолтный проект — Question Answering. В нем дают бейзлайн для SQuAD 2.0, требуется его улучшить. Также в прошлый запуск предлагались другие возможные темы проектов от лаборатории. Более того, организаторы всегда шли навстречу и разрешали выбрать свой проект не из их списка. В итоге, получилось много интересных проектов форме постеров.
  • Соревнования. Также был inclass competition и в рамках курса — классификация новостей.

Важные ссылки


  1. Регистрация на курс: https://forms.gle/1mz9rzoFdf2Von9L7
  2. https://forum.deeppavlov.ai/t/about-the-deep-learning-in-nlp-2020-spring-category/319
  3. Основная площадка — Telegram. Объявления и орг. информация тут: https://t.me/dlinnlp2020spring; чат чисто весеннего потока 2020 тут: https://t.me/joinchat/HdGuOk3LL4J3iDqj8×0i6g
  4. Юра yorko создал репозиторий с roadmap курса (пока ребята пилят отдельную страничку на своем сайте, …пилят же?) https://github.com/Yorko/dl_in_nlp_deeppavlov_cs224n_spring2020
  5. Общий чат всех предыдущих запусков, где сидят уже 800+ человек (так сказать, залетайте): https://t.me/dlinnlp_discuss

ODS

Курс стартует при поддержке OpenDataScience, под эгидой которого уже сформировались 2 мощнейших русскоязычных курса по ML и по DL. Приглашаем всех интересующихся DS в огромное (~41к участников) русскоязычное (и не только) сообщество. Доступ в ODS дается по инвайтам после подачи заявки на главной странице с небольшим вступительным тестом. Подаете заявку и скачиваете приложение Slack. Далее ждете письма на почту с приглашением в workspace_ods. Неофициальные обсуждения вопросов по курсу «DL in NLP» будут проходить в канале #class_cs224n Slack.

Отдельная благодарность

Хочу сказать огромное спасибо Владу Лялину. Этот человек тащил на себе не один запуск курса, вложил уйму времени как в семинары, так и в создание телеграм-бота для упрощения проверки заданий. Сейчас он делает PhD в University of Massachusetts Lowell и стажируется в Google. Пожелаем ему удачи и будем держать за него кулачки. Влад — тащи.

image
Рисунок 3. Фото c семинара по RNN

Заключение

От лица сообщества ods.ai посмею заявить, что это максимально топ курс, в который стоит ворваться, пока есть возможность. Агитация и пропаганда курса только приветствуется.
Закончить эту статью я бы хотел строчками:
«Да разнесется науки свет по всей земле из Долгопрудной»

© Habrahabr.ru