[Из песочницы] Тренды и прогнозы в Natural Language Processing
Тренды и прогнозы в области NLP (Natural Language Processing)
Это статья про тренды и прогнозы из нашего сентябрьского Альманаха «Искусственный интеллект» №2, который посвящен обзору рынка технологий и компаний в области NLP и распознавания-синтеза речи в России.
Для этого иследования мы проводили экспертный опрос индустрии и в частности задавали вопрос о прогнозах развития как технологий, так и применения ИИ в разных областях. Ответов было не так много, но тем не менее общую тенденцию можно сформулировать. В этой статье мы обобщили эти ответы и проявили основные тренды.
Общие технологические тренды
End-to-end решение задач NLP
Все больше решений будет основано на end-to-end подходе, например нейросетевая модель получает на входе акустический сигнал (звуковые волны) и выдает на выходе акустический сигнал, без промежуточной фазы текста. Это существенно ускорит выполнение моделей и их качество, одновременно ухудшив «прозрачность» и наше понимание того, «что внутри».
Приближение качества распознавания и генерации речи к человеческой
В ближайшие годы будет достигнуто существенное улучшение качества распознавания речи. Количество ошибок при распознавании приблизится к человеческому уровню. Улучшится распознавание смешанной речи нескольких людей, говорящих с различными акцентами в условиях зашумленности. Добавится анализ звуковых сцен с распознаванием пола и возраста говорящих, эмоциональной окраски их речи и характера окружающей обстановки.
Синтезированная речь будет неотличима от человеческой, причем можно будет синтезировать голос любого человека.
Многоязычность
В ближайшее время появятся многоязыковые модели перевода, в том числе, за счет применения transfer learning и за счет использования кроме параллельных корпусов значительно более объемных монокорпусов. В результате значительно повысится качество перевода для малоресурсных языков (с относительно небольшими массивами обучающих выборок).
Ручной перевод будет целиком вытеснен машинным благодаря более глубокому машинному пониманию контекста и тематики документов. По мере взросления технологий распознавания и синтеза речи, на горизонте 5–10 лет появится машинный синхронный устный перевод.
Понимание смысла текстов
На том же горизонте 5–10 лет появятся и другие приложения, основанные на понимании смысла с учетом контекста: разного рода диалоговые и справочные сервисы, способные понимать контекст диалога, разумно отвечать на вопросы пользователей и направлять ход диалога в нужном направлении. Более глубокое машинное понимание языка выведет на новый уровень автоматическую обработку текстовых потоков в интернете и в соцсетях: сбор и компиляцию фактов, их анализ на непротиворечивость и достоверность.
Генерация текстов
Нейросетевые end-to-end подходы повсеместно заменят классический NLG-pipeline. Применение моделей уровня GPT2 уже дает возможность создавать достаточно длинные статьи по произвольным темам в заданной области с управляемым содержимым. На 5-летнем горизонте нейросетевые модели смогут генерировать тексты не хуже человека. И тогда автоматический контент затопит мир.
Платформы и кроссплатформенность
Многие решения станут стандартными, появится множество платформ для сборки приложений на базе голосовых интерфейсов. Облачные платформы будут улучшаться с точки зрения времени отклика, нагрузок и безопасности. Прогнозируется рост инвестиций не в отдельные диалоговые сервисы (чатботы), а в многофункциональные платформы и кросс-платформенные решения, благодаря которым голосовой ассистент сможет одинаково работать на разных устройствах. В результате мы сможем начинать разговор со своим помощником в «умном доме», продолжать его по дороге в автомобиле и потом на работе со своим компьютером на рабочем месте и все это без потери контекста общения.
Технологии для малого количества данных
Будет расти значение методов машинного обучения, которые эффективно работают в условиях малого количества сырых данных: transfer learning, knowledge transfer. В таких применениях также ожидается более широкое использование GAN (generative adversarial networks) для генерации данных для обучения моделей.
Архитектуры с меньшими требованиями к вычислительным ресурсам
По мере перехода нейросетевых моделей из стен лабораторий в коммерческие дата-центры повысятся требования к их энергоэффективности. Ожидается появление новых, более эффективных вычислительных архитектур. Например, разреженные сети, сочетающие лучшие качества распределенных и символьных вычислений, модели сложность которых адаптируется к количеству обучающих данных.
Рыночные тренды
Повсеместное внедрение голосовых интерфейсов
Развитие технологий speech-to-text будет первым шагом для упрощения офисных задач (например, планирования времени руководителя, поиска документов, обработки конфиденциальной информации). С повышением точности распознавания, глубины понимания и качества синтеза речи голосовые интерфейсы будут интегрированы практически во все устройства: диалоговые системы в умном доме, автомобиле, бытовой технике, боты-аватары, боты-помощники.
Взрывной рост голосовых роботов
Нас ждет взрывной рост количества интеллектуальных ассистентов в различных отраслях бизнеса, в том числе в коммерческих сервисах банков, ритейлеров, телекома и других компаний, которые активно взаимодействуют с клиентами. Все вербальное общение с массовой аудиторией в наиболее популярных сервисах будут вести роботы. Роботы научатся чутко распознавать эмоции, используя в том числе мультимодальную оценку эмоций и будут сами использовать эмоциональную составляющую в разговоре.
Поиск информации на естественном языке
Растет спрос на интеллектуальный поиск с возможностью делать запросы на естественном языке. Все больше организаций хотят быстро находить неструктурированные данные во всех внутренних источниках, автоматически определять их содержание и выделять значимые факты в специализированных юридических или финансовых текстах. За счет развития глубоких моделей извлечения фактов из текстов и автореферирования их содержания будет существенно повышаться качество поиска информации.
Своими силами
По всей видимости, крупные компании — банки, телеком, промышленность — будут развивать и наращивать собственную экспертизу в области ИИ, в том числе разговорного с собственной командой лингвистов, data scientists, NLP инженеров и т.д. Примеры аутсорсинга отдельных задач в ближайшее время останутся малочисленными. Мы наблюдаем быстрый рост ИИ команд многих крупных компаний. Хорошо это или плохо — тема для отдельной статьи, но это явный тренд.
Тренды отдельных отраслей
Финансы и страхование
В кратковременной перспективе фокус банков будет направлен на извлечение максимальной выгоды из уже накопленных банками данных с помощью ИИ вообще и NLP в частности. В долгосрочной перспективе есть устойчивый тренд на унификацию и упрощение банковских процессов, выполнимых без участия человека или с его минимальным участием (открытие счета, оценка рисков, создание кредитного досье, скоринг и т.д.). NLP будет сочетаться с другими технологиями (компьютерное зрение, RPA, удалённая идентификация и т.д.).
Промышленность и логистика
Благодаря технологиям NLP можно ожидать новое поколение конструкторов проектной документации, а также появление систем, оценивающих непротиворечивости документов, описывающих сложные технические объекты. Дальше можно прогнозировать появление автоматизированных систем планирования контрольных мероприятий на основе анализа проектной документации и норм с помощью NLP.
С появлением систем понимания смысла текстов, на горизонте 5–10 лет ожидается окончательное решение задачи нормализации номенклатур.
Медицина
Широкое внедрение голосовых интерфейсов позволит в значительной мере освободить врача от записей текста и создавать автоматически размеченные истории болезней. Появление больших размеченных корпусов текстов сделает возможным появление СППВР (систем поддержки принятия врачебных решений) нового класса на базе технологий NLP.
IT и телекоммуникации
Ожидается широкое применение технологий голосовой биометрии (аутентификации и авторизации человека по голосу) для предоставления услуг на основе персонифицированных данных. Телеком операторы получат возможность занять уникальное положение в экосистеме цифровых сервисов, обладая голосовым каналом связи с клиентом. С другой стороны, голосовые мессенджеры опираются на те же базовые технологии распознавания и синтеза речи. Нас ждет интересное время битв гигантов телеком индустрии с мессенджерами за голосовой канал с клиентом.
Юридическая практика
На горизонте 3–5 лет можно ожидать широкого внедрения технологий автоматической проверки договоров и шире — автоматизации договорной работы, в том числе проверка выполнения обязательств и т.п.
В ближайшие 5–10 лет можно ожидать появление моделей понимания юридических текстов. На их основе мы ожидаем появление систем, выдающих на вопрос пользователя, заданный на естественном языке, ответ, представляющий из себя сжатую справку по существующей нормативно-правовой документации, включая найденные противоречия и различные версии.
Компьютер для юриста перестанет быть справочником и станет полноценным инструментом поддержки принятия решений. Одной из главных задач компьютера юриста станет прогнозирование исхода судебного процесса с построением вероятностного дерева решений на базе существующей практики. Вероятно, большая часть этой работы будет происходить в облаке на обученных моделях огромного размера.
Массовое появление точечных сервисов, продуктов и компаний, решающих конкретную задачу в юридической плоскости.
Можно ожидать более глубокую интеграцию RPA-решений с технологиями NLP, что приведет к передаче рутинных задач по обработке информации и вводу данных к программным роботам.
И наконец, абсолютно завораживающе выглядит перспектива смарт-контрактов на блокчейне, автоматически генерирующихся на базе анализа юридически обязывающих документов, например договоров или NDA. Такое объединение технологий может вызвать к жизни самоисполняющиеся юридические документы, что само по себе пока звучит как фантастика, но уже недалеко от реализации.
Медиа и реклама
Нас ждет повсеместное внедрение персонализированного маркетинга на основе онлайн-анализа цифрового следа человека. Он будет включать глубокий анализ текстов человека и их тональности: негативная, позитивная оценка текста не в общем, а по отношению к конкретному продукту или бренду.
У каждого человека появится персональный помощник для покупок, который будет брать на себя до 90% рутинных покупок.
Появятся сервисы по автоматической генерации новостей для конкретной компании, основываясь на ее истории, внутренних и внешних событиях.
Наука и образование
В ближайшие 5–10 лет можно ожидать появление моделей понимания научных текстов. Мы ожидаем появление систем, выдающих ответ на вопрос пользователя, заданный на естественном языке, представляющий из себя сжатую справку по существующей научной литературе по этому вопросу, включая найденные противоречия и различные версии. Другое применение таких моделей — это рекомендательные системы для научных исследований или анализа патентных ландшафтов.
Такие системы кардинально изменят технологический ландшафт и ускорят трансфер технологий, за счет анализа и выявления экспертов и экспертных сообществ в заданной области на основе анализа источников научной и патентной информации.
Также на горизонте 5–10 лет мы ожидаем появление полноценных Teacher Assistent’ов для каждой дисциплины и в общем для образовательных учреждений. С другой стороны, появятся персональные помощники обучающегося, которые будут вести человека по персональной траектории образования на протяжении всей жизни. Взаимодействие этих интеллектуальных агентов, по видимому, также будет осуществляться на естественном языке.
Государство и безопасность
Государства все больше перемещают свои активности в медиа пространство и социальные сети. Возникшая в последние годы концепция «информационных войн» приобрела совершенно конкретные формы и требует новых видов «вооружения» и «защиты». Уже наблюдается мощный тренд и будет только расти спрос на обнаружение фальшивых новостей (fake news). К сожалению, можно также с уверенностью прогнозировать рост спроса на автоматизированную генерацию разного рода fake news. Будет развиваться применение ИИ как для создания ботов в социальных сетях, так и для их выявления.
Не менее важна и разведка. ИИ будет все больше применяться для анализа больших массивов информации о компаниях, людях и транзакциях в разной форме для решения прикладных задач типа поиска аффилированности и неявных связей компаний и физлиц.
С ростом количества людей, для государства становится все более насущной задача максимально автоматизировать общение с гражданином с целью предоставления ему тех или иных услуг. ИИ, вероятно в форме интеллектуальных агентов, будет активно применяться для персонификации и персонализации государственных и муниципальных сервисов для каждого гражданина — так называемые «когнитивные города» и «государство-как-сервис».
Полный Альманах «Искусственный интеллект» по NLP и распознаванию/синтезу речи можно скачать здесь.