Разработан алгоритм, способный распознавать сарказм08.08.2017 13:06

Видео MIT Media Lab

Вначале ученые хотели разработать систему, способную распознавать расистские посты в Twitter. Однако в скором времени они обнаружили, что значение некоторых сообщений нельзя «схватить» целиком, не понимая сарказма.

Технологии
Лунный заговор как тест на профпригодность: они были на Луне
Технологии
iPhone на колесиках: городской транспорт по‑русски

Алгоритм использует технологию глубокого обучения (крупную нейросеть учат распознавать крошечные паттерны при помощи большого количества метаданных). Многие твиты содержат в себе нечто похожее на систему знаков для выражения эмоций — эмодзи. Как только ученые воспользовались этим для обучения системы, она сразу стала лучше понимать сарказм. Нейросеть уловила связь между определенным языковым стилем и соответствующими смайлами.

Чтобы натренировать алгоритм (названный DeepMoji), исследователи собрали 55 млрд твитов и отобрали 1,2 млрд — в них содержались некоторые комбинации из 64 популярных эмодзи. Для начала они обучили систему предсказывать, какой из смайлов будет использоваться при определенном сообщении, в зависимости от того, какое оно — грустное, радостное, веселое и т. д. После этого систему обучали идентифицировать сарказм с помощью существующего набора данных.

Испытания DeepMoji прошли успешно. Ученые обнаружили, что алгоритм функционирует лучше существовавших до него.

Разработчики создали специальный сайт, где каждый может протестировать работу нового алгоритма. Так, когда вы введете определенное предложение, программа автоматически «додумает» возможные смайлы, подходящие по смыслу.