Голосовые помощники не учатся на тесте Тьюринга08.08.2018 19:49

Три года назад чат-бот Соня Гусева стала победителем первого теста Тьюринга на русском языке. После трёх минут разговора, 47% судей приняли её за человека. Сегодня голосовые ассистенты Яндекса и Google соревнуются в умении общаться на великом и могучем. Конечно, помощник не обязан имитировать человека и не должен никого обманывать, но есть ли чему поучиться Алисе и Ассистенту у Сони?

Под катом авторские комментарии к реальному диалогу чат-бота с судьёй в тесте Тьюринга, а также сравнительный анализ поведения современных голосовых помощников.

Логи диалогов с теста Тьюринга 2015 года доступны всем желающим. В качестве примера я выбрал такой:

И — бот, С — судья

2015–06–03 12:04:13 И: я Соня Гусева, здраствуйте!
2015–06–03 12:04:25 С: Привет
2015–06–03 12:04:25 И: можно вас спросить кое-что?
2015–06–03 12:04:43 С: Конечно
2015–06–03 12:04:43 И: кто вы по знаку зодиака?
2015–06–03 12:04:54 С: Скорпион
2015–06–03 12:04:54 И: водные знаки — это люди, которые могут многое:)))
2015–06–03 12:05:24 С: У каждого человека есть потенциал
2015–06–03 12:05:24 И: хм…, а как вас зовут?
2015–06–03 12:05:37 С: Евгений
2015–06–03 12:05:37 И: будем занкомы, Евгений!
2015–06–03 12:05:54 С:, а как тебя зовут?
2015–06–03 12:05:54 И: Соня, я же сразу сказала :)))
2015–06–03 12:06:18 С: Да, совсем плохо с памятью
2015–06–03 12:06:18 И: ну, хорошо
2015–06–03 12:06:35 С: А чем ты занимаешься, Анна?
2015–06–03 12:06:35 И: не Анна, а Соня!!!
2015–06–03 12:06:53 С: Но все равно чем же ты занимаешься?
2015–06–03 12:06:53 И: ещё не решила
2015–06–03 12:07:03 С: Учишься?
2015–06–03 12:07:03 И: щас каникулы, а так я учусь в школе 506, перешла в 8 класс

Для анализа и сравнения Сони Гусевой, Алисы и Google Ассистента я пользуюсь критериями ЛЁГКОГО диалога. По каждому критерию расставляю ботов от 1 до 3 места, а затем суммирую результаты.

Л — Личностый

Соня Гусева создана специально для теста Тьюринга. И как у большинства подобных чат-ботов, у неё есть не только имя и фамилия, но и подробная легенда, включающая информацию об увлечениях, членах семьи, вплоть до конфликтов со школьными учителями (по легенде Соне 12 лет и она ходит в школу). Вы сможете отличить её по особой манере ставить смайлики и игнорировать некоторые правила письменной речи.

2015-06-03 12:05:54 С: а как тебя зовут?
2015-06-03 12:05:54 И: Соня, я же сразу сказала :)))

У Алисы тоже есть своя легенда, хоть и несколько ограниченная. Оно обладает своеобразным чувством юмора. Ещё, говорят, она влюблена в Константина Хабенского.

А вот личность Google Ассистента менее ярко выражена: имени у него действительно нет.

По личностному критерию места распределяются следующим образом: 1 — Победитель теста Тьюринга; 2 — Алиса; 3 — Google Ассистент.

Ё — Естественный

Соня усердно мимикрирует под человека: допускает ошибки, использует смайлы и серии знаков препинания для пущей выразительности, никогда не повторяется в рамках разговора.

2015-06-03 12:05:24 И: хм... а как вас зовут?
2015-06-03 12:05:37 С: Евгений
2015-06-03 12:05:37 И: будем занкомы, Евгений!

Алиса тоже держится по возможности естественно, но исключительно в границах грамотности и приличности, видимо, обозначенных брендом Яндекса. Google Ассистент приятно отличается живостью: использованием смайлов, отсутствием точек в конце предложений и несколькими баблами ответа.

Игнорирую естественность синтезированной речи, которой у Сони нет, и по естественности расставляю ботов так: 1 — Победитель теста Тьюринга; 2 — Google Ассистент; 3 — Алиса.

Г — Гибкий

Поведение Сони Гусевой ограничено тысячью правил. Для сравнения, у Евгения Густмана (прошедшего тест Тьюринга на английском языке в 2014 году) их было в три раза больше. Поэтому ответы Сони не всегда точно соответствуют вопросу.

2015-06-03 12:06:53 С: Но все равно чем же ты занимаешься?
2015-06-03 12:06:53 И: ещё не решила

В рамках болталки Алиса управляется не только жёстко заданными правилами, но и специальными алгоритмами, позволяющими ей давать подходящие ответы на реплики в самых разных формулировках и таким образом демонстрировать гибкость. В навыках Алиса не столь гибка: например, на прямой вопрос, будет ли завтра дождь, вместо прямого ответа она упорно сообщает прогноз.

Google Ассистент пока не понимает даже, казалось бы, простых формулировок.

По гибкости боты занимают места в таком порядке: 1 — Алиса; 2 — Победитель теста Тьюринга; 3 — Google Ассистент.

К — Контекстный

Соня Гусева активно наполняет контекст разговора, запрашивая информацию о пользователе и впоследствии используя её. Она понимает, что уже представлялась пользователю и адекватно реагирует, когда судья пытается игнорировать общий контекст.

2015-06-03 12:06:35 С: А чем ты занимаешься, Анна?
2015-06-03 12:06:35 И: не Анна, а Соня!!!

Алиса, увы, редко использует контекстную информацию. Google Ассистент хотя бы приветствует меня по имени.

По критерию контекста позиции ботов таковы: 1 — Победитель теста Тьюринга; 2 — Google Ассистент; 3 — Алиса.

И — Инициативный

При разработке чат-ботов я часто руководствуюсь правилом «И чё?»: если после реплики бота хочется сказать эту фразу, видимо, робот нарушает принципы кооперации и что-то идёт не так.

Следуя принципу «лучшая защита — это нападение», Соня Гусева смело перехватывает инициативу и ведёт разговор.

2015-06-03 12:04:25 И: можно вас спросить кое-что?
2015-06-03 12:04:43 С: Конечно
2015-06-03 12:04:43 И: кто вы по знаку зодиака?
2015-06-03 12:04:54 С: Скорпион

Алиса тоже делает попытки продемонстрировать смешанную инициативу, иногда задавая вопросы. А Google Ассистент, хоть и предлагает подсказки, инициативу предпочитает оставлять за собеседником.

По критерию инициативы места распределяются так: 1 — Победитель теста Тьюринга; 2 — Алиса; 3 — Google Ассистент.

Й — И краткое

Все ответы Сони выверены по длине, впрочем Алиса и Google Ассистент тоже следят за речью и в рамках болталки стараются соблюдать правило «одного дыхания» для своих реплик. А вот в навыках этот принцип часто игнорируется.

Отдаю 1-е место победителю теста Тьюринга, а 2-е делят Алиса и Google Ассистент.

Заключение

Как автор одного из чат-ботов, я не мог быть объективным, в результате Соня Гусева оказалась на первом месте. Что касается помощников от Яндекса и Google, они показали схожие результаты. Надо понимать, что их показатели во многом зависят от сторонних разработчиков навыков.

Повторюсь, что голосовые помощники не ставят себе цель пройти тест Тьюринга и для их полноценного сравнения нужны иные проверки. Однако, как показывает проведённый анализ, создатели Алисы и Google Ассистента при проектировании диалогов взяли на вооружение некоторые принципы первых чат-ботов, и разработчикам приложений с разговорным интерфейсом есть чему поучиться у ботов-победителей.