Голосовые помощники не учатся на тесте Тьюринга
Три года назад чат-бот Соня Гусева стала победителем первого теста Тьюринга на русском языке. После трёх минут разговора, 47% судей приняли её за человека. Сегодня голосовые ассистенты Яндекса и Google соревнуются в умении общаться на великом и могучем. Конечно, помощник не обязан имитировать человека и не должен никого обманывать, но есть ли чему поучиться Алисе и Ассистенту у Сони?
Под катом авторские комментарии к реальному диалогу чат-бота с судьёй в тесте Тьюринга, а также сравнительный анализ поведения современных голосовых помощников.
Логи диалогов с теста Тьюринга 2015 года доступны всем желающим. В качестве примера я выбрал такой:
2015–06–03 12:04:13 И: я Соня Гусева, здраствуйте!
2015–06–03 12:04:25 С: Привет
2015–06–03 12:04:25 И: можно вас спросить кое-что?
2015–06–03 12:04:43 С: Конечно
2015–06–03 12:04:43 И: кто вы по знаку зодиака?
2015–06–03 12:04:54 С: Скорпион
2015–06–03 12:04:54 И: водные знаки — это люди, которые могут многое:)))
2015–06–03 12:05:24 С: У каждого человека есть потенциал
2015–06–03 12:05:24 И: хм…, а как вас зовут?
2015–06–03 12:05:37 С: Евгений
2015–06–03 12:05:37 И: будем занкомы, Евгений!
2015–06–03 12:05:54 С:, а как тебя зовут?
2015–06–03 12:05:54 И: Соня, я же сразу сказала :)))
2015–06–03 12:06:18 С: Да, совсем плохо с памятью
2015–06–03 12:06:18 И: ну, хорошо
2015–06–03 12:06:35 С: А чем ты занимаешься, Анна?
2015–06–03 12:06:35 И: не Анна, а Соня!!!
2015–06–03 12:06:53 С: Но все равно чем же ты занимаешься?
2015–06–03 12:06:53 И: ещё не решила
2015–06–03 12:07:03 С: Учишься?
2015–06–03 12:07:03 И: щас каникулы, а так я учусь в школе 506, перешла в 8 класс
Для анализа и сравнения Сони Гусевой, Алисы и Google Ассистента я пользуюсь критериями ЛЁГКОГО диалога. По каждому критерию расставляю ботов от 1 до 3 места, а затем суммирую результаты.
Л — Личностый
Соня Гусева создана специально для теста Тьюринга. И как у большинства подобных чат-ботов, у неё есть не только имя и фамилия, но и подробная легенда, включающая информацию об увлечениях, членах семьи, вплоть до конфликтов со школьными учителями (по легенде Соне 12 лет и она ходит в школу). Вы сможете отличить её по особой манере ставить смайлики и игнорировать некоторые правила письменной речи.
2015-06-03 12:05:54 С: а как тебя зовут?
2015-06-03 12:05:54 И: Соня, я же сразу сказала :)))
У Алисы тоже есть своя легенда, хоть и несколько ограниченная. Оно обладает своеобразным чувством юмора. Ещё, говорят, она влюблена в Константина Хабенского.
А вот личность Google Ассистента менее ярко выражена: имени у него действительно нет.
По личностному критерию места распределяются следующим образом: 1 — Победитель теста Тьюринга; 2 — Алиса; 3 — Google Ассистент.
Ё — Естественный
Соня усердно мимикрирует под человека: допускает ошибки, использует смайлы и серии знаков препинания для пущей выразительности, никогда не повторяется в рамках разговора.
2015-06-03 12:05:24 И: хм... а как вас зовут?
2015-06-03 12:05:37 С: Евгений
2015-06-03 12:05:37 И: будем занкомы, Евгений!
Алиса тоже держится по возможности естественно, но исключительно в границах грамотности и приличности, видимо, обозначенных брендом Яндекса. Google Ассистент приятно отличается живостью: использованием смайлов, отсутствием точек в конце предложений и несколькими баблами ответа.
Игнорирую естественность синтезированной речи, которой у Сони нет, и по естественности расставляю ботов так: 1 — Победитель теста Тьюринга; 2 — Google Ассистент; 3 — Алиса.
Г — Гибкий
Поведение Сони Гусевой ограничено тысячью правил. Для сравнения, у Евгения Густмана (прошедшего тест Тьюринга на английском языке в 2014 году) их было в три раза больше. Поэтому ответы Сони не всегда точно соответствуют вопросу.
2015-06-03 12:06:53 С: Но все равно чем же ты занимаешься?
2015-06-03 12:06:53 И: ещё не решила
В рамках болталки Алиса управляется не только жёстко заданными правилами, но и специальными алгоритмами, позволяющими ей давать подходящие ответы на реплики в самых разных формулировках и таким образом демонстрировать гибкость. В навыках Алиса не столь гибка: например, на прямой вопрос, будет ли завтра дождь, вместо прямого ответа она упорно сообщает прогноз.
Google Ассистент пока не понимает даже, казалось бы, простых формулировок.
По гибкости боты занимают места в таком порядке: 1 — Алиса; 2 — Победитель теста Тьюринга; 3 — Google Ассистент.
К — Контекстный
Соня Гусева активно наполняет контекст разговора, запрашивая информацию о пользователе и впоследствии используя её. Она понимает, что уже представлялась пользователю и адекватно реагирует, когда судья пытается игнорировать общий контекст.
2015-06-03 12:06:35 С: А чем ты занимаешься, Анна?
2015-06-03 12:06:35 И: не Анна, а Соня!!!
Алиса, увы, редко использует контекстную информацию. Google Ассистент хотя бы приветствует меня по имени.
По критерию контекста позиции ботов таковы: 1 — Победитель теста Тьюринга; 2 — Google Ассистент; 3 — Алиса.
И — Инициативный
При разработке чат-ботов я часто руководствуюсь правилом «И чё?»: если после реплики бота хочется сказать эту фразу, видимо, робот нарушает принципы кооперации и что-то идёт не так.
Следуя принципу «лучшая защита — это нападение», Соня Гусева смело перехватывает инициативу и ведёт разговор.
2015-06-03 12:04:25 И: можно вас спросить кое-что?
2015-06-03 12:04:43 С: Конечно
2015-06-03 12:04:43 И: кто вы по знаку зодиака?
2015-06-03 12:04:54 С: Скорпион
Алиса тоже делает попытки продемонстрировать смешанную инициативу, иногда задавая вопросы. А Google Ассистент, хоть и предлагает подсказки, инициативу предпочитает оставлять за собеседником.
По критерию инициативы места распределяются так: 1 — Победитель теста Тьюринга; 2 — Алиса; 3 — Google Ассистент.
Й — И краткое
Все ответы Сони выверены по длине, впрочем Алиса и Google Ассистент тоже следят за речью и в рамках болталки стараются соблюдать правило «одного дыхания» для своих реплик. А вот в навыках этот принцип часто игнорируется.
Отдаю 1-е место победителю теста Тьюринга, а 2-е делят Алиса и Google Ассистент.
Заключение
Как автор одного из чат-ботов, я не мог быть объективным, в результате Соня Гусева оказалась на первом месте. Что касается помощников от Яндекса и Google, они показали схожие результаты. Надо понимать, что их показатели во многом зависят от сторонних разработчиков навыков.
Повторюсь, что голосовые помощники не ставят себе цель пройти тест Тьюринга и для их полноценного сравнения нужны иные проверки. Однако, как показывает проведённый анализ, создатели Алисы и Google Ассистента при проектировании диалогов взяли на вооружение некоторые принципы первых чат-ботов, и разработчикам приложений с разговорным интерфейсом есть чему поучиться у ботов-победителей.