Интервью с «главным по Алисе»

habr.png

Почему Алиса, а не Макс, в чем был не прав бывший министр связи Никифиров, зачем запускать Tesla в космос. На эти и другие вопросы дал ответ создатель Алисы Борис Янгель.

RUVDS совместно с Хабром начинают проект, состоящий из серии интервью с интересными, на наш взгляд, людьми в IT-среде. Сегодня мы представляем интервью с руководителем группы разработки диалоговых систем в Яндексе, Борисом Янгелем. Интервью помогли подготовить Лера Негря и редактор Хабра Николай Землянский.

Смотрите видео или читайте под катом текст интервью.


Привет. Я Лера Негря, и сегодня у нас в гостях руководитель группы разработки диалоговых систем в Яндексе — Борис Янгель. Начнем мы конечно же с твоей работы, чем ты сейчас занимаешься в Яндексе?

— Сейчас в Яндексе мой основной проект это Алиса, голосовой помощник, который Яндекс запустил в октябре прошлого года, и моя группа отвечает за то, что можно условно назвать мозгами Алисы. Мы интерпретируем то, что сказал пользователь на естественном языке и превращаем это в некоторое структурированное представление. Это первая наша задача, а вторая — это когда мы уже знаем что нужно ответить пользователю, превратить это в ответ тоже на естественном языке.

— Ты в этой должности работаешь уже на протяжении двух лет. Все это время вы занимались разработкой. Не поздним ли был выпуск голосового помощника на фоне того, что конкуренты выпустили его раньше?

— Нет конечно, совсем не поздно. Если мы посмотрим на конкурентов, кто реальный конкурент? Есть Siri, единственный голосовой помощник, который тоже понимает русский язык, но он работает только на iOS и MacOS, это как бы не самая популярная платформа в России, и к Siri как к продукту тоже есть определенные вопросы. Дальше, допустим, Google бы уже запустил свой Google-ассистент на русском, стоило бы в это ввязываться? Ну может быть все равно стоило, потому что можно попробовать с Гуглом побороться на своей территории за аудиторию, тем более что с поиском это у нас более-менее получается. Ну и, наверное, последний поинт тут важный: то, что мы сейчас видим, это заря эры диалоговых систем, и на самом деле ни Google, ни Apple, ни, наверное, мы еще пока не знаем как нормально их делать. Если сравнивать с поисковыми системами, с тем что происходило в начале 2000-ых годов, это условно эпоха Альтависты, когда вроде какие-то продукты есть, но работают они пока на каких-то непонятных принципах и работают так себе, и в любой момент может прийти условный Google и изменить индустрию полностью. Поэтому конечно в нее сейчас все еще стоит заходить. Очень много технологических вызовов и проблем, которые еще не решены. Может прийти новый игрок и все перевернуть, и мы на самом деле тут в чуть более выигрышном положении, потому что мы начали позже, а значит у нас меньше legacy-стека, то есть мы можем сразу работать с новыми технологиями. А у Siri, например, которую сделали бог знает когда, очень много старого кода который уже сложно модифицировать, и они из-за этого сталкиваются с кучей проблем.

— В своем выступлении на академии Яндекса ты говорил о том, что вы поймали некий поезд хайпа. Как это удалось и не ушел ли этот поезд сейчас?

— Наверное удалось это в первую очередь благодаря очень смелому решению, которое было принято в нашем продукте. У всех конкурентов есть какое-то количество сценариев, которое прописано жестко в этих продуктах: «мы можем отвечать на такой и на такой вопрос, разговаривать про погоду или еще про что-то, и если то, что говорит пользователь не попадает ни под один из этих сценариев, то мы отвечаем какой-то заглушкой типа «Извините, я вас не поняла». Мы решили поступить по-другому и сделали нейросетевой модуль, который в таких ситуациях может ответить что-нибудь, что может будет уместно в контексте предыдущего диалога, и по сути он может общаться с пользователем на любую тему. Может быть не всегда на 100% уместно, но больше чем в половине случаев он точно может говорить какие-то вещи, которые нужно было сказать в этот момент. И наш модуль много такого наговорил, что понравилось пользователям. Смешные ответы Алисы, которые не мы туда заложили, а которые сгенерировала она сама, моментально расползлись по социальным сетям, это  и создало тот самый поезд хайпа. Он конечно понемногу уходит, это неизбежно, все эти шутки приедаются, но мы стараемся развивать продукт дальше и ловить хайпа понемножку там, где можем.

— Вы пытались сделать Алису максимально интересной именно российскому пользователю. Как выбирался голос и вообще, почему она Алиса?

— Я честно говоря не участвовал в процессе выбора голоса и не знаю, по каким принципам он осуществлялся, кроме того, что это классный голос российской актрисы Татьяны Шитовой, которую все любят, достаточно узнаваемый.

Я могу рассказать про имя Алиса и про характеристики. Мы подумали и выписали ряд свойств которыми мы бы хотели чтобы обладал ассистент. Например, он должен не быть заносчивым, помогать человеку, быть дружелюбным, быть интеллектуальным, то есть какой-то набор положительных и отрицательных свойств. И дальше мы задали на нашей краудсорсинговой платформе людям вопросы, например, вот это имя у вас ассоциируется с таким свойством или нет? Посмотрели, какие имена, которые мы заранее из каких-то принципов выбрали, больше соотносятся с положительными свойствами чем с отрицательными, и по этому критерию имя Алиса просто уничтожило всех остальных конкурентов из шорт-листа. Это вероятно связано с тем, что у этого имени в русской культуре есть какие-то положительные аннотации, например Алиса в стране чудес, Алиса Селезнева, классические примеры. И также это касается фонетических свойств имени. Поскольку это то имя которым будут обращаться к Алисе, нужно чтобы там не было каких-то звуков, которые некоторым людям будет сложно произнести. Например буквы «Р» там точно быть не должно, шипящих также не должно. Имя Алиса этим свойствам удовлетворяет.

— Почему Алиса, а не Макс, почему она не мужчина?

— На самом деле, проводилось немало исследований, и женщина — это более безопасный выбор. Эволюция нас так устроила, что женщина — это мать, что-то безопасное, родное, а мужчина это воин, который копьем просто придет и заколет тебя. Поэтому ассистент-женщина — это нормально и для женщин и для мужчин, а вот если ассистент мужчина, то таким продуктом уже меньше будут пользоваться.

— Несколько лет назад произошла не совсем приятная история, когда чат-бот Майкрософт повел себя совсем не корректно. А был ли подобный риск с Алисой или возможно даже случались подобные ситуации?

— Конечно было, и мы про эту историю очень много думали, когда Алису запускали. Как раньше я уже говорил, у нас есть нейросетевой модуль который отвечает в любой ситуации, а не только в рамках какого-то сценария. И у него есть абсолютная свобода, на самом деле. В рамках каких-то ограничений которые мы задаем, у него есть свобода говорить, и он может в каких-то ситуациях говорить вещи, которые мы бы не хотели чтобы он говорил. У нас язык очень мощный и богатый, есть миллиард способов согласиться с чем-нибудь или не согласиться, мы их все никогда не исчислим. Как запретить ей соглашаться, когда у нее спрашивают про что-нибудь опасное, это уже очень сложная исследовательская задача.

— Это как-то связано с тем, что она часто говорит: «Я не хочу говорить об этом»?

— Она говорит «Я не хочу говорить об этом», когда мы понимаем, что вот сейчас слишком опасная ситуация для того чтобы нейросетевой модуль давал ответ. На самом деле, если разрешить Алисе говорить только да или нет, этого уже достаточно чтобы оскорбить кого угодно. У нее достаточно спросить: «Поддерживаешь ли ты Х» где Х — это фашизм, геноцид, что угодно. Если она скажет да, все, пиши пропало.

— После окончания университета ты сразу приступил к работе в Яндексе, это был отдел, который занимается поиском картинок по текстовому запросу. После этого внезапно ли было принято решение работать в Microsoft Research в Кембридже?

— Ну не то чтобы внезапно, это было закономерно. Я поработал в Яндексе, мне захотелось развиваться дальше, заниматься какими-то более сложными вещами.

— А в Яндексе не получалось?

— В Яндексе, с одной стороны, получалось, с другой стороны, я в Яндексе уже начал руководить группой, которая отвечала за качество поиска по картинкам. Я, наверное, был не очень хорошо готов к работе руководителя, и она мне не очень нравилась, я любил да и сейчас люблю программировать, а работа оставляла очень мало возможностей для этого, если только не хочешь по 16 часов в день работать. Мне это не очень нравилось, мне хотелось  развиваться именно как программисту, специалисту по анализу данных, и тут подвернулся отличный вариант, вакансия в Майкрософт, как бы очень релевантная моему бекграунду.

— А чем ты там занимался?

— Есть такая область в машинном обучении, байесовский вывод называется. Это про то, как в условиях неполной информации принимать абсолютно рациональные решения, такое, что можно было бы доказать, что более рациональное решение принять в этой ситуации было нельзя. Я работал в команде, которая занималась созданием программной библиотеки, с помощью которой можно бы было пользоваться всей мощью этого математического аппарата чтобы принимать решения в каких-то ситуациях. По сути это библиотека для машинного обучения, просто основана на немного специфических принципах, нетрадиционных.

— И работа там подготовила к руководящей должности?

— Нет, когда я вернулся из Кембриджа обратно в Яндекс, я, честно говоря, попросил никем не руководить, сказал, по возможности можно я буду писать код, мне очень нравится писать код. Я при этом занимался не самыми важными для компании проектами и не в полной мере раскрывал свой функционал. Сначала я занимался разработкой бэкенда для некоторых экспериментальных мобильных приложений, потом в группе нейросетей развивал методы текстовой классификации, и в какой-то момент руководство решило: почему бы тебе Боря не заняться чем-нибудь полезным, иди делай Алису.

— Два года назад в прессе активно обсуждалось то, что фундаментальное ИТ-образование, по крайней мере, в нашей стране недостаточно развито. Насколько ты был подготовлен? Что тебе помогло? Это школа Яндекса, или ты достаточно уверенно чувствовал себя уже после университета?

— Программировать я умею потому что я просто много программировал. В детстве сидел за компьютером и программировал, в университете тоже. Там все шли куда-нибудь на пьянку, а я или тоже шел на пьянку, или сидел программировал и с первого курса практически понемногу работал в реальных компаниях, в индустрии набирался опыта. Этих фундаментальных знаний оказалось достаточно, чтобы разобраться в остальных вещах, которые нужны уже непосредственно чтобы работать самому. Школа анализа данных, конечно помогла, это классная инициатива которая дает те знания, которых не хватает сейчас на выходе из вуза. Я там, правда, всего один год проучился, потому что очень уж много времени требовалось, там столько заданий, такие сложные. Я тогда уже в Яндексе работал просто у меня времени не осталось. Но в целом я бы порекомендовал всем туда идти.

— По мнению бывшего министра связи Никифорова, в нашей стране уже слишком много программистов, слишком много специалистов в ИТ-области. Так ли это? Достаточно ли много действительно хороших специалистов?

— Я не знаю, как господин Никифоров считает, но вот как человек, которому нужно нанимать непосредственно специалистов к себе в команду, я испытываю колоссальные проблемы с наймом. У нас довольно сложная задача, и требуются специалисты с уровнем выше среднего. Таких специалистов, которые мне нужны, на рынке практически нет, все, которые есть, скорее всего, работают уже в Яндексе, ну еще в каком-то небольшом количестве других мест. Я не знаю, кого он считает программистами, но высококлассных специалистов, особенно в области нейронных сетей, глубинного обучения, в стране очень мало.

— В чем ты видишь смысл своей работы, как в отдельной компании, так и в общем и целом в индустрии?

— Наверное, если глобально смотреть на вещи, было бы здорово придумать что-нибудь классное, технологию или идею такую, что люди, которые в индустрию после меня придут, свои какие-то разработки будут на технологии этой строить. То есть она как бы войдет в фундамент, на котором все постепенно строится. Не знаю, что это будет, но хотелось бы хотя бы небольшой какой-то такой свой след оставить, и это сделать проще, наверное, если развиваться как руководителю, потому что тогда появляется больше ресурсов, можно пробовать какие-то более глобальные и амбициозные идеи. Но если прям руку на сердце положить, я не могу сказать, что мне очень нравится руководить людьми, это реально тяжелая работа, она отнимает много времени, сил моральных и не дает заниматься тем, чем я люблю заниматься — программировать. Поэтому я хотел бы развиваться в такую сторону, которая мне позволит оптимальный баланс найти между масштабом вещей, которые я могу делать и на которые я могу влиять, и возможностью непосредственно делать эти вещи своими руками. Для индустрии в целом это более интересный вопрос. Мне кажется, с голосовыми интерфейсами сейчас происходит то же самое, что происходило с графическими интерфейсами, когда они только стали появляться, когда первые цветные мониторы появились, и мы перешли от консолей где нужно было вводить команды, на какие-то кнопочки на которые можно было нажимать. И когда они только появились, никто не знал как их нормально делать, не было никаких парадигм, архитектурных паттернов, фреймворков, все делали кто во что горазд, и интерфейсы получались кривыми, убогими, их делать было очень сложно, код читать невозможно, но люди думали про это, и постепенно вырисовались какие-то красивые концепции как делать эти интерфейсы, появились удобные инструменты, и сейчас сайт с каким-нибудь достаточно сложным  интерфейсом профессионал в этой области может сделать очень быстро. Мы думаем, как же то же самое провернуть с голосовыми интерфейсами. Какие должны быть инструменты, чтобы их можно было делать удобно и чтобы они получались хорошими. Даже если бы вдруг у нас не получился хороший продукт, может быть, мы бы принесли пользу всей индустрии целиком, придумав что-нибудь в этом направлении.

— Что может прийти на смену Алисе?

— Не знаю что это будет. Какой интерфейс еще удобнее мог бы быть чем голосовой… Наверное управление силой мысли, что-нибудь такое.

— Если Алиса умрет, тебе будет грустно?

— Я останусь без работы, да, мне будет грустно.

— Крупные компании, крупные проекты, какие на твой взгляд первые кандидаты на вылет?

— Ну я, наверное, не буду никаких названий называть, это было бы неправильно. Не могу сказать, что кто-то кандидат на вылет, потому что он делает плохой продукт. Где бы я ожидал провалов, так это там где для развития бизнеса нужны какие-нибудь субсидии. Например, рынок такси, или какая-нибудь условная доставка еды — Food Fox, Deliveru Club. С одной стороны, это ИТ-проекты, с другой стороны, они с реальным миром взаимодействуют. Туда чтобы зайти, нужно сейчас очень много субсидировать, демпинговать конкурентов, чтобы сделать очень выгодные цены, выдавить всех с рынка и потом уже повысить цены. Это приводит к тому, что туда очень многие приходят и сгорают просто потому, что у них кончаются деньги. Никого выдавить они не успевают, а мастодонты типа яндекс такси на каких-то рынках убера раздавливают всех.

— Криптовалюты. Вкладываешься, нет, вкладывался, какие, почему.

— Я не самый успешный криптоинвестор, я один из тех людей, которые решили немного вложиться в самый неподходящий момент, конечно же, и теперь сидят и надеются что все-таки биткоин отрастет обратно. Не делайте как я.

— Тебя пытались переманить конкуренты?

— Да, обычно я отвечаю, что сейчас не ищу никакой другой работы.

— Если бы не ИТ то, что тогда?

— Я не знаю, я увлекаюсь парашютным спортом, может тогда я бы стал инструктором по парашютному спорту.

— Зачем запускать Tesla в космос?

— Потому что это круто.

— Спасибо большое, Борис. Еще несколько вопросов тебе задаст наш сегодняшний гость Николай Землянский, редактор Хабра.

— Привет, Борис. Я хочу вспомнить недавно вышедший фильм, «Бегущий по лезвию 2049», там у Агента K была андроид-помощница. Не помню, как ее звали, пусть будет Маша. Когда они общались и ему что-то не нравилось он мог сказать: «Маша, стервозность минус три» или «Маша сексуальность плюс пять». В зависимости от этого подстраивалось общение с помощницей. Как ты думаешь насколько это реально в обозримом будущем и есть ли вообще в этом смысл?

— Я уже немного рассказывал про то, как мы боремся с оскорбительностью ответов Алисы. Это все на самом деле одна большая история и вот почему. Чтобы Алиса не оскорбляла собеседника, мы фактически учим некоторые модели предсказывать, является тот или иной ответ оскорбительным, и если да, то в какой степени. Сейчас мы пользуемся этими моделям по очень простому принципу: если модель говорит, что ответ оскорбительный, мы не даем ей ответить. В терминах, которыми ты говоришь, мы выкручиваем оскорбительность ответа на ноль. На самом деле у нас уже есть модель которая оценивает градацию этой оскорбительности, и если бы возникла продуктовая необходимость, мы уже могли бы сделать такой ползунок который делает ответы более или менее дерзкими. Подход, который мы используем для этого, можно и к другим характеристикам поведения системы применить. Это, конечно, потребует какой-то работы определенной для каждой конкретной характеристики, но сделать такого ассистента, характеристики которого можно ползунками настраивать, можно будет не через 20 лет, а уже довольно скоро, как мне кажется.

— Раз ты сказал, что это не такой далекий вопрос, как я думал изначально, то вспомню следующий фильм, это фильм чуть более ранний, фильм «Она». Это фильм о мужчине который влюбился в голосовую помощницу, которая управляла его домом. Весь фильм разворачивается на трагедии взаимоотношений. Как ты считаешь, такой сценарий вообще возможен, когда и какие могут быть с этим связаны проблемы?

— Это интересный вопрос, это то, что мы называем продуктовыми вопросами, а не технологическими. Решение по ним мы обычно принимаем с помощью экспериментов. Я могу пофантазировать почему это хорошо или почему это плохо. Если бы мы стали так делать, то в конечном итоге сделали бы две модели и посмотрели, какая пользуется большей популярностью у пользователей. Чтобы сделать такую виртуальную помощницу в которую можно было бы влюбиться, нам нужно как минимум научиться проходить тест Тьюринга причем нормально. То есть сделать действительно правдоподобную имитацию человеческого интеллекта и наделить помощницу какими-то характеристиками, сделать ее не просто бездушной машиной, а эмоциональной. Это все решаемые проблемы, как мне кажется, с технологической точки зрения, но не в ближайшие несколько лет. Потом, конечно, нам захочется, чтобы она была не только виртуальной. Наверное, в виртуальную даже проще влюбиться:  когда мы ее не видим, она существует для нас где-то в компьютере как виртуальный собеседник в мессенджере, нам проще поверить, что это человек. Если бы это был робот, который бы ходил и как-то себя вел, это могло бы разрушить иллюзию.

Есть такая проблема, которая называется «зловещая долина» по-русски, психологическая проблема, которая заключается в том, что если сделать имитацию человека очень правдоподобной, но вот совсем чуть-чуть неправдоподобной — какая-то мимика мельчайшая будет выдавать, что это не человек — то у нас подсознательно в мозге это вызывает резкое отторжение, резкий негатив. Если сделать такого робота «почти человеческого», то это вообще не зайдет. Нужно решить эту проблему и сделать сверхправдоподобную человеческую имитацию.

— Здорово, что ты вспомнил про эту проблему. Мне интересно, она актуальна для взаимодействия с голосом, то есть не когда человек видит объект, а когда слышит и воспринимает как-то иначе?

— Как мне кажется, для голосовых интерфейсов, по причинам, о которых я чуть раньше говорил, это намного менее актуально, потому что когда ты общаешься с кем-то не вживую, а через какое-то устройство, не взаимодействуешь напрямую с человеком — это почти то же самое, как ты общаешься с реальным собеседником с помощью устройства, намного меньше отличий. Если бы вы общались в текстовом чате, то отличий было бы еще меньше, потому что элемент с голосом ушел бы. Соответственно, эта проблема все менее остро стоит, все меньше вещей, за которые твой мозг мог бы зацепиться и счесть, что его пытаются обмануть. В случае с человеческими лицами и мимикой это, видимо, какой-то древний эволюционный механизм, как-то он нам прошит в голову. А мессенджер и чат — это же совсем новое, у нас нету никаких странных поведенческих механизмов, с ними связанных, и не будет уже.

— То есть чем меньшее количество каналов чувственного взаимодействия, тем проще этой проблемы избежать.

— Как мне кажется, да, тем меньше вещей, которые могут выдать в твоем собеседнике имитацию интеллекта, имитацию личности.

— В принципе, я с тобой согласен, хотя знаешь, я недавно читал, что уже почти половину японских мужчин не смущает отличие тела андроида от тела реальной женщины.

— В Японии очень интересная культура, там все по-другому.

— Меня как гуманитария интересует вопрос. Есть ли место в разработке голосовых помощников не программистам? Потому что теоретически это работа с речью, работа с голосом, это психология, лингвистика. Можно ли устроиться в этой сфере, имея такую специальность?

— Отличный вопрос. У Google, насколько я знаю, над Google-ассистентом работает в том числе команда сценаристов и психологов, которая занимается непосредственно созданием личности и всех аспектов с этим связанных. У нас как бы масштабы пока не такие, но, тем не менее, мы с самого начала работы над Алисой привлекаем разнообразных специалистов гуманитарных специальностей. Безусловно, для такой работы есть место, и мы дальше больше будем прибегать к услугам таких специалистов.

— То есть вы это делаете, но пока отдельного подразделения в Яндексе под эти цели не отводится, да?

— Пока да. Это достаточно закономерно для Яндекса. У нас по мировым меркам не очень большая компания, которая, однако, делает миллион вещей. У нас один человек делает намного больше чем в Google, и мы пока еще не можем себе позволить нанимать огромные команды сценаристов, для того чтобы делать такие вещи. Но чем больше мы растем, тем больше таких специалистов становится.

— Есть ли смысл например переводить голосовой помощник с английского на русский, как с той же Siri. Или есть ли смысл в будущем перевести Алису на английский?

— Мне кажется, во-первых, перевод не совсем правильный термин, который может ввести в заблуждение. Это же не так работает, что у нас есть помощник на русском, а потом мы берем то, что сказал пользователь, и переводим с английского на русский, а то что сказала Алиса, переводим с русского на английский. Это будет работать очень плохо. Например, для того чтобы это работало на другом рынке, американском или каком-нибудь еще англоговорящем, нам нужно очень много разнообразных данных для этого языка. Грубо говоря, когда пользователи в Америке ищут где поесть, им нужно совсем не то же, что в России. Мы ничего не знаем о том что они ищут и как они спрашивают. У компании, которая работает на этом рынке, есть уже огромное количество данных на которых можно обучать их поисковые системы, системы выдачи ответов на вопросы. У нас такие данные по сути есть только для русского рынка, поэтому выйти на какой-то другой рынок достаточно тяжело. Та же самая проблема, почему у Гугла нету практически конкурентов — невозможно просто взять, пойти куда-то, сделать свой поисковый движок. Качество поиска будет намного хуже, потому что нету данных взаимодействия с живыми пользователями, на которых все качество современных поисковых систем и строится.

— То есть если доступен большой пласт локальных данных, то, в принципе, перевести можно, я правильно тебя понимаю?

— Да, наверное можно так сказать, в принципе да. Но данные, которые нужны, местами очень дорогие и могут быть недоступны. Допустим, сделать распознавание речи для какого-то языка или синтез речи — это не очень большая проблема, у нас есть опыт разработки распознавания речи для других языков. Для этого нужно просто записать сколько-то десятков сотен часов речи, когда дикторы читают определенный текст и обучить на этом систему. А вот взаимодействие живых пользователей с поисковой системой — то без чего ни один нормальный ассистент не сделать, потому что он должен искать информацию, помогать тебе, давать ответы на вопросы. Этих данных скорее всего не будет, Google их не продаст никому.

— Спасибо Борис, было очень здорово с тобой пообщаться.

— Всегда пожалуйста.

© Habrahabr.ru