Великое пробуждение искусственного интеллекта — Эволюция машинного обучения в трёх историях о «Google Переводчике»

Издание The New York Times Magazine опубликовало статью, в которой рассказывается, как «Google Переводчик» научился переводить почти как человек, что такое искусственный интеллект и причем тут кошки и «Китайская комната». Редакция vc.ru публикует перевод статьи, выполненный создателем сообщества Newoчём Артёмом Слободчиковым.

Пролог: Ты — то, что ты читаешь

Однажды поздней пятничной ночью в начале ноября Юн Рекимото, известный профессор в сфере взаимодействия человека с компьютером из Токийского университета, искал в сети материалы для лекции, как вдруг он заметил, что в социальных сетях стали появляться интересные публикации.

Судя по всему, «Google Переводчик», популярный сервис машинного перевода, внезапно и практически неизмеримо улучшился. Рекимото сам зашел на сайт переводчика и начал экспериментировать. Он был поражен. Давно пора было идти спать, но «Переводчик» крепко вцепился в его воображение.

Свои изыскания Рекимото описал в блоге. Сначала он взял несколько предложений из двух опубликованных версий «Великого Гэтсби», перевода Такаши Нозаки от 1957 года и более позднего варианта Харуки Мураками, и сравнил их с тем, как эти же предложения обработал «Google Переводчик».

Как потом объяснил мне в переписке Рекимото, перевод Мураками написан «на очень четком японском языке», но стиль у писателя всё равно достаточно сложный. Вариант Google, напротив, хоть и содержал некоторые «неестественные места», в целом был «более понятным».

Во второй половине поста Рекимото описывались способности сервиса в обратном переводе — с японского на английский. Профессор взял собственный перевод первого абзаца из «Снегов Килиманджаро» Хемингуэя, пропустил его через «Google Переводчик» и на выходе получил версию на английском. Рядом с ней он опубликовал оригинал Хемингуэя и предложил своим читателям угадать, какой из вариантов создала машина.

№ 1
Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai «Ngaje Ngai», the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.


№ 2
Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called «Ngaje Ngai» in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.

Перевод на русский (Н.А. Волжина):

Килиманджаро — покрытый вечными снегами горный массив высотой в 19710 футов, как говорят, высшая точка Африки. Племя масаи называет его западный пик»Нгайэ-Нгайя», что значит «Дом бога». Почти у самой вершины западного пика лежит иссохший мерзлый труп леопарда. Что понадобилось леопарду на такой высоте, никто объяснить не может.

Даже для носителя языка второй вариант выдаст только отсутствующий артикль про леопарда — именно эту версию создала машина. То, насколько эти два абзаца похожи, удивило Рекимото, прекрасно осведомленного о возможностях предыдущей версии сервиса. Всего за сутки до этого Google Translate перевел бы тот же самый фрагмент следующим образом:

Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west, «Ngaje Ngai» in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard. Whether the leopard had what the demand at that altitude, there is no that nobody explained.(здесь очень много ошибок, начиная от в корне неверного словоупотребления и заканчивая ошибочными конструкциями — прим. переводчика).

Рекимото поделился своим открытием с сотней тысяч своих подписчиков в Twitter, и в течение нескольких часов люди публиковали собственные эксперименты с сервисом машинного перевода. Одни оказались успешными, другие же, наоборот, смешными. Когда над Токио встало солнце, «Google Переводчик» стал трендом № 1 в японском сегменте Twitter, обойдя культовое аниме и долгожданный сингл от девичьей группы. Чуть ли не каждый задавался вопросом: как «Google Переводчик» стал настолько искусным?

Четыре дня спустя несколько сотен журналистов, предпринимателей и рекламщиков со всех концов света собрались в лондонском офисе разработки Google, чтобы прослушать особое заявление. На входе гостей ждало печенье с предсказаниями с символикой «Google Переводчика». На одной стороне бумажки была фраза на иностранном языке — в моем случае, на норвежском, —, а на другой предложение скачать приложение «Переводчика».

Столы были заставлены пончиками и смузи, при этом на каждом была этикетка с названием вкуса на немецком (zitrone), португальском (baunilha) или испанском (manzana). Спустя некоторое время всех попросили пройти в большой затемненный зал.

Сундар Пичаи, генеральный директор Google, рядом с его кабинетом в Маунтин-Вью, штат Калифорния. Фото: Брайан Финке для The New York Times.

Мэр Лондона Садик Хан вышел на сцену, чтобы произнести открывающую речь. Он начал вот с чего: друг недавно сравнил Садика с Google. «Это потому что у меня есть ответы на все вопросы?» — спросил мэр. «Нет, потому что ты всегда пытаешься закончить мои предложения», — ответил друг. Толпа вежливо посмеялась. В конце Хан пригласил на сцену генерального директора Google Сундара Пичаи.

Пичаи приехал в Лондон по двум причинам: чтобы открыть здесь новое здание Google, краеугольный камень нового строящегося «квартала знаний» на Кингс-кросс, и чтобы объявить о завершении начальной фазы трансформации компании, которую он анонсировал за год до этого.

Как несколько раз говорил Пичаи, в будущем Google «на первое место поставит ИИ». Теоретическое значение этих слов было сложно понять, так что пошли толки. На практике же это значило, что, если компании будет сопутствовать удача, скоро продукты Google перестанут быть результатом традиционного программирования — в их основу будет положено «машинное обучение».

Google Brain, особый отдел компании, был создан пять лет назад с таким руководящим принципом: искусственные нейросети, которые познают мир методом проб и ошибок как младенцы, в результате могут выработать у себя гибкость, присущую людям. Эта идея не нова — первые ее варианты появились еще в 1940 году, на заре современных вычислительных машин, —, но на протяжении большей части истории почти все специалисты по вычислительным машинам считали ее весьма сомнительной, даже мифической.

Но с 2011 года Google Brain продемонстрировал, что его подход к изучению искусственного интеллекта может решить многие проблемы, которые не поддаются обычным методам. Распознавание речи работало так себе, пока Brain не занялся им вплотную — благодаря машинному обучению, распознавание речи на Android, мобильной платформе Google, едва не сравнилось с человеческим. То же самое произошло с распознаванием изображений. Менее года назад Brain впервые полностью пересобрал потребительский продукт, и в тот вечер мы праздновали его моментальный успех.

«Переводчик» появился в 2006 году и с тех пор стал одним из самых надежных и популярных активов Google; в месяц им пользуются более 500 миллионов человек, которые каждый день ищут перевод для 140 миллиардов слов на разных языках. Он существует не только как отдельное приложение — «Переводчик» интегрирован в Gmail, Chrome и многие другие продукты Google, где мы воспринимаем его как нечто само собой разумеющееся, отлаженную, естественную часть цифрового мира.

Как объяснил из-за кафедры Пичаи, только во время кризиса с беженцами в компании осознали геополитическое значение «Переводчика»: на экране за Сундаром появился график, демонстрирующий пятикратное увеличение количества переводов с арабского на немецкий и обратно. (Пичаи это было близко — он вырос в Индии, стране, разделенной десятками языковых барьеров.) Команда постоянно добавляла новые языки и функции, но улучшение качества перевода за последние четыре года изрядно замедлилось.

До сегодняшнего дня. В прошлые выходные «Переводчик» изменился: теперь большей частью его трафика занималась система, основанная на ИИ, причем не только в США, но и в Евразии. Обновление затронуло перевод между английским и испанским, французским, португальским, немецким, китайским, японским, корейским и турецким.

Остальные из примерно сотни языков «Переводчика» были на подходе, по плану их должны были добавлять по восемь в месяц до конца года. К приятному удивлению инженеров Google, новую инкарнацию сервиса удалось закончить за девять месяцев. Система с ИИ за вечер достигала улучшений, на которые старой версии понадобилась вся ее жизнь.

Пичаи любит странные отсылки к литературе. Месяц назад он в своем офисе в Маунтин-Вью сказал мне, что «Переводчик» существует отчасти потому, что не все могут, как физик Роберт Оппенгеймер, изучить санскрит, чтобы прочитать «Бхагават-гиту» в оригинале. В Лондоне на мониторах за его спиной мерцала цитата из Борхеса: «Uno no es lo que es por lo que escribe, sino por lo que ha leído».

Ухмыляясь, Пинчаи прочитал неуклюжий перевод этой фразы на английский, сделанный старой версией «Переводчика»: «One is not what is for what he writes, but for what he has read» («Одним из них является не то, что за то, что он пишет, но за то, что он прочитал»).

Справа был еще один перевод, сделанный новой версией с ИИ: «Ты — не то, что ты пишешь, но то, что ты прочел»

Ремарка была подходящая: новый «Google Переводчик» работал на первых машинах, которые в определенном смысле научились читать.

Решение Google о реорганизации вокруг ИИ было первым крупным проявлением одержимости машинным обучением, которая охватила всю индустрию. За последние четыре года крупные компании — Google, Facebook, Apple, Amazon, Microsoft и китайская фирма Baidu, помимо прочих, — вступили в борьбу за талантливых специалистов в сфере ИИ, особенно заметную в университетской среде.

Многие из лучших академиков ушли в корпорации за ресурсами и свободой. В Кремниевой долине притчей во языцех стало то, что Марк Цукерберг, генеральный директор Facebook, лично — по телефону и с помощью уговоров по видеочату — участвует в попытках его компании переманить лучших выпускников. Базовые семизначные зарплаты стали реальностью. Посещаемость на самых важных академических конференциях в этой сфере увеличилась чуть ли не в четыре раза. На кону не только частичная инновация в сфере, но контроль над тем, что вполне может стать совершенно новой вычислительной платформой: всепроникающим, живым искусственным интеллектом.

Смысл словосочетания «искусственный интеллект» кажется очевидным, однако его всегда воспринимали по-разному. Представьте, что вы перенеслись в семидесятые, остановили случайного прохожего и показали ему Google Maps. После того, как вы с трудом убедили бы его в том, что вы не странно одетый волшебник, а вещица, которую вы достали из кармана, — это не темный амулет, а небольшой компьютер, более мощный, чем тот, что управлял высадкой на Луне, Google Maps почти наверняка покажется ему истинным примером «искусственного интеллекта».

В каком-то смысле так и есть. Google Maps может совершать операции, доступные любому знакомому с картами человеку, например, подсказать путь от отеля до аэропорта, при этом более точно и надежно. Он также может делать то, на что люди неспособны по вполне очевидным причинам, например, оценивать трафик, прокладывать лучший маршрут и менять его на ходу, если вы не туда повернули.

Однако едва ли кто-нибудь сейчас употребит в отношении Google Maps почетную фразу «с использованием ИИ» — настолько сентиментальными и скупыми мы становимся, когда речь заходит о слове «интеллект». Мы думаем, что искусственный интеллект это то, что отличает HAL (ИИ из классического фильма «Космическая одиссея: 2001» Стенли Кубрика — прим. переводчика) от ткацкого станка или тачки.

Как только мы автоматизируем какую-нибудь задачу, мы обесцениваем необходимый для нее навык до уровня обычного механизма. Сейчас Google Maps выглядит скорее механистично, в худшем значении этого слова: сервис принимает конкретную команду (добраться из точки, А в точку Б) и пытается выполнить ее настолько эффективно, насколько это возможно. Таким образом, планка, после которой мы признаем наличие «искусственного интеллекта», постоянно отодвигается.

Когда у него есть возможность осторожно проводить границы между понятиями, Пичаи разводит в стороны ИИ в его текущем состоянии и финальный «общий искусственный интеллект». Общий искусственный интеллект не будет слепо следовать за инструкциями, вместо этого он будет наделен возможностью распознавать подтекст, интерпретировать. Он станет общим инструментом, созданным для выполнения множества целей в общем контексте.

Пичаи верит, что будущее его компании зависит от этой технологии. Представим, что вы сказали Google Maps следующее: «Я еду в аэропорт, но по пути мне надо купить подарок племяннику». Более интеллектуальная версия сервиса — своего рода помощник, вроде операционной системы с голосом Скарлетт Йоханссон из фильма Спайка Джонза «Она», — будет знать то, что знает, скажем, ваш близкий друг или прыткий стажер: возраст племянника, сумму, которую вы обычно тратите на подарки детям, местонахождение открытого магазина.

Но истинно интеллектуальные Google Maps также знают то, что неизвестно вашему другу, например, последние модные тенденции в детском саду племянника или, и это более важно, чего хотят пользователи сервиса. Если интеллектуальная машина сможет найти запутанные связи в данных о том, что мы делаем, она может быть вполне в состоянии экстраполировать их и выяснить, чего мы захотим в будущем, даже если мы сами этого не знаем.

Новые помощники, улучшенные с помощью ИИ, — Siri от Apple, M от Facebook, Echo от Amazon, — созданы с помощью машинного обучения, причем с похожими целями. Однако корпоративные мечтания о машинном обучении не исчерпываются прозорливыми потребительскими ассистентами.

Дочерняя компания Samsung, занимающаяся диагностической визуализацией, ранее в этом году заявила о том, что ее новые аппараты УЗИ могут обнаруживать рак груди. Консультанты по менеджменту из кожи вон лезут, чтобы подготовить руководителей к расширению поля применения самопрограммируемых компьютеров в производстве. AlphaGo от Deepmind, приобретение Google от 2014 года, победил гроссмейстера в древней настольной игре го, несмотря на предсказания о том, что на это понадобится еще десять лет.

В своем известном эссе 1950 года Алан Тьюринг предложил тест для общего искусственного интеллекта: за пять минут обмена текстовыми сообщениями компьютер должен успешно выдать себя за человека. Как только компьютер научится быстро переключаться между двумя языками, будет заложен фундамент для машины, которая однажды «поймет» человеческий язык настолько, что сможет вести правдоподобный диалог. Сотрудники Google Brain, которые участвовали в обновлении «Переводчика», верят, что такая машина сможет служить в качестве всеохватывающего личного ассистента, наделенного общим интеллектом.

Далее перед вами предстанет история того, как команда исследователей и инженеров Google — сначала один-два, затем три-четыре, а ближе к концу их стало больше сотни, — значительно продвинулись в этом направлении. Это во многом необычная история, не в последнюю очередь из-за того, что она опровергает многие привычные стереотипы Кремниевой долины.

В ней не нашлось места для людей, которые считают, что завтрашний мир будет радикально отличаться от сегодняшнего благодаря какому-нибудь неугомонному изобретателю из гаража. Речь также не пойдет о тех, кто верит в то, что технологии решат все наши проблемы, равно как и о тех, для кого технологии это обязательно путь к апокалипсису. О сломе старых парадигм не будет сказано ни слова.

Здесь будет не одна, а три пересекающиеся истории, которые в итоге приведут нас к успешной метаморфозе «Google Переводчика» — история техническая, институциональная и история об эволюции идей. В технической речь пойдет о команде, ответственной за один продукт в одной компании, и о процессе того, как они улучшали, тестировали и презентовали новейшую версию старого продукта — и все за вчетверо меньший объем времени, чем они рассчитывали.

Институциональная история расскажет о сотрудниках небольшой, но важной группы, занимающейся искусственным интеллектом, внутри той же компании, и о том, как их вера в старые, неподтвержденные и весьма неприятные идеи о компьютерах перевернула восприятие этой сферы во всех крупных компаниях. Героями истории об идеях станут ученые-когнитивисты, психологи и своенравные инженеры, которые долго и незаметно трудились, чтобы в итоге, руководствуясь своими, на первый взгляд, иррациональными убеждениями, перевернуть наше понимание не только технологий, но и, в теории, самого сознания.

Первая история, история о «Google Переводчике», описывает события, происходившие в Маунтин-Вью на протяжении девяти месяцев, и объясняет, как трансформировался машинный перевод. Местом действия второй истории Google Brain и множества его конкурентов, станет Кремниевая долина, и в ее конце вам станет ясно, как за пять лет изменилось все это сообщество.

Сюжет третьей истории, повести о глубоком обучении, описывающей семь десятилетий научного труда, будет прыгать через полмира от одной лаборатории к другой — из Шотландии в Швейцарию, затем в Японию, а потом надолго в Канаду — и, вполне возможно, станет еще одним шажком к переосмыслению того, как мы воспринимаем себя, существ, которые в первую очередь обладают интеллектом.

Все три истории рассказывают об искусственном интеллекте. Та, что охватывает 70 лет, демонстрирует, чего мы может ожидать или хотеть от него. Пятилетняя история касается того, что он сможет делать в ближайшем будущем. А девятимесячная покажет, на что он способен прямо сейчас. В совокупности они — лишь доказательная база для общей концепции. Ведь сейчас мы находимся в самом начале пути.

Часть I: Машина, которая учится

Рождение мозга

Джефф Дин, хотя формально он лишь старший научный сотрудник, де-факто является главой Google Brain. Дин — жилистый, энергичный мужчина с длинным прямым лицом и глубоко посаженными глазами, пышущий нешуточным энтузиазмом. Он родился в семье медицинского антрополога и эпидемиолога, и детство его прошло повсюду — в Миннесоте, на Гавайях, в Бостоне, Арканзасе, Женеве, Уганде, Сомали и Атланте.

В старшей школе и колледже Дин писал ПО для Всемирной организации здравоохранения. В Google он работает с 1999 года — Дин стал примерно 25-м сотрудником — и успел приложить руку к системам едва ли не каждого крупного прорыва компании.

В корпоративной культуре Google есть занятный артефакт под названием » Факты о Джеффе Дине», написанный в духе мемов о Чаке Норрисе: «PIN-код Джеффа Дина — это последние четыре цифры числа пи», «Когда Александр Белл изобрел телефон, он увидел пропущенный звонок от Джеффа Дина», «Джеффа Дина повысили до 11 уровня в системе, где уровней всего десять». (Кстати, последнее — чистая правда.)

Джефф Дин, инженер Google и предводитель Google Brain. Фото: Брайан Финке для The New York Times

Однажды в начале 2011 года Дин зашел в одну из «микрокухонь» кампуса Google — это «гугловское» словечко для общих пространств для отдыха, расположенных на большинстве этажей комплекса в Маунтин-Вью — и столкнулся с Эндрю Ыном, молодым стэнфордским профессором компьютерных наук, который работал в компании консультантом.

Ын рассказал ему о Project Marvin, внутреннем проекте (названном в честь пионера ИИ Марвина Мински), созданном недавно с его помощью, чтобы экспериментировать с «нейросетями», пластичными цифровыми решетками, отчасти основанными на архитектуре мозга. Сам Дин работал над примитивной версией этой технологии в 1990 году, когда работал в Университете Миннесоты — тогда этот метод вычислений ненадолго попал в мейнстрим. А теперь, за последние пять лет, количество академиков, работающих над нейросетями, снова начало расти и достигло нескольких десятков. Ын рассказал Дину о том, что Project Marvin, которым занималась лаборатория X (секретное подразделение Google), достиг многообещающих результатов.

Дин был настолько заинтригован, что решил потратить на проект свои «двадцать процентов» — часть рабочих часов, которые каждый сотрудник Google должен тратить на программы, не входящие в его базовую рутину. Вскоре он предложил Ыну привлечь к работе над Project Marvin еще одного коллегу, разбирающегося в нейронауке — Грега Коррадо. (Коррадо немного рассказывали о ней в магистратуре, но только с исторической точки зрения. «Хорошо, что я тогда внимательно слушал», — пошутил он, когда рассказывал мне об этом.) Поздней весной они пригласили одного из лучших выпускников Ына, Куока Ле, в качестве первого интерна в проекте. Именно тогда некоторые инженеры Google начали называть Project Marvin иначе: Google Brain.

С тех пор, как летом 1956 года на межинституциональной конвенции о сознании в Дартмуте родился термин «искусственный интеллект», большинство исследователей считали, что проще всего создать ИИ будет с помощью очень большой всеобъемлющей программы, которая включит в себя как законы логики, так и достаточный объем знаний о мире.

Например, если бы вы захотели перевести фразу с английского на японский, вам надо было бы запрограммировать всю английскую грамматику, затем все значения слов из «Оксфордского словаря английского языка», а также всю грамматику японского языка, и только потом ввести предложение на исходном языке, чтобы получить перевод на целевой язык в виде таблицы. Как бы сказал Борхес, вы дали бы машине языковую карту целых стран. Такой подход обычно называют «символическим ИИ», — потому что его процесс познания основан на формальной логике, — или «старым добрым ИИ», но с пренебрежением.

У старого доброго подхода есть две главные проблемы. Первая заключается в том, что для человека он сопряжен с ужасными временными затратами. А вторая связана с тем, что он работает только в сферах, законы которых крайне четко сформулированы, например, в математике или шахматах. Однако перевод являет собой пример сферы, в которой этот подход терпит унизительный крах, поскольку слова нельзя свести к их словарным значениям, а также потому что в языках исключений бывает не меньше, чем правил.

Системы, построенные на формальной логике, склонны переводить «министра сельского хозяйства» как «жреца фермерского дела». Но в математике и шахматах такой подход работал прекрасно, и сторонники символического ИИ считали, что нет лучших сфер для демонстрации «общего интеллекта».

Выше — фрагмент документального фильма 1961 года, рассказывающего о предпосылках исследований в области искусственного интеллекта. Если вы сможете запрограммировать компьютер на повторение сложных мыслительных задач вроде математических уравнений и шахмат, в конце концов вы сможете создать нечто похожее на сознание. Видео загружено на YouTube Роберто Пьераччини.

Однако у такой системы есть ограничения. В восьмидесятых исследователь в сфере робототехники в Университете Карнеги — Меллон заметил, что компьютеры легко было запрограммировать делать то, на что способен взрослый, однако им были практически недоступны действия, которые легко выполняет любой ребенок, например, подержать мячик или распознать кошку. К началу девяностых, если не учитывать унизительный для человека прогресс в компьютерных шахматах, мы даже близко не подошли к общему искусственному интеллекту.

Но всегда было еще одно видение ИИ, противоречащее общепринятому. Согласно ему, компьютерам стоит учиться снизу вверх (на данных), а не сверху вниз (на законах). Эта идея появилась в начале 1940-х, когда исследователи поняли, что лучшая модель гибкого автоматизированного интеллекта — это сам мозг.

В конце концов, мозг — это лишь множество штучек под названием нейроны, которые либо передают электрический заряд свои соседям, либо нет. Важны не сами нейроны, а многообразие связей между ними. Благодаря такой структуре во всей ее простоте у мозга появились адаптивные преимущества.

Мозг может работать, когда информации мало или вовсе нет, он может выдержать серьезный ущерб, не потеряв контроль, очень эффективно хранить огромные массивы знаний, выделять определенные взаимосвязи, но сохранять при этом хаотичность, чтобы справляться с двусмысленными и неопределенными данными.

Не было причин не пытаться повторить эту структуру в электронном виде, и в 1943 году продемонстрировали, что цепочки из простых искусственных нейронов могут выполнять базовые логические функции. Также, в теории, они могут учиться так, как учимся мы.

На протяжении жизни в зависимости от проб и ошибок определенного человека синаптические соединения между парами нейронов становятся сильнее или ослабевают. Искусственная нейросеть способна на нечто подобное, если постепенно, руководствуясь методом проб и ошибок, и под присмотром повторить цифровые взаимоотношения между искусственными нейронами. В нее не надо будет заранее закладывать жесткие правила. Вместо этого она сама будет меняться, чтобы отражать взаимосвязи в поглощаемых данных.

Этот подход к искусственному интеллекту был скорее эволюционным, а не креационистским. Если вам нужен гибкий механизм, то вы выберете тот, который умеет адаптироваться к окружающей среде. Если вы хотите создать то, что умеет адаптироваться, вы не будете изначально обременять его правилами шахмат. Наоборот, стоит начать с самых базовых способностей — чувственного восприятия и управления моторикой, — надеясь, что более сложные навыки разовьются сами собой. Люди ведь не учатся понимать язык, выучивая наизусть словари и учебники по грамматике, так зачем же нам заставлять компьютеры это делать?

Google Brain стал первым крупным коммерческим институтом, направленным на изучение возможностей, заложенных в такой подход к работе с ИИ. Поначалу Дин, Коррадо и Ын работали над проектом немного — для них это был скорее совместный эксперимент. Однако процесс пошел незамедлительно.

За основу для архитектуры своих моделей они взяли последние теоретические принципы, а также идеи, лежащие на полке с восьмидесятых и девяностых, и использовали для их реализации ни с чем не сравнимые банки данных компании и ее огромную вычислительную инфраструктуру. Они давали сетям колоссальные объемы размеченных данных — записи голоса с корректной расшифровкой, например, —, а компьютеры улучшали свои реакции, чтобы они лучше соответствовали реальному положению дел.

«Та часть эволюции, когда у животных развились глаза, стала серьезным прорывом», — однажды сказал мне Дин. Он любит все преуменьшать. Мы как обычно сидели в комнате для переговоров с маркерной доской, на которой он начертил изогнутый таймлайн с множеством пометок, отражающий развитие Google Brain и его связь с переломными моментами в современной истории нейросетей.

«Теперь у компьютеров есть глаза. Мы можем создать их на основе уже существующих возможностей, чтобы машины могли понимать фотографии. Роботы кардинально изменятся. Они смогут работать в незнакомой среде и над очень разнообразными проблемами». Эти способности могут показаться примитивными, но применений для них невероятно много.

Джоффри Хинтон в офисе Google в Торонто. Его идеи помогли заложить основу для нейросетевого подхода к работе «Google Переводчика». Фото: Брайан Финке для The New York Times

Неожиданный стажер

В первый год существования Brain эксперименты по созданию машины со способностями годовалого ребенка — так выразился Дин, — шли прекрасно. Их команда по распознаванию речи поменяла часть своей старой системы на нейросеть, и в результате качество работы выросло так, как не вырастало за 20 лет. Способность системы распознавать объекты увеличилась соразмерно. Это случилось не потому, что за год люди из Brain сгенерировали кучу революционных идей. Все дело в том, что Google наконец-то выделила ресурсы — компьютерные и человеческие, — чтобы заполнить пробелы, пустовавшие уже давно.

Значительная часть этих как отмерших, так и поныне актуальных воззрений, была либо придумана, либо отточена англичанином-эрудитом Джоффри Хинтоном, в чем-то похожем на Аристотеля. На второй год существования Brain Хинтона пригласили туда в связи с уходом Эндрю Ына. (Сейчас Ын работает в Baidu, возглавляет команду по искусственному интеллекту численностью в 1300 человек).

Хинтон хотел оставить свой пост в Университете Торонто всего на три месяца, так что по странным бюрократическим причинами его пришлось нанимать в качестве стажера. На тренингах для стажеров ориентационный лидер говорил что-нибудь вроде: «Введите свой LDAP», — то есть логин, —, а Хинтон поднимал руку с вопросом «Что такое LDAP?» Все молодые люди в аудитории, которые про глубокое обучение знали только то, что это обязательная часть искусственного интеллекта, начинали шушукаться: «Кто этот старик? Почему он этого не понимает?»

«Во время обеденного перерыва кто-то из очереди крикнул: «Профессор Хинтон! Я на ваш курс записался! Что вы тут делаете?». В остальном было неплохо», — вспоминает Хинтон. Несколько месяцев спустя Хинтон и два его студента продемонстрировали поразительные результаты в крупном конкурсе по распознаванию изображения, который проводил коллектив под названием ImageNet, работающий над open-source-проектами

Им надо было не только научить компьютер находить на картинке обезьяну, но и отличать паукообразную обезьяну от ревуна и бесчисленного множества пород кошек. Вскоре Google связалась с Хинтоном и его студентами и сделала им предложение. Они согласились. «Я думал, их интересует наша интеллектуальная собственность. Оказалось, что им были нужны мы», — рассказывает он.

Хинтон происходит из одной из этих старых британских династий вроде Дарвинов, причудливо разбросанной по интеллектуальному пространству, член которой вне зависимости от должности обязан внести хотя бы минимальный вклад в решение небольших проблем астрономии или гидрогазодинамики.

Его пра-прадедом был Джордж Буль, который своими фундаментальными работами по символической логике обеспечил появление компьютера. Другой пра-прадед был известным хирургом, отец — азартным энтомологом, его двоюродный брат по линии отца — ученый в Лос Аламосе.

Этот список можно продолжать долго. Хинтон учился в Кэмбридже и Эдинбурге, затем в Университете Карнеги — Меллон, после чего оказался в Торонто, где до сих пор проводит половину своего времени. (Правительство Канады давно и щедро поддерживает его работу.)

Я встретился с ним в канадском офисе Google. Его взъерошенные желто-оловянные волосы были уложены в духе взрослого Ноэля Галлахера, а носил он мешковатую полосатую рубашку, которая так и норовила вылезти из-за ремня, и овальные очки, то и дело сползавшие на кончик его выдающегося носа. Хинтон сыплет энергичными, если не беспорядочными остротами вроде «Компьютеры начнут понимать сарказм раньше американцев».

Хинтон работал над нейросетями еще с конца шестидесятых, когда учился в Кэмбридже. В индустрии он считается своего рода ее интеллектуальным прародителем. По большей части, когда раньше Хинтон заводил речь о машинном обучении, остальные смотрели на него так, будто он приводит аргументы в пользу гелиоцентрической системы мира или кровопускания пиявками.

Люди воспринимали нейросети как уже опровергнутую глупую идею, во многом из-за одного слишком переоцененного проекта: «Перцептрона», модели искусственной нейросети, которую в 1950-х разработал Фрэнк Розенблат, психолог из Корнеллского университета. Газета The New York Times писала о том, что ВВС США, спонсировавшие создание машины, полагали, что она «будет способна ходить, говорить, видеть, писать, воспроизводить себя и осознавать свое существование». В общем и целом, ничего из этого не было достигнуто.

Марвин Мински, отец искусственного интеллекта в Америке, работал над нейросетями в 1954 году для диссертации, но затем его утомили раздутые обещания, которыми разбрасывался Розенблат — он в то время работал в Высшей научной школе Бронкса. (Марвин также конкурировал с ним за финансирование от Министерства обороны.) Мински вместе с коллегой из MIT опубликовал книгу, продемонстрировавшую, что есть до боли простые проблемы, которые «Перцептрон» решить не способен.

Мински в своей критике «Перцептрона» коснулся только однослойных сетей — такие сети обрабатывают введенную в машину информацию только одним набором искусственных нейронов.Позже Мински стал продвигать идеи, весьма сходные с теми, на которых основывалось современное ему глубокое обучение. Но Хинтон уже тогда знал, что нейросеть сможет справиться со сложными задачами, если будет состоять из множества слоев.

Самое простое описание нейросети таково: это машина, которая выдает предсказания или классификации, основываясь на ее способности находить взаимосвязи в данных. Если слой один, то вы можете найти лишь простые взаимосвязи. А когда слоев много, можно искать взаимосвязи между взаимосвязями.

Возьмем, к примеру, распознавание изображений, которое основано на хитром изобретении под названием «свёрточная нейронная сеть». (Оно было описано в эпохальном научном труде 1998 года, автор которого, француз по имени Ян Лекун, после защиты докторской работал в Торонто под началом Хинтона, а сейчас возглавляет серьезную инициативу по развитию ИИ в Facebook.)

Первый слой сети учится идентифицировать самый базовый визуальный объект — «грань», то есть ничего (погасший пиксель), после которого идет что-то (активный пиксель) или наоборот. Каждый последующий слой сети ищет взаимосвязи в предыдущем. Так, цепочка из

©  vc.ru