Google DeepMind научил ИИ узнавать объекты с одного «взгляда»07.11.2016 15:53

Известно, что искусственному интеллекту нужны тысячи примеров, чтобы научиться распознавать новые объекты. В этом он значительно уступает человеку с его способностью узнавать класс предметов по одному представителю. К тому же, сам процесс обучения нейронной сети отнимает очень много времени. Компания DeepMind, подразделение Google, занимающееся разработками в области искусственного интеллекта, нашла способ обойти это.

Исследователи DeepMind внесли несколько поправок для алгоритма глубокого обучения, который позволяет ему распознавать объекты на изображениях или других вещей из одного примера с помощью связей между нейронной сетью и внешней памятью. Эта технология известна как «одноразовое» обучение. Команда разработчиков продемонстрировала работу этого способа на большой базе данных изображений с тегами, а также на письме и речи.

Лучшие алгоритмы умеют достоверно распознавать объекты, но для этого им нужно много данных и времени. Алгоритм, обученный узнавать автомобили на дороге, должен изучить несколько тысяч примеров, чтобы уверенно работать в автомобиле с автопилотом. Сбор такого количества данных часто оказывается нецелесообразным: робот, который должен помочь вам ориентироваться в незнакомой местности, не должен тратить много времени на обучение.

Чтобы исправить это, исследователь из DeepMind Ориол Виньялс добавил компонент памяти в систему глубинного обучения — тип нейронной сети, обученный распознавать вещи с помощью регулировки множества связанных между собой слоев. Его работа аналогична нейронам в мозге человека. Чтобы такая сеть работала эффективно, ей нужно увидеть множество изображений для точной настройки связи между виртуальными нейронами.

Команда DeepMind продемонстрировала возможности обновленной системы на основе базы данных ImageNet, которая была разработана учеными Стэнфордского и Принстонского университета. Она организована в соответствии с иерархией лексической базы данных английского языка WordNet, правда, пока работает только с существительными. С новым ПО искусственный интеллект по-прежнему нуждается в анализе нескольких сотен категорий изображений, но после этого он может учиться распознавать новые объекты из одной картинки. Алгоритм эффективно определяет те характеристики объекта, которые делают его уникальными. Точность распознавания ImageNet улучшилась с 87,6% до 93,2% по сравнению с конкурирующими подходами.

Архитектура нейронной сети

Виньялс говорит, что их разработка будет особенно полезной при распознавании значений новых слов. Он считает, что это будет важно для Google, так как алгоритм позволяет системе быстро изучать значения новых поисковых критериев.

«Я думаю, что это очень интересный подход, который позволяет обучать сети с одного раза таким большим объемам данных» — говорит Санг Ван Ли, глава Лаборатории мозга и машинного интеллекта в Корейском институте передовых технологий (KAIST). Однако другие ученые не спешат восхвалять достижение команды DeepMind. Они скептически относятся к его полезности, поскольку представленный метод все еще далек от скорости человеческого обучения. Как справедливо отмечает Сэм Гершман, доцент кафедры изучения мозга в Гарварде, когда люди учатся «собирать» изображение из составных частей, они делают это на основе знаний об окружающем мире или здравого смысла. То есть сигвей может внешне сильно отличаться от велосипеда или мотоцикла, но может быть собран из таких же частей. Оба ученых сходятся во мнении, что машинному интеллекту потребуется еще много времени, прежде чем он сможет достигнуть человеческих способностей.

Наука еще достаточно далека от раскрытия тайны «одноразового» обучения мозга человека. Однако достижение исследователей из Google ставит перед учеными новые цели, которые заслуживают дальнейшего изучения.

Технология «одноразового» обучения была известна и ранее, однако она не была приспособлена для работы с алгоритмами глубинного изучения. В одном учебном проекте в прошлом году использовались методы вероятностного программирования, который включал эту технологию. По сути, программа генерировала уникальный алгоритм для каждого символа, используя штрихи воображаемой ручки. Программное обеспечение не имитировало алгоритм обучения ребенка письму и чтению, но было похоже на тот путь, который проходят взрослые, когда учат новый язык.

Системы глубинного изучения становятся гораздо более способными, если добавить механизмы запоминания. Еще одна группа в Google DeepMind недавно разработала сеть с рабочей памятью — дифференцируемый нейронный компьютер. Он может не только выполнять сложные задачи, но и решать, какую информацию удерживать в своей памяти. Так ИИ научился ориентироваться в системе лондонского метро после изучения нескольких более простых сетевых диаграмм. Как и обычный компьютер, такая сеть использует свою память, чтобы управлять сложными структурами данных. Вместе с тем, система может обучаться на основе данных, как нейронная сеть. Ученые возлагают на дифференцируемый нейронный компьютер большие надежды. Улучшенная версия такого компьютера сможет просканировать Википедию и запомнить все значимые имена, места и даты, и использовать эти знания в совершенно новом ключе.