ИИ от DeepMind провалил школьный тест по математике

933a8be3507969c808e4baa1aa0302f1.jpg

Научно-популярные и даже развлекательные СМИ в наше время переполнены новостями об успехе ИИ-проектов. То искусственный интеллект побеждает человека в го, то учится играть в StarCraft и выходит победителем из схватки с признанными чемпионами. И это только малая толика достижений, на самом деле их гораздо больше. Обычный человек (в смысле, не связанный с ИТ-сферой) может подумать, что вот-вот появится настоящий, «большой» искусственный интеллект, о котором пишу фантасты и снимают фильмы.

Но все далеко не так радужно. К примеру, на днях появилась информация о том, что ИИ попробовал сдать тест по высшей математике (школьный тест, стандартный для США) и не смог этого сделать.
В принципе, причины неудачи можно объяснить без особого труда. Так, человек при решении задач математического характера задействует следующие способности и возможности.

Модифицирует для себя символы в сущности, такие как числа, арифметические операторы, переменные (которые в комплексе образуют функции) и слова (определяющие вопрос, смысл задачи и т.п.).

  • Планирование (например, ранжируя функции в порядке, необходимом для решения математической задачи).
  • Использование вспомогательных алгоритмов для составления функций (сложение, умножение).
  • Использование кратковременной памяти для хранения промежуточных значений (например, h (f (x))).
  • Применение на практике полученных ранее знаний о правилах, преобразованиях, процессах и аксиомах.


DeepMind обучили и тестировали на подборке различных типов математических проблем и задач. Разработчики не использовали краудсорсинг, вместо этого они синтезировали набор данных для генерации большого количества тестовых задач, контроля уровня их сложности и т.п. Команда разработчиков использовала текстовый формат данных «произвольной формы».

Изначальные данные базировались на задачах из подборок заданий для учащихся школ Великобритании (возраст до 16 лет). Задания брались из таких направлений, как арифметика, алгебра, теория вероятностей и др.

Команда DeepMind, выбирая архитектуру нейросети для решения математических задач, остановилась на LSTM (долгая краткосрочная память) и Transformer (архитектура нейросетей для работы с последовательностями).

DeepMind протестировал две модели LSTM для работы с математическими задачами: простой LSTM и Attentional LSTM схема работы которого показана на рисунке ниже.

bcf5b66c1dd29f4432b3aa459e6d5b59.png

Ниже — схема работы модели Transformer

a6d95fe0b9325eba520e89b8ceb63696.png

Результат оказался не слишком хорошим. Лишь 35% ответов ИИ оказались правильными, это неудовлетворительная оценка по стандартам любой школы.

dade17fb52130a30c672f482e8ee6444.png

Конечно, исследователи из DeepMind пока лишь начали работу с математикой и ИИ. В дальнейшем можно ожидать бОльших успехов, как это было с тем же AlphaGo.

С данными полного исследования можно ознакомиться по этой ссылке.

qqg0i7eriq4febfjqqehire4fnw.png
bv1yywjgl2_cbtzvvtk4rup2jz8.png

© Habrahabr.ru