Что в «черном ящике»: как понять, что искусственный интеллект работает правильно

В 1991 году Дин Померло тестировал один из первых автомобилей с автопилотом. Он катался по городу, а компьютер через камеру следил за дорогой и «запоминал» движения водителя. Инженер тренировал систему несколько минут, а затем давал ей порулить самостоятельно. Все шло хорошо до тех пор, пока автомобиль не подъехал к мосту, где резко и неожиданно повернул. Померло удалось избежать аварии, только быстро схватив руль.

В лаборатории инженер попробовал разобраться в ошибке, вскрыть «черный ящик». Только после множества тестов реакции софта на различные входные параметры, Померло обнаружил проблему: сеть использовала траву по краям дороги для определения направления, и поэтому появление моста ее смутило.

Спустя 30 лет расшифровка «черных ящиков» стала еще сложнее. Как выяснили исследователи из OpenAI, с 2012 года начался рост затрачиваемой на обучение вычислительной мощности: если раньше, по закону Мура, она удваивалась каждые два года, то 10 лет назад удвоение стало происходить каждые 3–4 месяца.

Одновременно с этим увеличилась и срочность задачи по расшифровке «черных ящиков». По словам Померло, его давняя система — «нейросеть для бедных», по сравнению с огромными алгоритмами сегодняшнего дня.

Современные модели глубокого обучения состоят из миллионов взаимосвязанных узлов и слоев, которые на огромных объемах данных обучаются выполнять задачи по поиску и классификации. Некоторые из этих моделей настолько сложны, что даже сами разработчики не до конца понимают, как работают их творения. Из-за этого возникает вопрос, как определить, правильно ли «думает» нейросеть?   Эта загадка привела к развитию новой области исследований, в которой ученые разрабатывают и тестируют методы интерпретации прогнозов моделей машинного обучения.

Глобальные и локальные методы объяснения

Методы интерпретации условно делятся на глобальные и локальные. Глобальный метод стремится описать общее поведение нейросети. Как правило, это делается путем разработки отдельной, более простой и понятной модели, которая имитирует «большую» программу.

Но поскольку модели глубокого обучения работают фундаментально сложным и нелинейным образом, разработка эффективного механизма глобальной интерпретации — сложная задача. Поэтому в последнее время исследователи обращают все больше внимания на локальные методы интерпретации.

Локальные методы фокусируются на объяснении конкретного предсказания модели. Наиболее популярные из них делятся на три широкие категории. Первый из них — метод, известный как атрибуция признаков (feature attribution). Он показывает, какие входные переменные были наиболее важны, когда модель принимала решение.

Например, для модели обработки изображений каждый пиксель является характеристикой. Если система разработана для предсказания рака по рентгеновским снимкам, наиболее значимыми признаками для нее будут пиксели на каждом конкретной фотографии. Благодаря методу атрибуции признаков можно проверить, не «попалась» ли система на ложную корреляцию: не перепутала ли она пиксели настоящей раковой опухоли с точками водного знака.

Второй тип методов интерпретации — механизмы контрфактического объяснения (counterfactual explanation). Они определяют, как изменить входные данные, чтобы модель выдала иной результат. Например, система отказывает заемщику в кредите. Контрфактический метод подскажет, какие факторы должны измениться, чтобы заявка была принята банком. Возможно, это должен быть более высокий кредитный рейтинг или доход заемщика.

Эти методы интерпретации отличаются своей практичностью. Отказ в выдаче кредита может восприниматься не так тяжело, если заемщик точно знает, почему он его не получил.

Третья категория методов известна как описание важности выборки (sample importance explanations). В отличие от других, эти алгоритмы требуют доступа к данным, которые использовались для обучения моделей.

Они показывают, на какие наборы данных модели опираются больше всего, когда делают свои предсказания. Эти методы интерпретации хорошо вскрывают «черные ящики», которые выдают иррациональные, на первый взгляд, результаты. Например, когда происходит ошибка при вводе данных, которая влияет на какую-либо конкретную выборку. Зная об ошибке, можно исправить пул данных и переобучить модель, чтобы повысить ее точность.

Слова предостережения

Методы интерпретации могут быть полезны для специалистов по машинному обучению и исследователей, однако конечным пользователям все равно следует проявлять осторожность, рассказала Марзиех Гассеми, доцент и руководитель группы машинного обучения Лаборатории компьютерных наук и искусственного интеллекта (CSAIL).

Машинное обучение внедряется все в большее количество сфер человеческой жизни: от здравоохранения до образования, методы интерпретации результатов становятся все точнее, и люди начинают все больше полагаться на прогнозы моделей.

«Мы обнаружили, что методы объяснений заставляют людей, как экспертов, так и неэкспертов, быть слишком уверенными в способностях и советах конкретной системы рекомендаций. Я думаю, что для людей очень важно не отключать внутренний голос, который говорит: «Позвольте мне подвергнуть сомнению совет, который мне дают», — объясняет Марзиех Гассеми.

Еще один недостаток методов объяснения заключается в том, что зачастую невозможно определить, является ли работа самого механизма интерпретации правильной. Для этого необходимо сравнить результаты с реальной моделью. Однако пользователь также не знает, корректна ли сама модель. Получается круговая логика, добавляет Илун Чжоу, аспирант группы интерактивной робототехники Лаборатории компьютерных наук и искусственного интеллекта (CSAIL).

Исследователи продолжают работу, однако пока что они предупреждают, что даже самую точную распаковку «черного ящика» следует воспринимать с долей настороженности.

Полный текст статьи читайте на Компьютерра