О конференции Strata AI: будущее искусственного интеллекта

Хабр, привет!

В этой статье я расскажу о конференции O«Reilly Strata Artificial Intelligence, которую мне довелось посетить этим летом в Нью-Йорке.

Strata AI — одна из главных конференций, посвященных искусственному интеллекту, проходит примерно раз в полгода. Конференцию не стоит путать с другим известным мероприятием Strata + Hadoop World — его также проводит O«Reilly, но то посвящено исключительно большим данным и по тематике они мало пересекаются.

3601cbc982ef06c91941b54125cd4a1f.jpg

О себе


Я работаю дата-сайентистом в компании CleverDATA. Одна из наших ключевых экспертиз — машинное обучение, и мы стараемся отправлять сотрудников на профильные конференции для получения новых знаний (о копенгагенской конференции Scala Days мы уже писали в блоге), да и просто, чтобы быть в курсе основных трендов.

Для отрасли искусственного интеллекта это особенно важно, так как здесь ландшафт меняется как нигде быстро, а количество источников информации огромно. Целью моей поездки было как раз понять, что из «горячих» тем мы сможем использовать на практике в наших проектах.

Приехал я в Нью-Йорк за день до начала мероприятия и, как оказалось, в самый разгар очередного гей-парада, поэтому все витрины магазинов, фасады зданий и символ города Empire State Building были раскрашены в цвета радужного флага. Отчасти это задало тон поездке. На следующий день, погуляв и проникнувшись духом города, я поехал регистрироваться на конференцию.

59de305605e47483657013.png


О конференции


Конференция оказалась довольно масштабной и включала около 80 выступлений, проходивших параллельно в семь потоков, поэтому очно мне удалось посетить лишь небольшую часть. Для остального пришлось ждать видеоматериалов — O«Reilly всегда их публикует на safarionlinebooks, и там же можно посмотреть видео с предыдущих конференций (правда нужна подписка).

С одной стороны, тематика конференции довольно узка: когда мы говорим «искусственный интеллект», то в 90% случаев подразумеваем глубокие нейронные сети. С другой стороны, докладчики приглашаются из совершенного разных областей, и ввиду разнообразия решаемых ими задач компания спикеров получается довольно разношерстной. На сайте конференции можно ознакомиться с ее агендой.

c89bd4eb06d0ad318b99a8b33165231a.jpg

Говоря о представленных на конференции компаниях, можно выделить три большие группы. Первая — это вездесущие технологические гиганты вроде Google, IBM, Microsoft, Amazon и др. Вторая — молодые компании и смузи-ориентированые AI-ориентированные стартапы, в коих сейчас недостатка нет. И третья — это представители академической среды — основной поставщик новых теорий, подходов и алгоритмов. Лично на меня выступления последних, как правило, производят наибольшее впечатление.

Ввиду короткого формата выступлений (на каждую лекцию вместе с вопросами отводилось всего 45 минут) в них было очень мало математики или алгоритмов, в основном описывались общие идеи и демонстрировались примеры их применения. В целом это понятный подход, если что-то тебя заинтересовало — welcome, гугли эту тему в интернете и изучай её более подробно. Поэтому для себя я сформулировал цель посещения подобных мероприятий так — понять, какие темы на слуху и в каком направлении развивается индустрия.

К слову, за все время конференции ни в одном из выступлений я не услышал так любимый многими термин «Big Data», что, на мой взгляд, говорит о достаточно профессиональном уровне аудитории — терминология должна использоваться корректно.

Вообще, когда мы говорим «искусственный интеллект», воображение чаще всего рисует нечто подобное.

8e1e60c6d6405214fcad4ff9305bdcfb.jpg

Но на самом деле ИИ — не только и столько про роботов, это гораздо шире. По сути речь идет о любой интеллектуальной системе или программе, способной в условиях большой неопределенности решать задачи, традиционно считавшиеся прерогативой человеческого интеллекта.

О глубоком обучении


Первый день организаторы отвели под мастер-классы. В основном это были туториалы по всевозможным фреймворкам глубокого обучения (deep learning), которых сегодня «на слуху» около 10 штук и которые, на мой личный взгляд, как две капли воды похожи другу на друга.

Глубокое обучение — это процесс обучения многослойных нейронных сетей, оптимизированных для работы с данными сложных иерархических форматов, и в последнее время ставший стандартным подходом для анализа текстов, изображений, аудио/видео данных и временных рядов.

Основное преимущество глубоких сетей перед другими методами машинного обучения и немногослойными сетями (shallow networks) — они избавляют от необходимости заниматься ручной генерацией фич (feature engineering), поскольку этот механизм заложен в архитектуру самой сети. Обратная сторона — такие сети требуют больше данных для обучения и для них сложнее подбирать параметры.

В глубоких сетях выделяют 2 базовых архитектуры: сверточные (CNN, Convolutional Neural Networks) и рекуррентные сети (RNN, Recurrent Neural Networks). Первые используются в основном для работы с изображениями, а вторые — для анализа текстов и любых последовательностей. Все остальные архитектуры — вариации на тему этих двух.

Чтобы аналитики не занимались реализацией низкоуровневой логики, за несколько лет появилось множество API, упрощающих разработку таких сетей и сводящих ее к конфигурации нужной архитектуры. Здесь перечислены почти все:

b9fa25530638d2ddfefb02a11faf0a21.png


Я решил не мудрить и выбрал два наиболее популярных: TensorFlow и Keras.

Keras — один из наиболее высокоуровневых инструментов в этой серии, по сути являющийся Lego-конструктором. Разработка приложения сводится к выбору архитектуры сети, числа слоев, нейронов и активационных функций. Простейшие глубокие сети в Керасе собираются в 10 строк кода, что делает этот инструмент идеальным для быстрого старта или прототипирования.

TensorFlow, наоборот, один из наиболее низкоуровневых инструментов. Google его позиционирует как пакет для любых символьных вычислений, не только для глубоких сетей. На мой взгляд, одна из киллер-фич — это обалденная динамическая визуализация. Чтобы понять, о чем идет речь, можно посмотреть, например, тут.

TensorFlow является основной технологией для огромного числа AI-проектов и помимо Гугла используется в IBM, SAP, Intel и много где еще. Важный его плюс — большой  репозиторий готовых к использованию моделей.

4b52fd43d3a13be90ba52c052f2c35fd.jpg

Второй и третий дни были отведены под лекции. После утренней обзорной сессии с короткими десятиминутными выступлениями о достижениях индустрии, шел блок из 6 лекций.

Deep Learning в банках


Мне всегда была интересна тематика применения глубоких сетей не для очевидных картинок и текста, а для более «традиционных» структурированных данных, поэтому первой лекцией я выбрал рассказ Эрика Грина из Wells Fargo AI Labs об анализе транзакционных данных в банках.

«Продвинутные» банки давно делают глубокую аналитику для прогнозирования будущих транзакций, сегментации, выявления мошенничества и т.д., но пока мало кто может похвастаться работающим решением на базе глубоких сетей.

Идея предложенного подхода очень простая — сначала история транзакций записывается в неком структурированном формате, после этого каждый атрибут транзакции кодируется определенным числом (word embedding), а затем к получившимся векторам применяются глубокие сети (CNN или RNN). Такой механизм универсален и позволяет решать как задачу классификации, так и задачи прогнозирования и кластеризации транзакций. К сожалению, с точки зрения подачи материала лекция оказалась довольно слабой, и у автора выудить детали по качеству данного решения не удалось.

Зато следующий рассказ о совместном проекте Teradata и датского Danske Bank по внедрению антифрод-решения на базе глубокого обучения получился куда лучше. Задача была повысить качество обнаружения мошеннических транзакций. Ребята описывали довольно интересное решение, связанное с представлением транзакций в виде «псевдокартинки» и последующим применением сверточной нейронной сети.

Ниже приведен пример такой псевдокартинки, где по горизонтали отложены атрибуты транзакции, а по вертикали моменты времени. Кроме того, вокруг каждого атрибута (выделены светло-синим) по часовой стрелке отложены наиболее коррелированные с ним атрибуты. Такое представление позволяет легко находить аномальные паттерны в поведении клиентов.

b3f535105f8fe73710aef2ac47b8d150.png


Если верить их цифрам, по качеству это решение оставило далеко позади даже всеми любимый градиентный бустинг. Я не всегда доверяю цифрам в презентациях, но даже если качество сопоставимо, это очень интересный результат. Я планирую обязательно попробовать данный подход где-нибудь в наших задачах.

6c4ee032a80cec4504638b36c7526775.png

Правда на вопрос «Как такое решение будет проходить европейские требования GDPR по интерпретируемости модели» ребята так и не ответили. Будь он задан мне, я бы отослал к такой замечатльной штуке как LIME — интерпретатору сложных нелинейных моделей.

Дальше я пошел на панельную дискуссию с тремя девушками, владельцами AI-ориентированных стартапов. Дискуссия была о том, как выстроить эффективный бизнес в сфере AI. По факту сессия оказалась самой бесполезной: несмотря на обещанный «no fluff» в названии, никаких секретов раскрыто не было, а «общие» вопросы чередовались «общими» ответами. Единственное, что запомнилось из лекции, это выступавшая там девушка с необычным именем Коко (по совместительству профессор MIT).

59deef9d640f8271807689.jpeg

Что там в Amazon


Далее меня заинтересовала лекция от Amazon про фреймворк распределенного глубокого обучения Apache MXNet. Я рассчитывал на мини-туториал по данному фреймворку, но по факту 90% рассказа были посвящены рекламе сервисов Amazon, а в оставшиеся 10% MxNet была упомянута просто как основная платформа для глубокого обучения, использующаяся во всех сервисах Амазона.

Среди достижений народного хозяйства компании были представлены:

  • голосовой помощник Alexa,
  • телепомощник Amazon Show — вариант Alexa с камерой и дисплеем,
  • Amazon X-Ray — встроенный в видеоплеер помощник, который по стопкадру может показать биографию актера, а также вывести информацию о сюжете и персонаже,
  • а также Amazon Go — магазин без кассовых аппаратов (мечта гопника) — просто набираешь продукты в корзину и идешь на выход, магазин сам определяет состав продуктов в корзине и списывает деньги со счета. Магазин сейчас работает в beta-режиме (только для сотрудников).


67c9e7d629ea2c5f3f3e8da13f0a7a59.png


Во всех перечисленных выше проектах в том или ином виде используется глубокое обучение и, в частности, фреймворк Apache MxNet.

«Железная» логика


Далее выступал представитель Numenta — компании, которая занимается разработкой систем, моделирующих работу Неокортекса (части мозга человека, отвечающей за высокоуровневую интеллектуальную деятельность и обучение). Идея — построить обучающиеся структуры, более близкие по своей архитектуре мозгу человека, чем сегодняшние нейронные сети. В основе лежит теория иерерархической темпоральной памяти  (Hierarchical Temporal Memory), которая описывается в книге Джефа Хокинса 2004 года «Об интеллекте». Собственно, он же и основал компанию Numenta.

Сами авторы позиционируют свой проект как исследовательский и, несмотря на то, что алгоритм может решать разные задачи, пока нет результатов, подтверждающих, что подход работает лучше традиционных глубоких нейронных сетей. У выступавшего Мэта Тейлора есть канал на YouTube (HTMSchool), но он мне, честно говоря, не понравился и для ознакомления я бы рекомендовал все-таки печатные материалы.

Тема «железа» (AI acceleration) на конференции поднималась достаточно часто. Многие компании занимаются разработкой высокопроизводительных вычислительных комплексов, оптимизированных специально под обучение нейронных сетей. Известные примеры это процессоры Google TPU (tensor processing units), GPU дата-центры от Nvidia, или созданный в 2014 году компьютер TrueNorth от IBM, своей архитектурой повторяющий модель неокортекса. С ростом объемов данных скорость обучения становится важным конкурентным преимуществом.

Когда роботы захватят людей


Далее был интересный доклад Кэти Джордж из McKinsey о потенциале автоматизируемости профессий. Частично о результатах можно почитать на сайте McKinsey (к сожалению, в виде единой pdf у них не нашел).

Каждую профессию они рассматривали как комбинацию определенных действий и смотрели, какой процент этих действий может быть автоматизирован с учетом текущих технологий. Результаты меня удивили! Несмотря на то, что потенциал для автоматизации есть почти во всех профессиях, полностью автоматизированы могут быть всего 5% позиций. Что немножко расходится с популярной риторикой о том, что через год роботы поработят всех юристов (или как там было…).

17ae7344585c63b97e5b56ca90242237.png

Наибольшим потенциалом обладает предсказываемая физическая деятельность — это те же конвейеры на производстве, а также сбор и хранение данных, наименьшим — непредсказуемая физическая активность — например, игра в футбол (впрочем, насчет непредсказуемости болельщики сборной России могут поспорить).

Любопытно, что зависимость автоматизируемости от оплаты труда имеет форму треугольника — высокооплачиваемые профессии мало автоматизируются, а вот среди низкооплачиваемых разброс намного больше.

826407fbeb80f81783825e61acabc5f3.png

Интересно, что если смотреть потенциал по разным индустриям, то на первое место авторы поставили горячо любимую в нашей компании задачу персонализированного маркетинга (personalized advertizing).

021663bb9314755e0999868cabc72e06.png

День второй


Если глубокая аналитика давно перестала быть чисто академической дисциплиной и стала вполне себе прикладной (любой ларек с шаурмой умеет строить модели), то в области искусственного интеллекта дела обстоят чуть по-другому. Область активно развивается, и люди пытаются находить все новые точки применения, среди которых есть и абсолютно бесполезные с практической точки зрения.

Генерация искусства


Даг Эк из Google рассказывал о проекте Google Magenta — открытом репозитории моделей для создания музыки и рисунков.

В качестве первого примера авторы приводили созданное машиной классическое фортепианное произведение и, если не знать контекста, понять, что оно написано роботом, довольно сложно.

Затем был рассказ про сеть sketch-RNN, электронного художника, работающего на базе автоэнкодера и умеющего перерисовывать нарисованные от руки картинки и символы.

Автоэнкодер — сеть, сначала переводящая картинку в некое сжатое представление, а затем восстанавливающая его изначальную размерность. Таким образом, сеть работает как высокочастотный фильтр и способна убирать шум с картинки (шум в широком смысле, например, недорисованный ус).

12154d88c1943039f1b239c155e286c8.png


Слева — котэ, нарисованный человеком, а справа — сгенерированный машиной образ.

Понять, где рисует машина, где человек — невозможно. В целом, становится все больше областей, где машины проходят тест Тьюринга (тест Тьюринга не обязательно формулируется для диалоговых систем, это может быть, например, распознавание или генерация картинок).

Авторы сами признаются, что конкретной цели у проекта нет, но это нормально, если вспомнить, что многие выдающиеся изобретения были разработаны безо всякой цели. По крайней мере, для рынка поп-музыки потенциал, мне кажется, очевиден.

Покер и теория игр


Другое известное применение искусственного интеллекта — это соревнование с человеком в азартных (и не очень) играх. Томас Сендхолм из Carnegie-Melon University рассказывал об игре в покер. Все знают, что машина давно обыгрывает человека в шахматы, слышали про недавнюю победу в Go, но выигрыш искусственного интеллекта в покерном турнире в этом году не получил большой огласки.

В теории игр игра с неполной информацией — та, в которой игрок не видит карт соперника. Из-за этого на каждом шаге ему приходится иметь дело не с детерминированным деревом игры, а с вероятностями и их матожиданием. Такие игры сложнее, так как необходимо просчитывать большее количество комбинаций. Решить игру означает найти оптимальную стратегию. Если упрощенные версии покера с помощью брут-форса были решены относительно давно, то более сложный вариант noLimit texas Holdem содержит 10^161 (больше числа атомов во Вселенной) вариантов игры, и прямое решение здесь невозможно.

Для решения использовался мощный суперкомпьютер, в реальном времени обрабатывающий поступающую информацию от игрового стола (Libratus), а в качестве математического алгоритма метод Monte-Carlo Counterfactual Regret Minimization.

Турнир я не видел, но говорят, вопреки ожиданиям AI играл довольно «тайтово», делал большие ставки, «давил банком» и брал «на понт».

3f31d634202e80df766bee55103283f0.png


Для индустрии азартных игр это означает перспективу роботизации, сравнимую с роботизацией рынка ценных бумаг.

Беспилотные авто


Одна из топовых тем, имеющих отношение к искусственному интеллекту, — это, конечно, беспилотные авто. Она не только популярна, но еще и весьма «широка». Разработчики таких машин вынуждены иметь дело не только с технологиями компьютерного зрения, но еще и с теорией оптимального управления, многочисленными системами позиционирования и решать множество прогностических задач. Не так сложно научить машину распознавать сцену и поворачивать руль в нужном направлении. Гораздо сложнее создать полностью автономного агента, способного безопасно передвигаться в потоке вместе с обычными водителями и координировать с ними свои действия.

Анка Драган из Berkley рассказывала о проблемах поведения беспилотных авто на дорогах. Для «затравки» было приведено два примера.

Первый пример: в штатах тестируемая гугломашина простояла два часа на перекрестке, пропуская другие машины, поскольку не могла вклиниться в поток. Вторым примером было показано видео а-ля телепередача «Водить по-русски», в котором где-то на просторах Миннесоты грузовик не дает перестроиться машине в свой ряд и «отжимает» легковушку обратно.

d1956ae90bb37aa695f7e8eb1e24fd33.jpg

Сейчас разрабатываемые беспилотники воспринимают другие машины как препятствия, от которых нужно держаться подальше: если робот видит, что машина не уступает дорогу, он не будет к ней соваться. Но такая модель поведения (defensive behavior) будет крайне неэффективной: на перекрестке такие беспилотники могут пропускать другие машины до бесконечности, а на дороге не смогут даже перестроиться на съезд.

С другой стороны, как показывает второй пример, рассчитывать на разумное поведение водителей тоже нельзя. Отсюда и одно из главных опасений — сумеет ли беспилотник правильно повести себя в нестандартных ситуациях. Поэтому авторы предлагают при разработке использовать некий сбалансированный подход — начинать маневр, исследовать реакцию водителя, и в зависимости от нее корректировать свои действия.

Про Doom, или что еще умеют глубокие сети


Далее была лекция Руслана Салахутдинова из Carnegie-Melon University и Apple с обзором возможностей глубокого обучения для решения различных задач. С точки зрения подачи материала, на мой взгляд, это была одна из лучших лекций. Вообще, интересующимся глубоким обучением рекомендую ознакомиться с лекциями данного товарища, коих в интернете достаточно (например, тут). Приведу несколько примеров.

За последние несколько лет глубокие сети совершили прорыв, не только количественный, но и качественный — начали появляться новые задачи, комбинирующие визуальную и текстовую аналитику. Если 2–3 года назад сети умели только классифицировать тематику картинки, то теперь они легко могут дать словесное описание всей сцены на естественном языке (задача caption generation).

d67aba6d77b0c1de38fe2ecbebe210a4.png

Кроме того, подобные системы умеют явно выделять на картинке объекты, соответствующие каждому отдельному слову из описания (так называемые Visual Attention Networks).

Основной вектор развития рекуррентных сетей связан с переходом к более совершенным механизмам запоминания контекста. В свое время в сфере рекуррентных сетей подобный прорыв совершили LSTM (long short-term memory) сети. Сейчас также разрабатываются сети с разными моделями памяти и один из таких вариантов — это сети MAGE, memory as acyclic graph enconding, способные моделировать долговременные ассоциации в тексте.

Или совсем поражающая воображение штука — сети с динамической памятью (Dynamic Memory Networks), которые не просто анализируют картинки или текст, но еще умеют отвечать на любой заданный вопрос касательно этой картинки или текста.

59deeccbd6442215636792.png

Далее был интересный блок про обучение с подкреплением (reinforcment learning). С появлением глубокого обучения данный подход получил всплекс интереса. Новые алгоритмы также пытаются задействовать механизм памяти.

В двух словах, Reinforcment Learning — это обучение оптимальному поведению. Какие-то действия системы поощряются, какие-то штрафуются, и задача системы научиться правильно действовать. Основное отличие от обучения с учителем в том, что система получает поощрение не при каждом действии, а довольно редко, поэтому она должна самостоятельно выстраивать весьма сложные стратегии поведения.

Для обучения с подкреплением идеально подходит виртуальная среда, в частности компьютерные игры. Она позволяет создавать бесконечное количество экспериментов, давая возможность без ограничений обучаться алгоритму, что невозможно сделать в реальности.

Результат работы традиционного RL (без памяти) был продемонстрирован на примере игры Doom. Для обучения использовались несколько классических карт. За найденный ключ или убитого врага следовало поощрение, а например, за падение в лаву — наказание. Если на первых итерациях обучения бот упирался лбом в стену, то спустя 8 часов обучения, он с полоборота сносил игроков так, что те не успевали ничего понять. Система отлично обобщала получаемые знания и одинаково хорошо играла как на старых, так и на новых картах.

83bc2bf3fc981044981a7b2c5ecca1ff.png

Если для шутеров классический RL вполне подходит, то для более сложных игр с логическими заданиями уже требуется запоминание контекста, т.е. наличие памяти. Для этого был разработан класс алгоритмов Reinforcment Learning with Structured Memory.

Про компьютерное зрение


Исторически самое первое применение глубоких сетей — это анализ изображений. Лекция от Microsoft была посвящена технологиям компьютерного зрения. Тимоти Хейзен выделил четыре основные задачи:

  • классификацию изображений,
  • поиск объектов на картинке (object detection),
  • сегментацию — выделение связных областей,
  • определение схожести.
59deef2a17697339766834.png

Если до 2012 года бал правили традиционные подходы, когда генерация фичей для обучения модели выполнялась вручную (HOG, SIFT и прочее), то в 2012 году прорыв в качестве распознавания совершила глубокая нейронная сеть AlexNet. В дальнейшем глубокие архитектуры стали стандартом.

В области компьютерного зрения бенчмарком является конкурс ImageNet, на котором тестируются все новые архитектуры. В 2016 году первое место заняла сеть от Microsoft ResNet, содержащая больше 150 слоев. На картинке ниже приведено сравнение точности известных сверточных сетей. Тенденнция к увеличению количества слоев на лицо, однако вместе с ней актуальной становится проблема «убывающего градиента» — обучать такие сети все сложнее. Можно предположить, что дальнейшие улучшения будут связаны с изменением архитектуры сетей, а не в увеличении числа слоев.

f8ca6b2b8504a1ab579812234d5bf1a4.png

В качестве примера приводилось четыре любопытных проекта, которые Microsoft делал в качестве консультантов.

  • Трекинг передвижения снежных леопардов в условиях дикой природы (подробнее здесь)
  • Умный холодильник — когда заканчивается пиво, он отправляет владельцу срочную смску с предупреждением или сам делает заказ в магазине.
  • Распознавание аэрофотоснимков для анализа развития территорий (здесь).
  • Избитая идея для Fashion-стартапа, когда по картинке определяется, что надето на человеке, и ищется максимально похожая одежда в ближайших магазинах. Кстати, если кому-то интересно, есть открытый датасет со шмотками.


Разумеется, не обошлось без рекламы двух своих продуктов: Cognitive Toolkit (CNTK) и Custom Vision — облачного сервиса для классификации изображений.

Я решил протестировать функционал Custom Vision и попробовал научить бинарную модель классификации отличать хипстеров от гопников. Для этого загрузил около 1000 изображений, из поиска Google Images. Никакой предобработки не делал, загружал как есть.

Модель обучалась несколько минут и в целом результаты получились неплохие (Precision: 78%, Recall: 89%). Да и на новых примерах классификатор работает корректно (см. ниже).
941b843e7138ae6d4984077b661d3376.png

Антихайп


Интересно, что на конференции много докладов было связано с развенчанием мифов. Поскольку тема хайповая, пишут о ней много и не всегда по делу.

Очень часто звучала такая мысль: существующие сегодня нейронные сети нельзя назвать полноценным интеллектом. Пока это лишь его очень грубая модель, частично обладающая свойством обучаемости, но очень плохо обобщающая и лишенная того, что называют «common sense». Многие спикеры сходились в том, что для разработки действительно «умного» интеллекта потребуется не один десяток лет. Пока что мы даже толком не знаем, как работает мозг, не говоря уже о том, чтобы создать его полноценный искусственный аналог.

Сегодня не существует однозначного определения понятия «искусственный интеллект», но большинство экспертов сходится, что такой интеллект должен обладать набором базовых способностей, присущих человеческому, в частности умением:

  • обучаться,
  • планировать и решать поставленные задачи,
  • обобщать,
  • коммуницировать с людьми.


Определенных успехов мы добились, пожалуй, только в способности обучения, а все остальное остается на очень базовом уровне. Потенциал развития искусственного интеллекта в ближайшие годы видится как раз в развитии этих характеристик.

Про One-shot Learning и Transfer Learing


Обучение с учителем — стандартный подход сегодня, однако он все чаще критикуется. Несколько раз звучала интересная мысль о том, что будущее машинного обучения за обучением без учителя, или по крайней мере роль учителя будет уменьшаться.

Ведь чтобы понять, что не стоит совать пальцы в розетку, человеку в отличие от нейросети не нужно 10 тысяч раз повторять этот опыт, и обычно он запоминает с первого (хотя не все, конечно). Помимо базовых инстинктов человек обладает неким здравым смыслом, предобученной базой знаний, которая позволяет ему легко делать обобщения. Есть гипотеза, что она заложена в сформировавшийся за годы эволюции неокортекс — присущую только высшим млекопитающим часть мозга, отвечающую за обучение.

Поэтому одно из направлений развития ИИ, которым сейчас активно занимается сообщество, — продвижение подхода One-shot Learning — вида обучения, при котором алгоритм способен делать обобщения, анализируя очень небольшое количество обучающих кейсов (в идеале один). В перспективе машины при принятии решения должны будут моделировать возможные ситуации, а не просто повторять решение на основе опыта. Способность обобщать — неотъемлемая черта любого интеллекта.

Чтобы проиллюстрировать сказанное, найдите в двух наборах ниже объекты, аналогичные выделенным. В отличие от компьютерной программы, человек, как правило, довольно легко справляется с этой задачей.

898d0beb19d1645ddc5f7b1fefeb8759.png

Еще одна близкая тема — это использование так называемого Transfer Learning — модели обучения, при которой предварительно обучается некая универсальная «грубая» модель, а затем для решения более специфических задач она дообучается уже на новых данных. Главное преимущество в том, что процесс обучения в этом случае выполняется в разы быстрее.

Чаще этот термин употребляется в контексте компьютерного зрения, но на самом деле идея легко обобщается на любые задачи ИИ. В качестве примера — многочисленные предобученные сети для распознавания изображений от Google или Microsoft. Эти сети натренированы распознавать базовые элементы изображения, для решения же конкретных задач необходимо дообучить всего несколько выходных слоев такой сети.

Вместо заключения


В целом поездка оказалась весьма поучительной и дала немало пищи для размышлений. Всегда приятно оказаться в компании профессионалов, которые занимаются примерно тем же, что и ты. Резюмировать мои впечатления от конференции, наверное, можно так: несмотря на то, что до создания настоящего искусственного интеллекта человечеству еще далеко, тема сегодня развивается семимильными шагами и находит все новые точки приложения в совешенно разных и порой неожиданных областях. Технологии, которые пару лет назад считались экзотикой, постепенно становятся новым стандартом.

Следующая конференция данной серии планируется в апреле 2018 года.

© Habrahabr.ru