Какие выводы я сделал, пытаясь написать статью с помощью искусственного интеллекта19.06.2018 09:50

Конспект истории Пола Форда для Bloomberg.

Пол Форд

О машинном обучении сейчас, похоже, говорит каждый. И всё же, когда меня спрашивают о том, что с ним делает моя компания по разработке ПО, я отвечаю: «Ничего». Ведь на определённом этапе делать с машинным обучением действительно нечего.

Но в случае, например, с Google, Apple, Facebook, Microsoft и Amazon использование инструментов машинного обучения оправдано — в распоряжении этих компаний огромное количество данных, настолько огромное, что человеку не справиться с ним самостоятельно. Тут на помощь и приходит ИИ.

Так вот, любопытство и глубокая лень вперемешку с оптимизмом подтолкнули меня к изучению машинного обучения. Я задумал самостоятельно научить нейронную сеть писать как я, загрузив в неё все свои тексты. Мне, конечно, пришлось попотеть.

Во-первых, разобраться в терминологии оказалось очень непросто — что такое, скажем, рекуррентные нейронные сети и долгая краткосрочная память? Даже мне — привыкшему к жаргону разработчику — было сложно. Что ещё хуже, в машинном обучении задействовано много математики.

Сложившаяся ситуация напомнила мне Linux и сеть в 1990-е годы: перед тобой откроются невероятные возможности, стоит только освоить терминологический язык. Разумеется, осилить его необходимо, ведь технология работает.

А работает она потому, что машинное обучение пишет код за вас. Загружаете данные и на выходе получаете программу для их классификации. Как? Зачастую этогоне знают даже серьёзные разработчики. Не стоит ли в таком случае взять паузу и всё обдумать? Согласится ли на это Кремниевая долина? Думаю, нет.

С другой стороны, машинное обучение — штука очень медленная. Мы привыкли к удивительной быстроте, с которой компьютеры выполняют тысячи задач одновременно. Но когда я попытался скормить программе все свои статьи в надежде, что компьютер напишет за меня хоть пару строк, мой ноутбук словно сказал мне «нет». Чтобы создать модель стилистических особенностей моего письма, потребовалась как минимум ночь. Выходит, пока быстрее написать текст самому.

Но начитавшись различных руководств, я не собирался сдаваться и установил TensorFlow, среду для машинного обучения от Google. В этот раз я решил загрузить в систему встречи из Google Календаря и посмотреть, смогу ли сгенерировать новые, звучащие правдоподобно приглашения.

К сожалению, названия моих встреч и дел довольно однообразны: «подбор кадров», «разработка», «офисные посиделки». Так или иначе, я запустил скрипт, но напутал с настройками, и нейронная сеть постоянно выдавала мне «разработку».

Тем не менее я был горд собой. Сменив настройки, я попробовал снова. А затем ещё раз. И опять. На самом деле я так увлёкся, что пропустил настоящую встречу. Результаты, впрочем, оставляли желать лучшего.

В какой-то момент я решил перенести свои занятия домой, где у меня была мощная видеокарта, но к несчастью, я не смог совместить её с Linux. Однако выход всё равно оставался — я мог арендовать тензорный процессор Google, используя облачные сервисы компании. У Microsoft за $50 в месяц можно получить место на облаке для машинного обучения, Amazon предлагает нечто похожее за пять центов в час.

В итоге вернувшись на работу, я вновь поменял настройки нейронной сети — минимальной единицей обучения стали слова, а не символы, что значительно ускорило процесс. Через 2 тысячи эпох я наконец-то начал получать более-менее понятные ответы и понемногу осознавать, почему все так восхищаются машинным обучением — всегда найдётся что-то, что можно поправить и сделать компьютер более похожим на мыслящее существо. Совершенно удивительно наблюдать за тем, как учится машина.

И всё же спустя 20 тысяч эпох результаты не стали лучше. Я исчерпал свои знания в машинном обучении и сделал несколько выводов:

Мой корпус текстов оказался слишком мал для создания сносной прогнозирующей модели.
Как и любому ПО, инструментам машинного обучения нужен человек, присматривающий за ними и направляющий их поведение. По крайней мере на этом этапе.
Да и зачем вообще напрягаться? У крупных компаний есть люди, данные, ПО. Не хотите платить Google? Переходите на Amazon. Сегодня обучение проходит медленно, а уже завтра любая посудомойка будет учить нейронную сеть лучше мыть тарелки.

Между тем для технологических гигантов потенциал огромен. У Google, скажем, в распоряжении множество данных, которые машинное обучение очень эффективно превращает в большие данные.

Поэтому, будь я Google, в худшем случае я просто воспользуюсь тем, что даёт мне машинное обучение, и усовершенствую свой набор рекламных продуктов, сделав их умнее и полезнее, заодно улучшив поиск на всех платформах и сети в целом. Плюс ко всему, я смогу упростить использование телефонов на Android.

Одновременно с этим я, Google, выпущу общедоступную платформу TensorFlow, и тем самым привлеку большую группу разработчиков, которые просто захотят воспользоваться инфраструктурой и заниматься машинным обучением в серьёзных масштабах. Такой ход поможет обновить инструменты для внутреннего пользования, что с течением времени принесёт ещё много миллиардов долларов.

В самых смелых мечтах я бы запустил совершенно новую линейку продуктов, связанных с машинным зрением, переводом и сервисами автоматической торговли, создав разработки стоимостью в сотни миллиардов долларов — до того как машинное обучение станет дешёвым и доступным.

Я имею в виду следующее: даже если все смогут без проблем заниматься такими вычислениями, у меня останутся данные, за доступ к которым придётся неплохо заплатить. Я бы так и занимался беспилотными машинами, создавал голосовые и почтовые ассистенты, при этом обеспечивая всех вокруг облачной инфраструктурой для машинного обучения, потому как мои инструменты станут стандартом и данных у меня будет больше всех.

Да, на практике появятся определённые неудобства: полиция сможет отслеживать потенциальных преступников, кредитные агентства — ненадёжных заёмщиков и так далее. Но мы будем просто поддерживать инфраструктуру.

В худшем случае, я, Google, стану чрезвычайно успешной компанией, а в лучшем — стану основой для новой цифровой эпохи, где компьютер глубоко интегрирован в нашу жизнь.

#будущее #искусственныйинтеллект