[Из песочницы] Что такое автоматизированное машинное обучение (AutoML)

habr.png

С того момента как стали появляться инструменты автоматизированного машинного обучения (AutoML), такие как Google AutoML, эксперты обсуждают вопрос — готовы ли они к полной корпоративной интеграции и применению. В описании инструментов AutoML утверждается, что каждый может взять на себя роль «исследователя данных» (data scientist), способного создавать готовые для промышленного применения модели машинного обучения без традиционно необходимого технического образования.

Хотя, безусловно, верно, что автоматизированные процессы машинного обучения меняют способы, с помощью которых предприятия могут выполнять задачи анализа данных, технология еще не готова оставить специалистов по данным без работы. Одно из главных утверждений технологии заключается в том, что автоматически созданные модели имеют схожее качество и производятся в кратчайшие сроки по сравнению с эквивалентной моделью, созданной группой исследователей данных.

Хотя модели AutoML создаются быстрее, они эффективны только в том случае, если проблема, которую они ищут, является постоянной и повторяющейся. Большинство моделей AutoML работают хорошо и достигают постоянного качества в этих условиях;, но чем сложнее проблемы с данными, тем больше требуется вмешательство специалиста, чтобы понять, что запустила система AutoML, и превратить ее в нечто полезное. Чтобы понять некоторые из этих ограничений, давайте рассмотрим процесс AutoML более подробно.

Инструменты AutoML упрощают процесс обработки данных, делая все возможное, используя имеющуюся информацию. Процесс состоит из трех основных этапов:

Первый этап включает в себя «добычу» информации, которая помогает повысить производительность сгенерированных моделей, создавая дополнительную информацию для изучения. Это занимает очень много времени, так как специалисту по анализу данных необходимо практически вручную выявлять взаимосвязи между элементами данных и разрабатывать способы представления информации в качестве дополнительных полей данных, которые машина может использовать для обучения, а так же принять решение о полноте данных что бы построить модель.

Это важный этап, поскольку эти дополнительные данные очень часто означают разницу между неподходящей и превосходной моделью. AutoML запрограммирован на использование ограниченного диапазона методов обнаружения данных, обычно таким образом, чтобы удовлетворить «среднюю» проблему данных, ограничивая конечную производительность модели, поскольку он не может использовать знания конкретного МСБ (малый средний бизнес), которые могут быть важны для успеха и то, что специалист по данным может использовать в своей работе.

Многие проблемы с данными начинаются со значительных умственных усилий по выбору данных для представления в алгоритм. Передача всех данных, имеющихся у вас в системе, может привести к модели, не соответствующей параметрам, поскольку в данных обычно содержится много разных, часто противоречивых сигналов, которые должны быть нацелены и смоделированы индивидуально.

Это особенно верно в отношении мошенничества, когда различные географические регионы, каналы оплаты и т. д. имеют очень разные виды мошенничества. Попытки вручную обнаружить эти шаблоны и спроектировать соответствующие наборы данных для обеспечения точного обнаружения все еще в значительной степени не автоматизированы. Использование многоцелевого автоматизированного подхода к этой проблеме в настоящее время невозможно из-за огромной сложности такого мероприятия.

Следующий этап — генерация моделей. Модели с различными конфигурациями создаются и обучаются с использованием данных предыдущего этапа. Это очень важно, поскольку практически невозможно использовать конфигурацию по умолчанию для каждой проблемы и получить наилучшие результаты.

На этом этапе системы AutoML имеют преимущество перед специалистами по данным, поскольку они способны создавать огромное количество тестовых моделей за очень короткий промежуток времени. Большинство систем AutoML стремятся быть универсальными и производят только глубокие нейронные сети, которые могут быть излишними для многих задач, когда простая модель, такая как логистическая регрессия или деревья решений, может быть более подходящей и выигрывает от оптимизации гиперпараметров.

Завершающим этапом является массовое тестирование производительности и выбор лучшего исполнителя. Именно на этом этапе требуется некоторый ручной труд, не в последнюю очередь потому, что крайне важно, чтобы пользователь выбрал правильную модель для задачи. Бесполезно иметь модель риска мошенничества, которая выявляет 100% случаев мошенничества, но ставит под сомнение каждую авторизацию.

В текущем ручном процессе специалисты по данным работают с МСБ, чтобы понять данные и разработать эффективные описательные функции данных. Эта важная связь между МСБ и специалистом по данным отсутствует в AutoML общего назначения. Как описано ранее, процесс пытается автоматически сгенерировать эти модели из того, что инструмент может обнаружить в данных, что может быть неуместно, что приводит к неэффективным моделям. Будущие системы AutoML должны быть разработаны с учетом этого и других ограничений, чтобы создавать качественные модели в соответствии с разработанными специалистами по данным стандартами.

AutoML продолжает развиваться, и основные текущие поставщики AutoML (Google и Microsoft) достигли значительных улучшений. Эти разработки были сосредоточены главным образом на повышении скорости генерации готовых моделей, а не на изучении того, как можно улучшить технологию для решения более сложных проблем (например, обнаружения мошенничества и вторжения в сеть), где AutoML может продвинуться дальше чем специалист по данным.

По мере того как решения AutoML продолжают развиваться и расширяться, автоматизировать можно будет более сложные ручные процессы. Современные системы AutoML отлично работают с изображениями и речью, поскольку в AutoML встроены знания для бизнеса, позволяющие выполнять эти задачи так хорошо. Будущие системы AutoML будут иметь возможность для бизнес-пользователей вводить свои знания, чтобы помочь машине в автоматическом создании очень точных моделей.

Вдобавок ко всему, сложные конвейеры данных будут становиться все более и более упорядоченными, и добавление большого количества разнообразных алгоритмов для оптимизации еще больше расширит возможные варианты проблем, которые смогут решать ученые, работающие с данными граждан.

Хотя многие задачи по обработке данных станут автоматизированными, это позволит ученым выполнять заказные задачи для бизнеса; дальнейшее стимулирование инноваций и предоставление возможности бизнесу сосредоточиться на более важных направлениях получения доходов и роста бизнеса.

© Habrahabr.ru