Контролируемое и неконтролируемое машинное обучение — в чём разница?

fe09e6cdac8b171c735ee1563b296734.png

Контролируемое и неконтролируемое обучение являются двумя основными подходами к построению моделей машинного обучения (МО). В них заложен существенно разный подход к обучению, а также разные сценарии использования. В этой статье объясняются эти оба метода и различия между ними.

Контролируемое машинное обучение

Этот подход подразумевает обучение алгоритма МО на размеченных наборах данных. Для каждого примера в обучающем наборе алгоритм знает, какой результат является правильным. Он использует эти знания, чтобы попытаться обобщить их на новые примеры, которые он никогда раньше не видел. Применяя эту информацию, модель может постепенно обучаться и повышать свою точность. В размеченных данных каждый «вход» связан с правильным «выходом». Например, в наборе медицинских изображений каждое из них будет связано с указанием, содержит ли входное изображение признаки искомой болезни.

Цель этого метода заключается в умении модели устанавливать связь между выходными и входными данными. Она тренируется, итеративно составляя прогнозы на входах и корректируя свои параметры для получения верного ответа. Чаще всего метод контролируемого обучения используется в медицинской диагностике, выявлении спама и мошенничества, распознавании речи, прогнозировании оттока клиентов, рекомендациях по продуктам, анализе настроений.

Контролируемое МО состоит из двух подкатегорий: классификации и регрессии.

В классификации модель предсказывает правильную метку входных данных. Она полностью обучается и проходит тестовую оценку. Затем её можно применять для прогнозирования на новых, неизвестных данных. Примеры классификации с помощью контролируемого машинного обучения в повседневной жизни:

  • Здравоохранение. Обучение модели на исторических данных пациентов может помочь медицинским специалистам точно анализировать диагнозы. Во время пандемии COVID-19 были внедрены модели для эффективного прогнозирования наличия у человека COVID-19 или его отсутствия.

  • Образование. Неструктурированная информация из текстовых, видео- и аудиоданных может быть проанализирована с помощью моделей обработки естественного языка для выполнения таких задач, как классификация документов по категориям, автоматическое определение языка документов от студентов при подаче заявления, анализ студенческих отзывов.

  • Транспорт. В этой отрасли используют модели машинного и глубокого обучения для прогнозирования увеличения трафика в определённом географическом районе, потенциальных проблем дорожного движения из-за погодных условий и т. д. 

  • Устойчивое сельское хозяйство. Используя модели классификации, можно предсказать, какой тип земли лучше подходит для конкретного типа семян.

Другая подкатегория контролируемого МО — регрессия, результатом которой является непрерывное значение. Например, вероятность или цена. Бывают линейные и логистические регрессии.

Линейная регрессия. Простой алгоритм, который моделирует линейную связь между одной или несколькими объясняющими переменными и непрерывной числовой выходной переменной. Он быстрее обучается по сравнению с другими алгоритмами машинного обучения. Его самое большое преимущество заключается в способности объяснять и интерпретировать прогнозы модели. Используется для прогнозирования продаж или для предсказания непрерывных значений, таких как цены на жильё, например.

Логистическая регрессия. Не выполняет статистическую классификацию, а оценивает параметры логистической модели. Причина, по которой её можно применять для классификации, заключается в границе принятия решений, которая вставляется для разделения классов. Таким образом, в своей самой простой форме логистическая регрессия использует логистическую функцию для моделирования бинарных зависимых переменных.

Другие распространённые типы алгоритмов для выполнения классификации и/или регрессии:

  • Деревья решений. Это непараметрический алгоритм, который также может выполнять регрессию и классификацию. Он понятен и прост для визуализации и интерпретации. Концептуально можно рассматривать дерево решений в виде потока, текущего от корня к листьям. Путь к листу от корня определяет правило принятия решения, принятое на основе признаков.

  • Случайные леса. Это алгоритм, который использует bootstrap-агрегацию и метод случайного подпространства для выращивания отдельных деревьев с целью получения мощного агрегированного предиктора, способного как к классификации, так и к регрессии. Цель состоит в том, чтобы уменьшить корреляцию между предикторами для агрегированной модели.

  • Опорные векторные машины. Используются для классификации изображений и категоризации текстов.

  • Нейронные сети. Изучают сложные закономерности в данных и применяются для распознавания изображений и речи.

Преимущества контролируемого обучения:

  • высокая точность прогнозирования;

  • широкий спектр применений;

  • высокая степень интерпретируемости;

  • контроль процесса обучения;

  • оценка производительности алгоритма;

  • инкрементальное обучение.

Недостатки:

  • проблема доступности данных;

  • зависимость надёжности прогнозов и эффективности модели от качества и согласованности разметки;

  • зависимость производительности модели от правильно выбранных входных переменных;

  • сложность масштабирования;

  • ограниченность закономерностей, поскольку они только в пределах предоставленных наборов обучающих данных;

  • высокая вычислительная стоимость.

180e9047a3f4198e79d36ca6b6bc2f79.png

Неконтролируемое машинное обучение

Это подход, применяемый для обнаружения базовой структуры данных. Алгоритмы неконтролируемого обучения не требуют отображения входов и выходов и, соответственно, участия человека. Обычно они используются для выявления существующих закономерностей в данных, так что экземпляры группируются без необходимости в метках. Предполагается, что экземпляры, которые попадают в одну группу, имеют схожие характеристики.

Этот метод чаще всего используется в таких сценариях, как сегментация клиентов, обнаружение аномалий, анализ потребительской корзины, кластеризация документов, анализ социальных сетей, сжатие изображений.

Модели неконтролируемого машинного обучения группируют данные и используются для решения трёх основных задач:

  • Кластеризация. Группировка похожих точек данных в кластеры. Применяется для сегментации клиентов, когда компании могут группировать их на основе сходства (например, возраста, местоположения или покупательских привычек).

  • Ассоциация. Поиск связей между переменными. Правила ассоциации часто применяются в аналитике потребительских корзин.

  • Сокращение размерности. Алгоритм количественно сокращает переменные в данных, но при этом стремится сохранить как можно больше информации. Этот метод применяется во время предварительной работы с данными. Пример: улучшение качества изображения посредством удаления шума при помощи автокодировщика.

Наиболее распространённые алгоритмы и методы неконтролируемого машинного обучения:

  • Кластеризация методом k-средних (k-means). Популярный и широко используемый алгоритм, который разбивает данные на так называемые k-кластеры. Каждая точка данных присваивается ближайшему кластерному центру, а центры кластеров пересчитываются итеративно. Часто используется для кластеризации документов, сжатия изображений и сегментации рынка.

  • Иерархическая кластеризация. Алгоритм строит иерархию кластеров двумя способами: агломеративным (подход снизу вверх) и разделительным (нисходящий подход). Используется для организации документов и анализа социальных сетей.

  • DBSCAN. Алгоритм группирует точки данных, которые плотно упакованы, и отмечает те, которые лежат отдельно, как выбросы. DBSCAN предполагает, что кластеры — это плотные области в пространстве, разделённые областями с меньшей плотностью. В отличие от k-средних, DBSCAN выводит количество кластеров на основе данных и может обнаруживать кластеры произвольной формы. Используется для пространственного анализа данных и фильтрации шума.

  • Анализ главных компонентов. Преобразует данные в набор некоррелированных компонентов, которые максимизируют дисперсию. Этот процесс снижает размерность данных. Метод используется в анализе экспрессии генов, сжатии изображений и разведочном анализе данных.

  • Леса изоляции. Алгоритм создаёт набор деревьев, случайным образом выбирая признак и разделяя данные. Затем алгоритм обнаруживает аномалии, ища точки, требующие меньше разделений для изоляции. Метод используется для обеспечения сетевой безопасности и обнаружения мошенничества.

  • Одноклассовый SVM. Этот метод изучает границу, которая отделяет нормальные точки данных от выбросов. Используется для многомерных данных и в задачах обнаружения аномалий, таких как обнаружение производственных дефектов или мошенничество с кредитными картами.

Преимущества:

  • не нужны размеченные наборы данных;

  • выявляются скрытые закономерности;

  • сокращаются размерности;

  • выявляются аномалии и выбросы в представленных данных;

  • повышается экономическая эффективность.

Недостатки:

  • трудности в интерпретации результатов из-за отсутствия меток;

  • нет чётких метрик;

  • ресурсоёмкость;

  • проблемы переобучения;

  • зависимость от качества используемых признаков.

Контролируемое и неконтролируемое машинное обучение: сравнение

Контролируемое машинное обучение подразумевает использование обучающих наборов. К примеру, алгоритм может предсказать, как долго автомобилист будет в пути с учётом времени суток, погоды и т. д. Но сначала модель придётся научить понимать, что такое дождливая погода и как она увеличивает время вождения автомобиля.

Модели неконтролируемого машинного обучения работают сами по себе и обнаруживают внутреннюю структуру неразмеченных данных. Эти модели не требуют человеческого вмешательства. Они не делают прогнозов, а только автоматически группируют данные. Например, изображения по содержащимся на них объектам (людям, животным, зданиям и т. д.), не зная заранее, что это за объекты. Если использовать модель неконтролируемого обучения в одном и том же наборе данных о поездках на работу в автомобиле, она будет группировать поездки с одинаковыми условиями, такими как время суток и погода, но не сможет предсказать время в пути.

Как правильно выбрать

91ce6fdb6e4a11e1d1934b416f1b80ce.png

Контролируемое МО используется чаще, чем неконтролируемое, потому что оно точнее и эффективное. В свою очередь, неконтролируемое МО можно использовать для данных, которые не размечены, что часто встречается. Также его можно применять для поиска скрытых закономерностей в данных, которые модели контролируемого обучения не смогут обнаружить. Контролируемое обучение проблематично для классификации больших данных, но полученные результаты будут максимально точными. Алгоритмы неконтролируемого обучения легче обрабатывают большие данные в режиме реального времени, но конечные результаты менее точны.

Но это не выбор «или/или». Есть золотая середина, известная как полуконтролируемое обучение. Здесь используется набор обучающих данных как с размеченными, так и с неразмеченными данными. Это полезно, когда трудно извлечь соответствующие функции из больших объёмов. Например, такой алгоритм можно использовать для набора с миллионами изображений, из которых размечены только несколько тысяч.

Полуконтролируемое обучение оптимально для медицинских изображений, где небольшой объём обучающих данных может привести к значительному повышению точности результатов. Например, радиолог может разметить некоторую небольшую часть КТ-сканирований на наличие опухолей или других патологий, а машина сможет более точно предсказать, каким пациентам может потребоваться дополнительная медицинская помощь. Для этого не потребуется размечать весь набор данных.

© Habrahabr.ru