[Из песочницы] Ограничения машинного обучения
Привет, Хабр! Представляю вашему вниманию перевод статьи «The Limitations of Machine Learning» автора Matthew Stewart.
Большинство людей, читающих эту статью, вероятно, знакомы с машинным обучением и соответствующими алгоритмами, используемыми для классификации или прогнозирования результатов на основе данных. Тем не менее, важно понимать, что машинное обучение не является решением всех проблем. Учитывая полезность машинного обучения, может быть трудно согласиться с тем, что иногда это не лучшее решение проблемы.
Машинное обучение — это раздел искусственного интеллекта, который произвел революцию в мире, каким мы его знаем за последнее десятилетие. Информационный взрыв привел к сбору огромных объемов данных, особенно крупными компаниями, такими как Facebook и Google. Этот объем данных в сочетании со стремительным развитием процессорной мощности и компьютерной параллелизации позволяет сравнительно легко получать и изучать огромные объемы данных.
В наше время гипербола о машинном обучении и искусственном интеллекте повсеместна. Возможно, это правильно, учитывая, что потенциал для этой области огромен. За последние несколько лет число консалтинговых агентств по ИИ возросло, и, согласно отчету Indeed, количество рабочих мест, связанных с ИИ, увеличилось на 100% в период с 2015 по 2018 годы.
По состоянию на декабрь 2018 года Forbes обнаружил, что 47% бизнеса имеют по крайней мере одну возможность использования ИИ в своем бизнес-процессе, a в отчете Deloitte говорится, что уровень проникновения корпоративного программного обеспечения со встроенным ИИ и облачных сервисов разработки ИИ, достигнет примерно 87 и 83 процентов соответственно. Эти цифры впечатляют — если вы планируете сменить карьеру в ближайшее время, ИИ кажется неплохой областью.
Все кажется великолепным, верно? Компании счастливы, и, по-видимому, потребители тоже счастливы, иначе компании не использовали бы ИИ.
Это здорово, и я тоже большой поклонник машинного обучения и искусственного интеллекта. Однако бывают случаи, когда использование машинного обучения просто не нужно, не имеет смысла, и иногда, когда реализация может привести к трудностям.
Ограничение 1 — Этика
Легко понять, почему машинное обучение оказало такое глубокое влияние на мир, но что менее ясно, каковы именно его возможности и, что еще важнее, каковы его ограничения. Юваль Ной Харари, как известно, придумал термин «датаизм», который относится к предполагаемому новому этапу цивилизации, в который мы вступаем, когда мы доверяем алгоритмам и данным больше, чем собственному суждению и логике.
Хотя эта идея может показаться смешной, но помните, когда вы в последний раз ездили в отпуск и следовали инструкциям GPS, а не своим собственным суждениям о карте — ставите ли вы под сомнение оценку GPS? Люди буквально въезжали в озера, потому что слепо следовали инструкциям своего GPS.
Идея доверять данным и алгоритмам больше, чем мы думаем, имеет свои плюсы и минусы. Очевидно, мы извлекаем выгоду из этих алгоритмов, иначе мы бы не использовали их в первую очередь. Эти алгоритмы позволяют нам автоматизировать процессы, делая обоснованные суждения, используя доступные данные. Иногда, однако, это означает замену чьей-либо работы алгоритмом, который сопровождается этическими последствиями. Кроме того, кого мы обвиняем, если что-то пойдет не так?
Наиболее часто обсуждаемый случай в сегодняшнее время — это самоуправляемые автомобили: как мы решаем, как транспортное средство должно реагировать в случае фатального столкновения? Будет ли у нас в будущем возможность выбрать этические рамки при покупке, которым следовал бы наш самоуправляемый автомобиль?
Кто виноват, если моя самоуправляемая машина кого-то убьет на дороге?
Хотя это все увлекательные вопросы, они не являются главной целью этой статьи. Однако очевидно, что машинное обучение не может сказать нам ничего о том, какие нормативные ценности мы должны принимать, то есть как мы должны действовать в данной ситуации.
Ограничение 2 — Детерминированные проблемы
Это ограничение, с которым мне лично приходилось иметь дело. Моя область знаний — наука об окружающей среде, которая в значительной степени опирается на компьютерное моделирование и использование датчиков / устройств IoT.
Машинное обучение невероятно эффективно для датчиков и может использоваться для калибровки и корректировки датчиков при подключении к другим датчикам, измеряющим переменные среды, такие как температура, давление и влажность. Корреляции между сигналами от этих датчиков могут быть использованы для разработки процедур самокалибровки, и это горячая тема исследований в моей области исследований химии атмосферы.
Однако все становится немного интереснее, когда дело доходит до компьютерного моделирования.
Запуск компьютерных моделей, которые имитируют глобальную погоду, выбросы с планеты и перенос этих выбросов, очень затратные в вычислительном отношении. На самом деле, это настолько трудоемко в вычислительном отношении, что моделирование на уровне исследований может занять несколько недель даже при работе на суперкомпьютере.
Хорошими примерами этого являются MM5 и WRF, которые представляют собой численные модели прогнозирования погоды, которые используются для исследований климата и для предоставления вам прогнозов погоды в утренних новостях. Интересно, что синоптики делают весь день? Запустите и изучите эти модели.
Работать с моделями погоды — это хорошо, но теперь, когда у нас есть машинное обучение, можем ли мы использовать его вместо этого, чтобы получать наши прогнозы погоды? Можем ли мы использовать данные со спутников, метеостанций и использовать элементарный алгоритм прогнозирования, чтобы определить, пойдет ли дождь завтра?
Ответ, на удивление, да. Если у нас есть сведения о давлении воздуха вокруг определенного региона, уровнях влажности в воздухе, скорости ветра и информации о соседних точках и их собственных переменных, то становится возможным обучать, например, нейронную сеть. Но какой ценой?
Использование нейронной сети с тысячами входов позволяет определить, будет ли завтра дождь в Бостоне. Тем не менее, использование нейронной сети пропускает всю физику погодной системы.
Машинное обучение является стохастическим, а не детерминированным.
Нейронная сеть не понимает второй закон Ньютона, или что плотность не может быть отрицательной — нет никаких физических ограничений.
Однако это не может быть ограничением надолго. Уже есть ряд исследователей, которые рассматривают добавление физических ограничений к нейронным сетям и другим алгоритмам, чтобы их можно было использовать для таких целей, как эта.
Ограничение 3 — Данные
Это самое очевидное ограничение. Если вы плохо «кормите» модель, то это даст только плохие результаты. Это может проявляться двумя причинами: нехватка данных и нехватка достоверных данных. Если у вас таких проблем нет, то вы смело можете изучать обработку больших массивов данных на Телеграм-канале «Big Data Books», где публикуются различные книги и ресурсы по Big Data.
Недостаток данных
Многие алгоритмы машинного обучения требуют больших объемов данных, прежде чем они начнут давать полезные результаты. Хорошим примером этого является нейронная сеть. Нейронные сети — это data-eating машины, которые требуют большого количества обучающих данных. Чем больше архитектура, тем больше данных требуется для получения жизнеспособных результатов. Повторное использование данных — плохая идея, всегда предпочтительнее иметь больше данных.
Если вы можете получить данные, то используйте их.
Недостаток хороших данных
Несмотря на внешний вид, это не то же самое, что написано выше. Представим, что вы думаете, что можете обмануть, сгенерировав десять тысяч фальшивых точек данных для размещения в нейронной сети. Что происходит, когда вы вставляете это?
Он будет обучаться сам, а затем, когда вы придете, чтобы проверить его на новом наборе данных, он не будет работать хорошо. У вас были данные, но качество желает лучшего.
Точно так же, как недостаток хороших признаков может привести к плохой работе вашего алгоритма, так и недостаток хороших правдивых данных может также ограничить возможности вашей модели. Ни одна компания не собирается внедрять модель машинного обучения, которая работает хуже, чем ошибка человеческого уровня.
Точно так же применение модели, обученной на наборе данных в одной ситуации, может не обязательно применяться также хорошо и ко второй ситуации. Лучший пример этого, который я нашел до сих пор, — в прогнозировании рака молочной железы.
В базах данных маммографии много изображений, но у них есть одна серьезная проблемы, которая вызвала значительные проблемы в последние годы — почти все рентгеновские снимки сделаны у белых женщин. Это может показаться не таким уж большим делом, но на самом деле было показано, что темнокожие женщины на 42 процента чаще умирают от рака молочной железы из-за широкого спектра факторов, которые могут включать различия в выявлении и доступе к медицинской помощи. Таким образом, обучение алгоритму в первую очередь для белых женщин в этом случае отрицательно влияет на темнокожих женщин.
В этом конкретном случае требуется большее количество рентгеновских снимков темнокожих пациентов в базе данных обучения, больше признаков, относящихся к причине повышения вероятности на 42 процента, и чтобы алгоритм был более справедливым за счет стратификации набора данных вдоль соответствующих осей.
Ограничение 4 — Неправильное применение
Относительно второго ограничения, обсуждавшегося ранее, предполагается, что это «кризис машинного обучения в академических исследованиях», когда люди слепо используют машинное обучение, чтобы попытаться проанализировать системы, которые являются либо детерминированными, либо стохастическими по природе.
По причинам, обсуждаемым во втором ограничении, применение машинного обучения в детерминированных системах будет успешным, но алгоритм, который не изучает отношения между двумя переменными, и не будет знать, когда он нарушает физические законы. Мы просто дали некоторые входы и выходы в систему и сказали ей изучить отношения — подобно тому, как кто-то переводит слово в слово из словаря, алгоритм будет казаться только поверхностным пониманием основной физики.
Для стохастических (случайных) систем все немного менее очевидно. Кризис машинного обучения для случайных систем проявляется двумя способами:
- P-hacking
- Объем анализа
p-hacking
Когда кто-то имеет доступ к большим данным, которые могут иметь сотни, тысячи или даже миллионы переменных, нетрудно найти статистически значимый результат (учитывая, что уровень статистической значимости, необходимый для большинства научных исследований, равен p
Это привело к тому, что отдельные исследователи «ловили» статистически значимые корреляции через большие наборы данных и маскировали их под истинные корреляции. Иногда это невинная ошибка (в этом случае ученый должен быть лучше подготовлен), но в других случаях это делается для увеличения количества статей, опубликованных исследователем — даже в мире научных кругов конкуренция высока, и люди будут делать что угодно, чтобы улучшить свои метрики.
Объем анализа
Существуют существенные различия в объеме анализа для машинного обучения по сравнению со статистическим моделированием — статистическое моделирование по своей природе является подтверждающим, а машинное обучение — по сути исследовательским.
Мы можем рассматривать подтверждающий анализ и модели как то, что кто-то делает, получая Ph.D. или в области исследований. Представьте, что вы работаете с советником и пытаетесь разработать теоретическую основу для изучения какой-либо реальной системы. Эта система имеет набор предопределенных признаков, на которые она влияет, и после тщательного проектирования экспериментов и разработки гипотез вы можете запускать тесты, чтобы определить обоснованность ваших гипотез.
Исследовательскому анализу, с другой стороны, не хватает ряда качеств, связанных с подтверждающим анализом. Фактически, в случае действительно огромных объемов данных и информации подтверждающие подходы полностью разрушаются из-за огромного объема данных. Другими словами, просто невозможно аккуратно изложить конечный набор проверяемых гипотез при наличии миллионов признаков.
Следовательно, и, опять же, в общих чертах, алгоритмы и подходы машинного обучения лучше всего подходят для исследовательского прогнозного моделирования и классификации с огромными объемами данных и вычислительно сложными функциями. Некоторые будут утверждать, что их можно использовать для «небольших» данных, но зачем это делать, когда классические, многомерные статистические методы намного более информативны?
Машинное обучение — это область, которая в значительной степени решает проблемы, связанные с информационными технологиями, информатикой и т.д., это могут быть как теоретические, так и прикладные проблемы. Как таковая, она связана с такими областями, как физика, математика, вероятность и статистика, но машинное обучение на самом деле представляет область саму по себе, область, которая не обременена проблемами, поднятыми в других дисциплинах. Многие решения, которые придумывают эксперты и практики машинного обучения, мучительно ошибаются, но они выполняют свою работу.
Ограничение 5 — Интерпретируемость
Интерпретируемость является одной из основных проблем машинного обучения. Консалтинговая фирма ИИ, пытающаяся обратиться к фирме, которая использует только традиционные статистические методы, может быть остановлена, если они не видят модель как интерпретируемую. Если вы не можете убедить своего клиента в том, что вы понимаете, как алгоритм пришел к решению, которое он принял, насколько вероятно, что он будет доверять вам и вашему опыту?
Бизнес-менеджер с большей вероятностью примет рекомендации метода машинного обучения, если результаты будут объяснены с точки зрения бизнеса.
Эти модели как таковые можно сделать бессильными, если их нельзя интерпретировать, а процесс человеческого толкования следует правилам, выходящим далеко за рамки технического мастерства. По этой причине интерпретируемость является первостепенным качеством, которого должны достичь методы машинного обучения, если они будут применяться на практике.
В частности, развивающиеся науки в области физики (геномика, протеомика, метаболомика и т. п.) стали основной целью для исследователей машинного обучения именно из-за их зависимости от больших и нетривиальных баз данных. Однако они страдают от недостаточной интерпретации своих методов, несмотря на их очевидный успех.
Вывод
Как я надеюсь, я доступно объяснил в этой статье, что существуют ограничения, которые, по крайней мере, на данный момент, препятствуют решению всех проблем человечества. Нейронная сеть никогда не может сказать нам, как быть хорошим человеком, и, по крайней мере, пока, не понимает законы движения Ньютона или теорию относительности Эйнштейна.
Существуют также фундаментальные ограничения, основанные на лежащей в основе теории машинного обучения, называемой теорией вычислительного обучения, которые в основном представляют собой статистические ограничения. Мы также обсудили вопросы, связанные с масштабами анализа и опасностями p-hacking, которые могут привести к ложным выводам.
Есть также проблемы с интерпретируемостью результатов, которые могут негативно повлиять на компании, которые не могут убедить клиентов и инвесторов в том, что их методы точны и надежны.
Машинное обучение и искусственный интеллект будут продолжать революционизировать индустрию и только станут более распространенными в ближайшие годы. Хотя я рекомендую вам в полной мере использовать машинное обучение и ИИ, я также рекомендую вам помнить об ограничениях используемых вами инструментов — в конце концов, нет ничего идеального.