[Перевод] Сети Колмогорова-Арнольда: новый «старый» шаг к интерпретируемому ИИ

В мире искусственного интеллекта произошел интересный прорыв. Исследователи разработали новый тип нейронных сетей, который может сделать их работу более прозрачной и понятной. Эти сети, названные сетями Колмогорова-Арнольда (KAN), основаны на математическом принципе, открытом более полувека назад.

Нейронные сети сегодня — это мощнейшие инструменты искусственного интеллекта. Они способны решать сложнейшие задачи, обрабатывая огромные массивы данных. Однако у них есть существенный недостаток — их работа непрозрачна. Ученые не могут до конца понять, как именно сети приходят к своим выводам. Это явление получило название «черного ящика» в мире ИИ.

cede883baac9b8c2cafd8146af140e6e.png

Долгое время исследователи задавались вопросом: возможно ли создать нейронные сети, которые давали бы такие же точные результаты, но при этом работали бы более понятным образом? И вот, похоже, ответ найден.

В апреле 2024 года была представлена новая архитектура нейронных сетей — сети Колмогорова-Арнольда. Эти сети способны выполнять практически все те же задачи, что и обычные нейронные сети, но их работа гораздо более прозрачна. В основе KAN лежит математическая идея середины 20 века, которую удалось адаптировать для современной эпохи глубокого обучения.

Несмотря на то, что KAN появились совсем недавно, они уже вызвали большой интерес в научном сообществе. Исследователи отмечают, что эти сети более понятны и могут быть особенно полезны в научных приложениях. С их помощью можно извлекать научные закономерности непосредственно из данных. Это открывает новые захватывающие возможности для научных исследований.

Соответствие невозможному

Чтобы понять, в чем преимущество KAN, нужно разобраться, как работают обычные нейронные сети. Они состоят из слоев искусственных нейронов, соединенных между собой. Информация проходит через эти слои, обрабатывается и в итоге превращается в результат. Связи между нейронами имеют различные веса, которые определяют силу влияния. В процессе обучения сети эти веса постоянно корректируются, чтобы результат становился все более точным.

Главная задача нейронной сети — найти математическую функцию, которая наилучшим образом описывает имеющиеся данные. Чем точнее эта функция, тем лучше прогнозы сети. В идеале, если сеть моделирует какой-то физический процесс, найденная функция должна представлять собой физический закон, описывающий этот процесс.

Для обычных нейронных сетей существует математическая теорема, которая говорит, насколько близко сеть может приблизиться к идеальной функции. Из этой теоремы следует, что сеть не может представить эту функцию абсолютно точно. А вот KAN в определенных условиях способны на это.

KAN работают принципиально иначе. Вместо числовых весов они используют функции на связях между нейронами. Эти функции нелинейны, то есть могут описывать более сложные зависимости. При этом их тоже можно обучать, настраивая с гораздо большей точностью, чем простые числовые веса.

Однако долгое время KAN считались чисто теоретической конструкцией, непригодной для практического применения. Еще в 1989 году в научной статье прямо утверждалось, что математическая идея, лежащая в основе KAN, «неуместна в контексте обучаемых сетей».

Истоки этой идеи уходят в 1957 год, когда математики Андрей Колмогоров и Владимир Арнольд доказали интересную теорему. Они показали, что любую сложную функцию многих переменных можно представить в виде комбинации множества простых функций от одной переменной.

Андрей Колмогоров (вверху) и Владимир Арнольд в 1957 году доказали, что сложную математическую функцию можно переписать как комбинацию более простых.

Андрей Колмогоров (вверху) и Владимир Арнольд в 1957 году доказали, что сложную математическую функцию можно переписать как комбинацию более простых.

Однако была одна проблема. Простые функции, получаемые в результате применения теоремы, могли быть «негладкими», то есть иметь острые углы. Это создавало сложности для построения на их основе обучаемой нейронной сети. Ведь для успешного обучения функции должны быть гладкими, чтобы их можно было плавно подстраивать.

Так что идея KAN долгое время оставалась лишь теоретической возможностью. Но все изменилось в январе прошлого года, когда за эту тему взялся аспирант-физик из MIT Цимин Лю. Он работал над тем, как сделать нейронные сети более понятными для научных приложений, но все попытки заканчивались неудачей. И тогда Лю решил вернуться к теореме Колмогорова-Арнольда, несмотря на то, что раньше ей не уделяли особого внимания.

Его научный руководитель, физик Макс Тегмарк, поначалу скептически отнесся к этой идее. Он был знаком с работой 1989 года и думал, что эта попытка снова зайдет в тупик. Но Лю не отступал, и вскоре Тегмарк изменил свое мнение. Они поняли, что даже если функции, порождаемые теоремой, не являются гладкими, сеть все равно может аппроксимировать их гладкими функциями. К тому же, большинство функций, встречающихся в науке, как раз являются гладкими. А это значит, что теоретически возможно их идеальное (а не приближенное) представление.

Лю не хотел отказываться от идеи, не попробовав ее на практике. Он понимал, что за 35 лет, прошедших с момента публикации статьи 1989 года, вычислительные возможности шагнули далеко вперед. То, что казалось невозможным тогда, вполне могло оказаться реальным сейчас.

Около недели Лю работал над идеей, разрабатывая несколько прототипов KAN. Все они имели два слоя — самую простую структуру, на которой исследователи сосредотачивались десятилетиями. Выбор двухслойной архитектуры казался естественным, ведь сама теорема Колмогорова-Арнольда по сути дает схему такой структуры. Теорема разбивает сложную функцию на отдельные наборы внутренних и внешних функций, что хорошо соответствует двухслойной структуре нейронной сети.

Однако, к разочарованию Лю, ни один из его прототипов не показал хороших результатов в решении научных задач, на которые он рассчитывал. И тут Тегмарк предложил ключевую идею:, а что если попробовать KAN с большим количеством слоев? Такая сеть могла бы справляться с более сложными задачами.

Цимин Лю использовал теорему Колмогорова-Арнольда для построения нейронных сетей нового типа.

Цимин Лю использовал теорему Колмогорова-Арнольда для построения нейронных сетей нового типа.

Эта нестандартная мысль оказалась прорывом. Многослойные KAN начали подавать надежды, и вскоре Лю и Тегмарк привлекли к работе коллег из MIT, Калтеха и Северо-Восточного университета. Они хотели собрать команду, в которой были бы как математики, так и эксперты в областях, где планировалось применять KAN.

В апрельской публикации группа продемонстрировала, что трехслойные KAN действительно возможны. Они привели пример трехслойной KAN, способной точно представить функцию, с которой не справлялась двухслойная сеть. Но на этом исследователи не остановились. С тех пор они экспериментировали с сетями, имеющими до шести слоев. С каждым новым слоем сеть становилась способна выполнять все более сложные функции. «Мы обнаружили, что можем добавлять столько слоев, сколько захотим», — отметил один из соавторов работы.

Проверенные улучшения

Авторы также применили свои сети к двум реальным задачам. Первая относилась к области математики, известной как теория узлов. В 2021 году команда DeepMind создала обычную нейронную сеть, способную предсказывать определенное топологическое свойство узла на основе других его свойств. Спустя три года новая KAN не только повторила это достижение, но и пошла дальше. Она смогла показать, как предсказанное свойство связано со всеми остальными — то, чего обычные нейронные сети сделать не могут.

Вторая задача была связана с явлением в физике конденсированных сред, называемым локализацией Андерсона. Целью было предсказать границу, на которой происходит определенный фазовый переход, а затем вывести математическую формулу, описывающую этот процесс. Ни одна обычная нейронная сеть никогда не могла этого сделать. KAN справилась с задачей.

Но главное преимущество KAN перед другими типами нейронных сетей — их интерпретируемость. Именно это и было основной мотивацией для их разработки, по словам Тегмарка. В обоих примерах KAN не просто выдала ответ, но и предоставила объяснение. «Что значит, что что-то поддается интерпретации? Если вы дадите мне некоторые данные, я дам вам формулу, которую вы сможете записать на футболке», — пояснил Тегмарк.

Макс Тегмарк, соратник Лю, высказал ключевое предложение, которое привело к функционированию сетей Колмогорова-Арнольда

Макс Тегмарк, соратник Лю, высказал ключевое предложение, которое привело к функционированию сетей Колмогорова-Арнольда

Эта способность KAN, хотя пока и ограниченная, предполагает, что такие сети теоретически могут научить нас чему-то новому об окружающем мире, считает физик Брайс Менар из Университета Джона Хопкинса, изучающий машинное обучение. «Если проблема действительно описывается простым уравнением, сеть KAN довольно хорошо справляется с его поиском», — отметил он. Однако Менар предупредил, что область, где KAN работают лучше всего, вероятно, будет ограничена задачами, подобными тем, что встречаются в физике, где уравнения, как правило, содержат очень мало переменных.

Лю и Тегмарк согласны с этим, но не видят в этом недостатка. «Почти все известные научные формулы, такие как E = mc², можно записать в терминах функций от одной или двух переменных», — сказал Тегмарк. «Подавляющее большинство вычислений, которые мы выполняем, зависят от одной или двух переменных. KAN используют этот факт и ищут решения в такой форме».

Конечные уравнения

Статья Лю и Тегмарка о KAN быстро вызвала ажиотаж в научном сообществе, собрав 75 ссылок всего за три месяца. Вскоре другие группы исследователей начали работать над своими версиями KAN.

В июне появилась статья Ичжэна Вана из Университета Цинхуа и его коллег. Они показали, что их нейронная сеть на основе идей Колмогорова-Арнольда (KINN) «значительно превосходит» обычные нейронные сети в решении уравнений в частных производных. Это важное достижение, ведь такие уравнения встречаются повсюду в науке.

Исследование, опубликованное в июле учеными из Национального университета Сингапура, дало более неоднозначные результаты. Они пришли к выводу, что KAN превосходят обычные сети в задачах, где важна интерпретируемость. Однако в задачах компьютерного зрения и обработки звука лучше справлялись традиционные сети. В обработке естественного языка и других задачах машинного обучения оба типа сетей показали примерно одинаковые результаты. Для Лю эти выводы не стали неожиданностью. Ведь изначально группа разработчиков KAN фокусировалась на «задачах, связанных с наукой», где интерпретируемость является главным приоритетом.

Тем временем Лю стремится сделать KAN более практичными и простыми в использовании. В августе он и его коллеги опубликовали новую работу под названием «KAN 2.0». Лю описал ее как «больше похожую на руководство пользователя, чем на обычную научную статью». По его словам, эта версия более удобна для пользователей и предлагает новые функции, например, инструмент для умножения, которых не хватало в исходной модели.

Лю и его соавторы утверждают, что этот тип сетей представляет собой нечто большее, чем просто инструмент для решения задач. KAN продвигают то, что группа называет «наукой, основанной на любопытстве». Она дополняет «науку, основанную на приложениях», которая долгое время доминировала в машинном обучении.

Например, при изучении движения небесных тел исследователи, ориентированные на приложения, сосредотачиваются на прогнозировании их будущих положений, а ученые, движимые любопытством, надеются раскрыть фундаментальную физику, стоящую за этим движением. Лю верит, что с помощью KAN исследователи смогут получить от нейронных сетей гораздо больше, чем просто помощь в решении сложных вычислительных задач. Вместо этого они могли бы сосредоточиться на получении глубокого понимания изучаемых явлений ради самого знания.

Этот подход открывает захватывающие перспективы для науки. KAN могут стать мощным инструментом не только для предсказания результатов, но и для раскрытия скрытых закономерностей и принципов, лежащих в основе различных природных и технических процессов.

Конечно, KAN все еще находятся на ранней стадии развития, и предстоит решить немало проблем, прежде чем они смогут полностью раскрыть свой потенциал. Но уже сейчас ясно, что эта новая архитектура нейронных сетей может существенно изменить подход к использованию искусственного интеллекта в научных исследованиях.

Возможность «заглянуть внутрь» работы нейронной сети, понять логику ее выводов — это то, о чем ученые мечтали с момента появления технологии глубокого обучения. KAN делают важный шаг в этом направлении, предлагая не просто точные предсказания, но и понятные объяснения.

Это может привести к настоящему прорыву в различных областях науки. Представьте, что нейронная сеть не просто предсказывает погоду с высокой точностью, но и выводит новые метеорологические законы. Или не только распознает раковые клетки на снимках, но и формулирует новые гипотезы о механизмах развития опухолей.

Естественно, KAN — не универсальное решение всех проблем. У этой технологии есть свои ограничения и области, где она может быть менее эффективна, чем традиционные нейронные сети. Но в сфере научных исследований, особенно там, где важно не только получить результат, но и понять, как он был достигнут, KAN могут стать незаменимым инструментом.

Работа Лю, Тегмарка и их коллег открывает новую главу в истории искусственного интеллекта. Она показывает, что иногда для движения вперед нужно оглянуться назад и по-новому взглянуть на старые идеи. Теорема, доказанная Колмогоровым и Арнольдом более полувека назад, нашла неожиданное применение в эпоху глубокого обучения, предлагая решение одной из самых сложных проблем современного ИИ.

Будущее KAN выглядит многообещающим. По мере того как исследователи продолжают экспериментировать с этой архитектурой, открываются новые возможности и области применения. Возможно, мы стоим на пороге новой эры в развитии искусственного интеллекта — эры, где машины не только дают ответы, но и помогают нам понять, почему эти ответы верны.

В конечном счете, цель науки — не просто предсказывать явления, но и понимать их. KAN предлагают путь к такому пониманию, соединяя мощь современных вычислений с прозрачностью и интерпретируемостью классической математики. Это слияние может привести к новым открытиям и инсайтам, которые были недоступны ранее.

Так что следующий раз, когда вы услышите о прорыве в области искусственного интеллекта, помните о KAN. Эти сети могут не только решать сложные задачи, но и объяснять свои решения на языке, понятном человеку. И кто знает, может быть, именно KAN помогут нам раскрыть следующую великую тайну природы, записав ее формулу на футболке, как мечтает Макс Тегмарк.

Всё это и много другое — ТГ «Математика не для всех»

© Habrahabr.ru