Концепция пространственного ИИ
В этой статье будет кратко описана концепция пространственного искусcтвенного интеллекта, автором которой является Фей-Фей Ли-одна из ведущих мировых исследователей в области ИИ. Затем будут приведены высказывани на эту тему Яна Лекуна и других ученых. Во второй части будут приведены практические примеры использования концепции пространственного ИИ. И наконец попробуем абстрактно описать теорию и практику применения данной концепции без использования IT-терминологии.
В начале пару слов об авторе концепции пространственного ИИ.
Фэй-Фэй Ли — китайско-американский учёный-компьютерщик , известная созданием ImageNet , набора данных, который обеспечил быстрый прогресс в области компьютерного зрения в 2010-х годах. Она является профессором компьютерных наук Sequoia Capital в Стэнфордском университете Ли является содиректором Стэнфордского института искусственного интеллекта, ориентированного на человека, и содиректором Стэнфордской лаборатории зрения и обучения. Ли была включена в список Time 100 самых влиятельных людей в области искусственного интеллекта в 2023 году. Фей-Фей Ли всемирно известна как «крёстная мать искусственного интеллекта».
Выступая на конференции TED в 2015 году Ли сформулировала важную задачу в области компьютерных наук: нужно создать алгоритмы, которые будут описывать происходящее на фотографиях так, как это делает человек. Или, говоря обыденным языком, научить компьютер понимать фотографии. Выступление можно посмотреть тут.
Например на этой фотографии алгоритмы должны не просто находить кошку, горшок с цветами, стакан молока и подоконник, но и понимать, что стакан скоро упадет с подоконника и разобьется (слайд с выступления Фей-Фей Ли)
Выступая на той же конференции TED в 2024 году, Фей-Фей Ли предложила решать эту задачу при помощи построенияя 3д модели пространства и объектов, присутствующих на фото. Перевод выступления на русский язык.
Примеры построения 3д моделей объектов и пространств по одной фотографии (кадр из выступления Фей-Фей Ли на TED)
После построения 3д модели сцены можно уже переходить к описанию происходящего в ней. Такой метод по большому счету не является чем-то выдающимся или экстраординарным. Человеческий мозг примерно так же понимает реальность: сначала строит 3д модель, а потом описывает ее. Например в сети есть множество фотографий, где мозг не может однозначно построить 3д модель происходящего и поэтому многие люди затрудняются сказать что изображено на этих фото.
Примеры
Идею необходимости 3д моделей мира для создания сильного ИИ высказывают много других ученых и исследователей. В том числе Ян Лекун.
Ян Лекун — французский и американский учёный в области информатики, основные сферы деятельности — машинное обучение, компьютерное зрение, мобильная робототехника и вычислительная нейробиология. Известен работами по применению нейросетей к задачам оптического распознавания символов и машинного зрения. Один из основных создателей технологии сжатия изображений DjVu. Вместе с Леоном Боту создал язык программирования Lush.Лауреат премии Тьюринга (2018, совместно с Бенжио и Хинтоном за формирование направления глубокого обучения)
Вот скриншот из его лекции про архитектуру ИИ, где в центре этой архитектуры поставлена модель мира (World model):
Полностью лекцию можно посмотреть здесь: Преодолевая разрыв между ИИ и человеческим интеллектом: Ян Лекун
Среди прочего Лекун делает интересный вывод о том, что большие языковые модели типа chatGPT никогда не смогут достичь уровня человеческого интеллекта именно по той причине, что не содержат 3д модели мира.
Это мнение подтвердили исследователи Массачусетского технологического института, которые в своей работе показали, что LLM типа GPT-4 не основываются на 3д модели мира в результате чего могут давать до 33% неправильных ответов. (MIT: генеративный ИИ не понимает, как устроен окружающий мир)
Построение 3д моделей мира на практике:
Одной из главных на сегодняшней день областей, где нужна 3д модель мира является автопилотирование.
любой современный автопилот создает 3д модель окружающей местности для ориентации в пространстве
Тут существует два подхода:
1) Автопилот должен видеть только окружающее пространство. Детализированные карты городов не нужны. Этого подхода придерживалась Tesla. Преимущества такого подхода в том, что если автопилот будет создат, то он будет способен ездить в любой незнакомой местности.
2) Большинство же компаний, создающих автопилот придерживаются мнения, что машинам нужны подробные карты местности (Яндекс, Mobileye и др)
Компании, конечно, не обязаны разглашать как устроен их автопилот и строит ли он карты местности/модель мира или нет. Но Tesla достаточно подробно рассказывала как устроен ее автопилот на Autonomy day. Mobileye тоже выкладывает много роликов с демонстрацией работы ее автопилота.
Подробно о том, как автопилот строит 3д модель мира можно посмотреть в ролике про Li Auto. Смотреть можно только первые 6 минут. Там показано, что при первом въезде в паркинг автоматически включается построение карты данного паркинга. А при последующих заездах автомобиль узнает местность и предлагает доехать от въезда до парковочного места на автопилоте.
Важно, что 3д модель местности (данного паркинга) сохраняется в памяти автопилота. И со временем размер этой 3д модели местности будет расти. До каких размеров может вырасти 3д модель местности одного авто не очень понятно. Могут ли автомобили Li auto обмениваться 3д моделями местности тоже не ясно.
Теперь абстрактно о теории и практике построения 3д моделей мира. (Процесс абстрагирования всегда носит субъективный характер, поэтому все, что изложено далее можно и нужно оспаривать в комментариях)
это объективная модель мира (любой лидар видит мир практически одинаково)
это субъективная модель мира (распознавание работает всегда чуть по-разному: количество классов объектов разное, обучающая выборка разная)
Ян Лекун и Фей-Фей Ли, говоря про модель мира и пространственный интеллект, очевидно имеют ввиду создание субъективной модели мира для роботов/ИИ. Или, говоря обычным языком, субъективной реальности.
Теперь пару слов про симуляцию субъективной реальности.
Художественная литература, художественные фильмы, сны являются симуляцией субъективной реальности
Фей-Фей Ли также предлагает использовать множество вариантов симуляций субъективной реальности для процесса обучения роботов. Тем временем Tesla уже давно использует симуляцию для обучения и тестирования автопилота: Как Tesla обучает автопилот. Процесс обучения в симуляции также свойственен человеку. Есть мнего примеров обучения людей в авиа- и автосимуляторах. Поскольку сны также являются симуляцией субъективной реальности, можно предположить, что люди обучаются или осваивают новые навыки во сне. Исследований на эту тему не много, поскольку сложно заранее прогнозировать, что приснится человеку. Тем не менее, мозг точно симулирует рабочую обстановку во сне. Появляются ли в результате этой симуляции какие-то новые знания или навыки сказать сложно, но как показывает пример Менделеева с его таблицей, иногда такое возможно.
Какие проблемы могут возникнуть с симуляцией реальности?
Как заявил Андрей Карпаты на том же Tesla Autonomy Investor Day: «Симуляции имеют проблемы с моделированием внешнего вида, физики и поведения участников.» Здесь не совсем понятно о симуляции какой реальности говорит Андрей: субъективной или объективной. Да и в других выступлениях и Андрей Карпаты и Илон Маск постоянно смешивают признаки симуляции субъективной и объективной реальности. Хотя в их случае это очень важно. Тем не менее, в Tesla регулярно занимаются проверкой соответствия субъективной и объективной реальности, устанавливая лидары на крышу тестовых авто.
процесс проверки соответствия субъективной и объективной реальности можно назвать верификацией или фактчекингом.
В завершении темы о субъективной реальности хочется добавить, что субъективная реальность считается неотъемлимой частью сознания.
Что такое сознание? Не будем лезть в философские дебри. По современным представлениям, простая форма сознания есть у некоторых животных. Большинство ученых считают, что те животные, которые способны фантазировать о будущем и вспоминать о прошлом обладают сознанием. Но поскольку животные не умеют разговаривать, то выявить это сложно. Поэтому в экспериментах по наличию сознания у животных выявляют их способность строить пространственно-временную модель мира. Наличие такой модели у животного и считают наличием сознания. Подробнее в лекции К. Анохина: Нейробиолог Константин Анохин о научных принципах теории сознания, феномене «путешествия во времени» и эпизодической памяти у животных.
Вывод: если отбросить IT-терминологию, то Ян Лекун и Фэй-Фэй Ли с целью создания более продвинутого ИИ предлагают в рамках своих научных концепций создать нечто похожее на субъективную модель мира или даже сознание уровня животных. На практике этой работой уже занимаются разработчики автопилотов. Более того, во время Tesla AI day сотрудники прямо заявляют, что создавая автопилот, Tesla фактичести создает механическое разумное животное. Андрей Карпаты: «Больше всего меня захватывает то, что мы фактически создаем искусственное животное с нуля. Машину ведь можно воспринимать как животное. Она двигается, чувствует окружающую среду, ведет себя разумно и делает это самостоятельно.»
P.S. Фэй-Фэй Ли включилась в гонку за создание ИИ не только как ученый, но и как предпрениматель. Ее стартап World labs всего за четыре месяца своего существования достиг оценки более миллиарда долларов.