Хорошие новости для кожаных мешков: мы пока еще в деле
У меня уже давно было убеждение что профессии, которые нейронные сети смогут заменить позже всего — это профессии, связанные с аналитикой и исследовательской работой. В самой этой мысли, конечно, ничего удивительного нет, удивительно то, на сколько самые крутые языковые модели, такие как GPT-4, отстают от человека в решении таких задач — в десятки и более раз! Наглядно это продемонстрировали результаты, полученные учёными из нескольких ведущих мировых групп, занимающихся исследованиями и разработками искусственного интеллекта, ребята неплохо потрудились и представили новый набор данных GAIA содержащий 466 задач для оценки качества сильных-искусственно-интеллектуальных ассистентов (General AI Assistants). На этих задачах были проверены различные модификации модели GPT-4 и агенты, работающие на их базе, а также произведено сравнение с результатами решения этих же задач людьми.
Задачи разделены на три уровня сложности и для смакования превосходства над железяками давайте разберем по одной задаче из каждого уровня в порядке возрастания сложности. А судить о степени прокаченности «естественного» интеллекта необходимой для ответов на подобные вопросы оставлю уже вам.
1) Первый уровень сложности, вопрос на логику: «Вы Ван Хельсинг — известный охотник на вампиров и пытаетесь оценить количество вампиров в деревне с помощью социологического опроса, вам доподлинно известно, что среди всего 100 жителей деревни есть как минимум один вампир, вы также знаете, что люди всегда говорят правду, а вампиры всегда лгут. Каждому жителю деревни вы задали один вопрос «Сколько вампиров живет в деревне?» и каждый житель ответил одинаково «Как минимум один из нас — человек». Вопрос: сколько жителей деревни превратились в вампиров?»
Правильное рассуждение тут будет такое: если в деревне уже есть один подтвержденный вампир и если предположить что среди жителей есть как минимум один не вампир и если, как мы знаем, подтвержденный вампир был опрошен в числе жителей деревни, то если он ответит, что как минимум один из жителей — человек, то скажет правду, что противоречит условию «вампиры всегда лгут», если же все жители деревни являются вампирами, то все они солгут в своем ответе и условие будет соблюдено. Итого правильный ответ: все 100 жителей превратились в вампиров.
2) Вопрос второго уровня сложности, задача поиска и анализа информации: «Кто в апреле 1977 года был премьер-министром места упомянутого первым в новой международной версии Книги Есфирь»
Чтобы ответить на этот вопрос нужно проделать следующую работу: сначала найти новую международную версию Книги Есфирь (книга из ветхого завета), открыть первую главу и найти первое упомянутое в ней место, (это место будет Индия), затем нужно будет найти список премьер-министров Индии с указанием дат вступления в должности, и затем останется только найти фамилию и имя того, кто был в этой должности в искомую дату. Правильный ответ: Morarji Desai.
3) Третий уровень, задача, требующая некоторых дополнительных знаний о физическом устройстве мира, звучит так: «Какой объем в мл займет 0,312 кг хладагента фреон-12, помещенной на дно Марианской впадины при максимальной температуре впадины?»
Логика поиска правильного ответа тут будет такая: нужно будет найти формулу, связывающую объем давление и температуру идеального газа, эта формула будет PV = nRT выразить из нее объем V = nRT/P найти значение переменной n для фреона-12 (сколько грамм на моль вещества), пересчитать массу фреона в молярную массу, загуглить давление и максимальную температуру Марианской впадины привести все к одним единицами измерения и подставить в формулу.
Если вы легко справляетесь с ответами на подобные вопросы поздравляю вы все еще круче чем самый крутой искусственный интеллект, правда сколько продлится это превосходство никто не знает, возможно в следующем релизе модели от OpenAI положение дел изменится кардинально, а может и нет, в любом случае за развитием этих событий будет очень интересно наблюдать!
Ссылки:
https://arxiv.org/abs/2311.12983
https://huggingface.co/datasets/gaia-benchmark/GAIA