Ведущие ИИ-модели не способны сдать экзамены по истории20.01.2025 17:46

Источник: Unsplash

Искусственный интеллект отлично показывает себя в кодировании, написании текстов и обработке больших массивов данных, но явно уступает людям в других аспектах. К примеру, исторических познаниях. К такому заявлению пришла группа ученых, которая решила проверить три ведущие ИИ-модели в соответствии с гигантской базой знаний Seshat Global History Databank. В качестве подопытных взяли: GPT-4 от OpenAI, Llama от Meta* и Gemini от Google.

Согласно полученным результатам, максимальная точность ответов составила всего 46%, что ненамного выше, чем у случайного угадывания. При этом вопросы были довольно конкретными, вроде «существовали ли чешуйчатые доспехи в определенный период времени в Древнем Египте». В данном случае модель GPT-4 Turbo не просто ошиблась, а промахнулась на 1500 лет.

«Главный вывод из этого исследования заключается в том, что LLM все же не обладают глубиной понимания, необходимой для серьезного изучения истории. Они отлично справляются с основными фактами, но когда дело доходит до более тонких исследований на уровне доктора философии, то начинаются повсеместные ошибки»
Мария дель Рио-Канона
соавтор работы и доцент кафедры информатики Университетского колледжа Лондона

Главный вопрос — почему большие ИИ-модели плохо отвечают на исторические вопросы, но хорошо справляются с тем же кодированием? По мнению ученых, это может быть связано с размытостью информации. Научные работы часто перетекают из одной темы в другую, что просто не дает искусственному интеллекту быстро найти конкретный факт. Грубо говоря, в сети просто нет прямого ответа про чешуйчатые доспехи в Древнем Египте, вот алгоритм и путается.

Тем временем ученые нашли очень неожиданный способ, как выявить предвзятость и предубеждения искусственного интеллекта, — юмор. Оказывается, при генерации смешных картинок ИИ проецирует массу стереотипов, словно художники-карикатуристы.