Понимают ли нейросети мемы: ответ российских ученых
Специалисты из МФТИ и их коллеги разработали метод, с помощью которого можно оценить способность нейросетей понимать мемы. Его представили на презентации проекта «Культурные замеры больших языковых моделей».
Исследователи хотели выяснить, могут ли ИИ-технологии понимать особенности различных шуток из интернета. Помимо этого, их интересовало, способны ли нейросети отвечать на вопросы о культурных и языковых стереотипов. Для этого математики совместно с лингвистами и культурологами создали набор специальных инструментов.
Эксперты во главе с профессором НИУ ВШЭ Максимом Кронгаузом определили восемь ключевых культурных типов, которые характерны для России. На их основе они создали наборы стереотипов, цитат из книг и фильмов, а также мемов. Материалы помогли составить набор из 400 тестовых заданий, предназначенных для нейросетей. Например, ИИ-модели должны были ответить, «что сделал дядя самых честных правил, когда не в шутку занемог», и объяснить влияние «ретроградного Меркурия» на людей.
В тесте участвовали десять наиболее продвинутых больших языковых моделей, созданных за рубежом. Лучшие результаты показали различные версии GPT-4. Они ответили на большую часть вопросов. На втором месте оказалась Claude 3.5, от лидера она отстала всего на несколько процентов. Топ-3 замкнула LLaMA. Исследователи отметили, что остальные нейросети, в том числе GPT-3,5, Google Gemini и Mistral AI, справились с задачами значительно хуже.
В МФТИ подчеркнули, что не хотели научить нейросети распознавать культурные коды, а проверить их способности в этой сфере. «Иными словами, мы никак не модифицировали эти алгоритмы и не тренировали их на каких-то специфичных наборах данных. Результаты подобных тестов помогают нам определить, насколько ИИ готовы к кооперации с разными типами людей», — цитирует ТАСС Валерия Шульгинова, ведущего научного сотрудника Центра междисциплинарных исследований МФТИ.
Ранее компания OpenAI предоставила доступ к поиску через ChatGPT всем желающим. Hi-Tech Mail уже протестировал функцию — подробности можно узнать в отдельном материале.