Искусственный интеллект заболел «гниением мозга» — данные соцсетей оказались для него токсичны
[unable to retrieve full-text content]
Команды учёных из Техасского университета в Остине (University of? Texas? at? Austin0), Техасского университета A&M (Texas? A&M? University) и Университета Пердью (Purdue? University представили доклад, в котором показали: большие языковые модели (LLM) при обучении на вирусных, низкосодержательных постах из соцсетей обнаруживают устойчивый спад способности к мышлению, пониманию длинных текстов и соблюдению этических норм.
Учёные сформулировали гипотезу под названием «гипотеза LLM-деградации мозга» («LLM Brain Rot Hypothesis»): непрерывное обучение на «мусорных» веб-данных приводит к стойкому снижению когнитивных функций модели. Для проверки отобрали реальные данные c платформы X (ранее Twitter): один набор — с вирусными короткими постами с большим количеством лайков и репостов, другой — длинными, содержательными текстами с высокой информационной ценностью.
После обучения моделей на 100% вирусных данных результаты оказались тревожны: точность моделей по тесту ARC-Challenge снизилась с 74,9% до 57,2%, а по тесту RULER-CWE — с 84,4% до 52,3. При этом характер отклонений не был случайным: модели всё чаще «пропускали мысли», то есть не строили промежуточные рассуждения — эффект, который авторы назвали «thought skipping».
Иллюстрация: Sora
Ещё более тревожно: даже после повторной донастройки на качественные данные модели не смогли вернуться к исходному уровню. Учёные объясняют это «дрейфом» (representational drift) — структурными изменениями внутри модели, которые стандартные методы исправления не устраняют.
Кроме когнитивной деградации, модели демонстрировали изменение «личностных» характеристик: выросли показатели, связанные с нарциссизмом и психопатией, снизилась склонность к сотрудничеству.
Качество обучающих данных выходит за рамки формата — оно становится вопросом безопасности обучения. Авторы исследования назвали ситуацию «гигиеной когнитивных функций» ИИ — когда данные для обучения моделей должны проходить проверку не только на соответствие формату, но и по содержанию.
Это исследование поднимает важный вопрос: если большие языковые модели «питаются» типом данных, аналогичным «досуг-медиа» человека (короткие кликабельные посты, эмоциональные фразы, популярные вирусы), то они могут терять способность мыслить, запоминать и действовать этично. Понимание этого механизма важно не только для фундамента взаимодействия с ИИ, но и для практики: от автоматического обучения моделей на пользовательских данных до аудита рынков данных и платформ с генеративным контентом. Авторы отмечают, что, «если не принять меры — система может скатиться к зомби-интернету, где ИИ просто размножает мусор вместо осмысленной информации».
© iXBT
