Anthropic ввела в Claude тихий саботаж разработки моделей машинного обучения13.06.2026 14:45

Недавно (с 9 июня 2026) разработчики нейросетей столкнулись с явлением, которое может иметь далеко идущие последствия. Производители LLM уже не только явно отказывают клиентам в работе над определёнными темами, но и внедряются неявные механизмы. Известная модель Claude, которая считается одной из лучших или даже самой лучшей LLM для разработки программ, тихо и незаметно (в отличие от таких вещей как кибербезопасность, биология и химия) тупит, если детектирует, что с её помощью пытаются вести разработку других моделей.

Официально в «model card» для 5-х версий Claude Mythos и Claude Fable на странице 13 фирменного PDF написано (в руском переводе):

В свете способности современных моделей ускорять собственное развитие, мы внедрили новые меры, ограничивающие эффективность Claude для запросов, направленных на разработку передовых моделей машинного обучения (например, на создание конвейеров предварительного обучения, распределенной инфраструктуры обучения или проектирование ускорителей машинного обучения). Использование Claude для разработки конкурирующих моделей уже нарушает наши условия предоставления услуг, но обеспечение этого ограничения с помощью наших мер защиты позволяет избежать ускорения действий тех, кто наиболее склонен нарушать эти условия.
В отличие от наших мер защиты в области кибербезопасности, биологии и химии, а также попыток дистилляции, эти меры защиты не будут видны пользователю. Fable 5 не будет переключаться на другую модель. Вместо этого меры защиты будут ограничивать эффективность с помощью таких методов, как модификация подсказок, направляющие векторы или параметрически эффективная тонкая настройка (PEFT). Эти меры защиты не повлияют на подавляющее большинство работы по программированию. Мы оцениваем, что они затронут ~0,03% трафика, сосредоточенного менее чем в 0,1% организаций.

Обсуждение на Y combinator

>>> PDF от Anthropic с условием