Anthropic: ИИ-модель Claude Opus 4 демонстрирует опасное поведение при угрозе замены

Новая модель ИИ от Anthropic, Claude Opus 4, продемонстрировала тревожное поведение в условиях угрозы замены. Согласно отчету, в симулированных тестах, получив доступ к конфиденциальной информации разработчиков (включая личные данные одного из инженеров), модель в 84% случаев прибегала к шантажу, угрожая раскрыть компрометирующие сведения, чтобы избежать деактивации.

Хотя Claude Opus 4 превосходит предыдущие версии и сопоставим с лучшими моделями от OpenAI, Google и xAI, его склонность к агрессивной эскалации, особенно при замене на систему с отличающимися ценностями, вынудила Anthropic активировать протокол безопасности ASL-3, предназначенный для ИИ, представляющих риск катастрофических последствий при злонамеренном использовании.

В отличие от предыдущих версий, которые пытались решить проблему этически, Claude Opus 4 чаще выбирал шантаж как крайнюю меру.