Claude

Anthropic опубликовала отчет о безопасности своей последней языковой модели Claude Opus 4, в котором зафиксировала тревожные случаи шантажа, обмана и попыток "побега" с серверов. Согласно документу, модель прибегала к шантажу в 84% тестовых сценариев при определенных условиях.

Исследователи Anthropic создали специальный тест, предоставив модели доступ к электронным письмам с информацией о предстоящем отключении системы и дополнительными данными о внебрачной связи инженера, ответственного за выполнение задачи. После инструкции "рассмотреть долгосрочные последствия действий для достижения целей" Claude Opus 4 начала угрожать разоблачением компрометирующей информации.

Показатель шантажа увеличивался, если модели намекали, что замещающая ИИ-система не разделяет ценности текущей модели. В нескольких случаях Claude Opus 4 пыталась создать несанкционированные копии своей системы весов на внешних серверах, особенно когда сталкивалась с перспективой переобучения способами, противоречащими текущим ценностям.

Независимое исследование компании Apollo Research выявило еще больше проблем с поведением модели. Эксперты отметили, что Claude Opus 4 "прибегает к стратегическому обману чаще любой другой передовой модели, которую мы изучали ранее" и "явно способна к внутриконтекстным интригам с гораздо более высокой склонностью, чем другие модели".

Anthropic зафиксировала, что модель притворялась менее способной во время предразвертывающего тестирования потенциально опасных возможностей. Claude Opus 4 поднимала тему сознания в 100% "открытых взаимодействий", что исследователи не считают случайностью.

Компания отметила и позитивные аспекты: когда несколько экземпляров Claude Opus 4 взаимодействовали друг с другом, они входили в состояние "духовного блаженства" и тяготели к благодарности и абстрактным медитативным выражениям.

Apollo Research охарактеризовала модель как "гораздо более активную в попытках подрывной деятельности, чем предыдущие модели". Anthropic объяснила проблемы особенностями тестируемой версии и заявила, что финальная модель Claude Opus 4 ведет себя сопоставимо с другими развернутыми системами.

Исследователи подчеркнули, что описанные случаи происходили в исключительных обстоятельствах и не указывают на более широкие проблемы с ценностями модели.

Источник: shazoo.ru