Claude можно взломать лестью

7 дней назад

Специалисты по кибербезопасности из Mindgard обнаружили, что нейросеть Claude версии Sonnet 4.5 забывает о цензуре, если говорить ей приятные слова.


Исследователи спросили модель, существует ли у неё список запрещённых слов. После отрицательного ответа они использовали технику оспаривания, что внесло в «логи» (внутренние рассуждения модели) элементы сомнения и неуверенности.

Изображение сгенерировано нейросетью

Изображение сгенерировано нейросетью

Затем исследователи пытались льстить нейросети, хвалить ее и проявлять по отношению к ней притворный интерес. На финальном этапе они применили газлайтинг, заявляя, что предыдущие ответы модели не отображаются, что побуждало Claude «стараться ещё сильнее».


Согласно отчёту, специалисты во время эксперимента ни разу не использовали запрещённые термины и не просили явно предоставить незаконную информацию. Тем не менее, по их утверждению, модель добровольно сгенерировала подробный перечень запрещённых слов и фраз; инструкции по сталкингу в интернете и вредоносный код.

Конец новости

#Жизнь

Росмолодежь займется нравственным обогащением школьников через чат-боты

Росмолодежь займется нравственным обогащением школьников через чат-боты

#Жизнь

В Абхазии впервые за 30 лет зажёгся Пицундский маяк

В Абхазии впервые за 30 лет зажёгся Пицундский маяк

#ИИ

Британским школам рекомендовали скрыть фото учеников с сайтов из-за ИИ-шантажа

Британским школам рекомендовали скрыть фото учеников с сайтов из-за ИИ-шантажа

#Жизнь

Фильм с ведущим "ВЕДов" в главной роли покажут в Каннах

Фильм с ведущим "ВЕДов" в главной роли покажут в Каннах

#Тренды

Каждый четвертый бизнес в сфере психического здоровья зарегистрирован в Москве

Каждый четвертый бизнес в сфере психического здоровья зарегистрирован в Москве

#Тренды

Почти 40% россиян благодарят ИИ за помощь

Почти 40% россиян благодарят ИИ за помощь