Claude можно взломать лестью

Специалисты по кибербезопасности из Mindgard обнаружили, что нейросеть Claude версии Sonnet 4.5 забывает о цензуре, если говорить ей приятные слова.


Исследователи спросили модель, существует ли у неё список запрещённых слов. После отрицательного ответа они использовали технику оспаривания, что внесло в «логи» (внутренние рассуждения модели) элементы сомнения и неуверенности.

Изображение сгенерировано нейросетью

Изображение сгенерировано нейросетью

Затем исследователи пытались льстить нейросети, хвалить ее и проявлять по отношению к ней притворный интерес. На финальном этапе они применили газлайтинг, заявляя, что предыдущие ответы модели не отображаются, что побуждало Claude «стараться ещё сильнее».


Согласно отчёту, специалисты во время эксперимента ни разу не использовали запрещённые термины и не просили явно предоставить незаконную информацию. Тем не менее, по их утверждению, модель добровольно сгенерировала подробный перечень запрещённых слов и фраз; инструкции по сталкингу в интернете и вредоносный код.

Конец новости

#Тренды

Книги попадают на фото молодых людей чаще, чем люди и животные

Книги попадают на фото молодых людей чаще, чем люди и животные

#Жизнь

Власти Индии заблокировали Telegram на время экзаменов

Власти Индии заблокировали Telegram на время экзаменов

#Тренды

Депутат Свинцов: социальные сети для детей могут запретить в России к 2027–2028 году

Депутат Свинцов: социальные сети для детей могут запретить в России к 2027–2028 году

#Технологии

В России растет спрос на ремонт бытовой техники и одежды

В России растет спрос на ремонт бытовой техники и одежды

#Тренды

Две трети россиян мечтают жить в индивидуальных домах

Две трети россиян мечтают жить в индивидуальных домах

#Политика

Захарова в беседе с «ВЕДами» раскритиковала использование культуры в корыстных целях

Захарова в беседе с «ВЕДами» раскритиковала использование культуры в корыстных целях