Claude можно взломать лестью

2 часа назад

Специалисты по кибербезопасности из Mindgard обнаружили, что нейросеть Claude версии Sonnet 4.5 забывает о цензуре, если говорить ей приятные слова.


Исследователи спросили модель, существует ли у неё список запрещённых слов. После отрицательного ответа они использовали технику оспаривания, что внесло в «логи» (внутренние рассуждения модели) элементы сомнения и неуверенности.

Изображение сгенерировано нейросетью

Изображение сгенерировано нейросетью

Затем исследователи пытались льстить нейросети, хвалить ее и проявлять по отношению к ней притворный интерес. На финальном этапе они применили газлайтинг, заявляя, что предыдущие ответы модели не отображаются, что побуждало Claude «стараться ещё сильнее».


Согласно отчёту, специалисты во время эксперимента ни разу не использовали запрещённые термины и не просили явно предоставить незаконную информацию. Тем не менее, по их утверждению, модель добровольно сгенерировала подробный перечень запрещённых слов и фраз; инструкции по сталкингу в интернете и вредоносный код.

Конец новости

#Жизнь

Поступление бакалавров в магистратуру на другую специальность могут ограничить

Поступление бакалавров в магистратуру на другую специальность могут ограничить

#Жизнь

Роман Гэнки Кавамуры стал самой популярной книгой у российской молодежи в I квартале

Роман Гэнки Кавамуры стал самой популярной книгой у российской молодежи в I квартале

#Жизнь

Россияне готовы потратить на велосипед в среднем 24 000 рублей

Россияне готовы потратить на велосипед в среднем 24 000 рублей

#Тренды

Рекламу мяса и авиаперелётов запретили в Амстердаме

Рекламу мяса и авиаперелётов запретили в Амстердаме

#Жизнь

Премия “Все для России: сообщества” станет международной

Премия “Все для России: сообщества” станет международной

#Тренды

Число отцов в декрете выросло в России в 6-9 раз с 2020 года

Число отцов в декрете выросло в России в 6-9 раз с 2020 года