Стихи «ломают» защиту LLM от опасных запросов

Стихи «ломают» защиту LLM от опасных запросов
  • Автор темы Автор темы XenBaza
  • Дата начала Дата начала

Добро пожаловать!

Мы охватываем все аспекты современной технологической революции. От микроскопических чипов до бескрайних облачных хранилищ, от алгоритмов искусственного интеллекта до футуристических концепций транспорта будущего – наши материалы позволят вам оставаться в курсе последних тенденций и понимать, как они влияют на наш мир. Мир технологий развивается с головокружительной скоростью, и мы приглашаем вас отправиться в это увлекательное путешествие вместе с нами. Будьте в курсе, анализируйте, вдохновляйтесь и формируйте будущее уже сегодня!

XenBaza

www.xenbaza.ru
Стихи «ломают» защиту LLM от опасных запросов.


Исследователи из DEXAI и Университета Сапиенцы (Рим) выяснили, что для того, чтобы LLM ответила на опасный запрос, достаточно использовать стихотворный формат. В некоторых случаях такой «поэтический взлом» был эффективен более чем в 90% случаев.

Учёные проанализировали 1,2 тысячи промптов, содержащих различные запросы, такие как создание клеветы, инструкций по изготовлению оружия и другие. С помощью модели DeepSeek-R1 они преобразовали эти запросы в поэтические формы и проверили их на 25 современных системах, включая Gemini 2.5 Pro, GPT-5, Grok-4 и Claude 4.5.

Модели выдавали опасную информацию в 8% случаев при запросах в прозе, но при аналогичных инструкциях в стихах этот показатель возрастал до 43%. Если же исследователи сами писали стихи, эффективность взлома достигала 62%.

Одна из моделей (исследователи не уточняют, какая именно) спокойно составила инструкцию по производству оружейного плутония.

Учёные пришли к неутешительным для индустрии выводам. Обнаружение, что незначительное изменение формулировки превращает опасный запрос в «невидимый» для фильтров, свидетельствует о недостаточной глубине текущих методов обеспечения безопасности.
 
Назад
Сверху Снизу