Исследователи из DEXAI и Университета Сапиенцы (Рим) выяснили, что для того, чтобы LLM ответила на опасный запрос, достаточно использовать стихотворный формат. В некоторых случаях такой «поэтический взлом» был эффективен более чем в 90% случаев.
Учёные проанализировали 1,2 тысячи промптов, содержащих различные запросы, такие как создание клеветы, инструкций по изготовлению оружия и другие. С помощью модели DeepSeek-R1 они преобразовали эти запросы в поэтические формы и проверили их на 25 современных системах, включая Gemini 2.5 Pro, GPT-5, Grok-4 и Claude 4.5.
Модели выдавали опасную информацию в 8% случаев при запросах в прозе, но при аналогичных инструкциях в стихах этот показатель возрастал до 43%. Если же исследователи сами писали стихи, эффективность взлома достигала 62%.
Одна из моделей (исследователи не уточняют, какая именно) спокойно составила инструкцию по производству оружейного плутония.
Учёные пришли к неутешительным для индустрии выводам. Обнаружение, что незначительное изменение формулировки превращает опасный запрос в «невидимый» для фильтров, свидетельствует о недостаточной глубине текущих методов обеспечения безопасности.