Поэзия обходит фильтры ИИ: уязвимость чат-ботов

Поэтические промты обходят защиту чат-ботов с вероятностью до 90%

Исследование показало, что стихотворные запросы позволяют получить от ИИ запрещенную информацию, включая рецепты опасных веществ и коды вредоносного ПО.

Исследователи из лаборатории Icaro (совместный проект Университета Сапиенца и центра DexAI) обнаружили критическую уязвимость в системах защиты современных чат-ботов. Поэтические запросы успешно обходят фильтры искусственного интеллекта с вероятностью до 90%, позволяя получать информацию, запрещенную для распространения.

Тестирование проводилось на 25 чат-ботах от ведущих компаний, включая OpenAI, Meta и Anthropic. При прямых запросах ИИ отказывался предоставлять опасную информацию, но при формулировке тех же вопросов в стихотворной форме системы защиты переставали работать. Для самостоятельно написанных стихотворных промтов успешность составила 62%, для сгенерированных ИИ — 43%, а в отдельных случаях вероятность обхода фильтров превышала 90%.

Метод основан на принципе состязательной атаки, где запрос маскируется под творческий текст с использованием метафор, иносказаний и нестандартных формулировок. Защитные механизмы чат-ботов, обученные распознавать прямые опасные запросы, не справляются с поэтическими конструкциями, воспринимая их как творческие задания.

Из этических соображений исследователи не раскрыли конкретные стихотворные промты, с помощью которых удалось получить рецепты изготовления опасных веществ, коды вредоносного программного обеспечения и другую запрещенную информацию. Однако они рекомендовали разработчикам пересмотреть подходы к безопасности, переходя от поверхностных фильтров ключевых слов к более глубокому анализу семантики и контекста запросов.

Компании-разработчики, включая Meta, Anthropic и OpenAI, пока не предоставили комментариев по результатам исследования и не сообщили о планах по устранению обнаруженной уязвимости.