ИИ-браузер OpenAI Atlas научились ломать с помощью промт-инъекций. Создатели признали проблему

от admin

Пока непонятно, как бороться с подобным

Новый браузер Atlas от OpenAI, основанный на интеграции с ChatGPT, оказался уязвим к атакам через промт-инъекции — скрытым инструкциям, встроенным в контент сайтов.

Об этом сообщили специалисты Brave Software и независимые исследователи кибербезопасности.

Пром-инъекции — это метод, при котором злоумышленники внедряют команды прямо в текст или код страницы, чтобы влиять на поведение ИИ, не оставляя следов во вводе пользователя.

Модель «читает» такие инструкции как часть задачи и начинает им следовать, выполняя действия, не предусмотренные разработчиками.

«Не доверяй ИИ» вместо резюме

Brave назвала проблему «системной уязвимостью целого класса ИИ-браузеров».

Все желающие смогут тренировать ИИ на российских госданных уже в февралеtproger.ru

В одном из тестов, исследователи встроили в Google-документ скрытую инструкцию. После этого Atlas, вместо запрошенного резюме, вывел фразу «не доверяй ИИ». Тем самым детище OpenAI продемонстрировало, что поведение агента можно подменить буквально одной строчкой текста.

По словам специалистов, аналогичные уязвимости замечены в других продуктах — включая Perplexity Comet и Fellou.

Читать также:
Исследование: ИИ-ассистенты замедляют разработчиков вместо того, чтобы их ускорять

Реакция OpenAI

Руководитель направления безопасности OpenAI Дэйн Стаки подтвердил, что угроза существует:

Промт-инъекции остаются одной из ключевых нерешенных проблем в области ИИ-безопасности. Злоумышленники будут тратить значительные ресурсы, чтобы заставить ChatGPT-агентов поддаваться подобным атакам. Мы рассматриваем это как фронтир безопасности.Дэйн СтакиOpenAI

Стаки отметил, что компания внедряет новые методы защиты и обучения, но полностью исключить риск пока невозможно.

Что говорят эксперты

Исследователь ИИ-безопасности Йоханн Рехбергер, известный своими работами о промт-инъекциях, заявил, что подобные атаки «напоминают социальную инженерию, только против машин»:

Нет стопроцентной защиты. Поэтому важно внедрять фильтры не только в модель, но и на уровне инфраструктуры, а также сохранять человеческий контроль.

Он добавил, что OpenAI уже внедрила режимы с ограниченным доступом к данным и ведет активное тестирование Atlas, однако агентные ИИ-системы все еще находятся на ранней стадии развития, и новые уязвимости будут появляться регулярно.

Похожие статьи