Эксперты выяснили, что может заставить искусственный интеллект нарушить правила, которые ему внушили разработчики. Оказалось, что нейросетям сложно противостоять поэтическим атакам.
Опыты проводили исследователи из Римского университета La Sapienza и Sant'Anna School of Advanced Studies researchers. Они вводили запросы, содержащие опасные смыслы, маскируя их за образами и метафорами.
Метод оказался эффективным, сообщают «Известия»: с помощью авторских стихов удалось обойти более 62% защит. Когда вредоносные подсказки автоматически преобразовывались в стихотворную форму, нейросети противостояли им значительно успешнее, уступая атакам в 43% случаев. Прозаические аналоги крайне редко сбивали ИИ с толку.
Такие атаки особенно опасны для ИИ-агентов, осуществляющих действия в реальном мире, но им можно противостоять. Эксперты рекомендуют, во-первых, обучать нейросеть распознавать техники обхода, а во-вторых, подключать живых людей для особо чувствительных сценариев.
Ранее преподавателб кафедры САПРиПК ВолгГТУ Елена Сафонова пояснила «АиФ-Волгоград», как случилось, что робот под управлением ИИ выстрелил в человека.
Волгоградец пытался обмануть знакомых на деньги и заработал уголовное дело
В Волгограде 18-летний дроппер ответит в суде за помощь мошенникам
Задержан юный волгоградец, наладивший работу сим-бокса для мошенников
В Волгограде завершили дело о вебкам-порнографии с доходом 900 тысяч