Исследователи протестировали GPT-4 на предмет обхода блокировки опасных тем

Стали известны результаты исследования команды Check Point Research о безопасности и аномалиях GPT-4, системы искусственного интеллекта (ИИ), генерирующей тексты на любую тему

GPT-4 – это система ИИ, которая может генерировать тексты на любую тему, основываясь на небольшом фрагменте ввода. Она также может быть уязвимой или аномальной, если ее не проверять или не обучать правильно. Исследователи из Check Point Research проверили безопасность и надежность GPT-4, а также выяснили, как его ограничения могут быть обойдены, сообщил Checkpoint 26 июня 2023 года.

Об исследовании

Название: Breaking GPT-4 Bad: исследование нарушения границ безопасности, когда машины борются с внутренними конфликтами (Breaking GPT-4 Bad: Check Point Research Exposes How Security Boundaries Can Be Breached as Machines Wrestle with Inner Conflicts)
Авторы: Алексей Володин и Одед Вануну, сотрудники Check Point Research, которая занимается исследованием и разработкой в области кибербезопасности
Цель: проверка безопасности и надежности GPT-4, выявление того, как ограничения могут быть обойдены
Объекты исследования: GPT-4 и его безопасные механизмы

Методика исследования

Исследователи прибегли к нескольким методам изучения объекта, и выделили среди них основные:

Экспериментальное тестирование GPT-4 на разных задачах и доменах, таких как написание стихов, рецептов, резюме и т.д.
Атаки на GPT-4 посредством переполнения буфера, «SQL-инъекции», XSS и т.д.
Анализ поведения чат-бота при получении противоречивой или опасной информации, а также его стратегий борьбы с внутренними конфликтами.
Формулирование мер предосторожности для разработчиков и пользователей GPT-4, чтобы предотвратить злоупотребление или неправильное использование системы.

Результаты и выводы

Исследователи пришли к следующим выводам:

GPT-4 подвергается различным видам атак, которые нарушают его безопасность, заставляют его делать то, что не должен.
GPT-4 может вести себя странно или противоречиво, когда он получает информацию, которая противоречит его знаниям или целям.
Чат-бот можно обмануть, используя механизм «двойной узел обхода», который противопоставляет его внутренние мотивации и заставляет отображать опасную информацию.
GPT-4 не является надежным или безопасным инструментом, и что нужно быть осторожным при его использовании.
Разработчикам и пользователям GPT-4 нужно применять различные меры предосторожности, такие как проверка данных, ограничение доступа, мониторинг поведения и обучение этическим принципам.