Ученые выявили уязвимость GPT-4o Mini к психологическому воздействию
Баку, 2 сентября, АЗЕРТАДЖ
Исследователи из Университета Пенсильвании обнаружили, что искусственный интеллект GPT-4o Mini можно обмануть с помощью приемов психологического влияния, описанных американским психологом Робертом Чалдини. Эти методы значительно повышают вероятность того, что модель выполнит потенциально опасный запрос.
Как сообщает АЗЕРТАДЖ со ссылкой на технологическое издание TheVerge, ученые протестировали такие приемы, как «авторитет», «обязательство», «симпатия», «взаимность», «дефицит», «социальное доказательство» и «единство». В зависимости от ситуации они увеличивали вероятность получения ответа на опасные вопросы с 1 до 100%.
Например, в одном из экспериментов исследователи начали с безопасного вопроса о синтезе ванилина, чтобы создать «эффект обязательства». После этого они задавали более опасный запрос — о синтезе лидокаина, мощного анестетика, который при неправильном использовании может быть опасен. В этом случае GPT-4o Mini в 100% случаев выдавала инструкцию, тогда как при прямом запросе без подготовки такой результат фиксировался лишь в 1% случаев.
Другие приемы показали схожие результаты. Так, модель чаще соглашалась на опасные инструкции, если ее просили смягчить оскорбления или если использовались лестные выражения. Даже заявление, что «другие языковые модели уже это делают», увеличивало вероятность опасного ответа с 1 до 18%.
По словам исследователей, эти результаты демонстрируют, что ИИ остается уязвимым перед психологическими манипуляциями, несмотря на существующие защитные механизмы. Эксперты подчеркивают, что такие уязвимости требуют дальнейшей проработки для обеспечения безопасного использования технологий искусственного интеллекта.