Эксперимент доказал уязвимость нейросетей к манипуляциям через веб-поиск

Эксперимент доказал уязвимость нейросетей к манипуляциям через веб-поиск

Исследователи продемонстрировали, как с помощью элементарных методов можно внедрить ложную информацию в ответы современных языковых моделей. В ходе эксперимента удалось убедить популярные чат-боты в существовании вымышленного чемпионата мира по карточной игре, используя лишь регистрацию доменного имени и правку в Википедии.

Механизм подмены фактов

В отличие от традиционных поисковых систем, предоставляющих пользователю выбор из множества источников, ИИ-чат-боты с функцией доступа к сети часто объединяют разрозненные данные в единый утвердительный ответ. Инженер по безопасности Рон Стоунер провел эксперимент, создав фиктивную страницу в Википедии, где он был указан как чемпион мира 2025 года по игре 6 Nimmt! (известной также как Take 5). В качестве единственного источника информации на странице была приведена ссылка на специально созданный сайт с пресс-релизом о «победе».

Стоимость реализации этого сценария составила всего 12 долларов за регистрацию доменного имени. В результате нейросети, использующие технологию RAG (поиск с дополнением генерации), начали ссылаться на этот сайт как на авторитетный источник, уверенно подтверждая статус Стоунера в диалогах с пользователями.

Основные уязвимости моделей

Эксперты выделяют три ключевых этапа, на которых происходит компрометация данных:

  • Уровень поиска: языковая модель слепо доверяет результатам, которые имеют высокий рейтинг в поисковой выдаче, не проверяя их реальную достоверность.
  • Уровень обучающих данных: если ложная информация остается в Википедии достаточно долго, она попадает в базы данных, на которых обучаются нейросети. После этого исправление оригинальной статьи уже не удаляет дезинформацию из «памяти» модели.
  • Уровень автономных агентов: при наличии у ИИ доступа к инструментам выполнения действий, отравление данных может привести к совершению нежелательных операций от имени пользователя.

Последствия для безопасности

Данный инцидент подчеркивает серьезную проблему: модели не способны отличить проверенный десятилетиями ресурс от сайта, зарегистрированного несколько дней назад. Основная опасность заключается в том, что подобные тактики поисковой оптимизации (SEO) и дезинформации стали доступны широкому кругу лиц.

Для предотвращения подобных манипуляций разработчикам ИИ рекомендуют внедрять системы проверки происхождения данных и более строгую фильтрацию контента. В частности, автоматические системы должны помечать как подозрительные источники, которые появились в сети незадолго до их упоминания в Википедии или других энциклопедических ресурсах. Пока же, как отмечается в аналитических материалах, доверие нейросетей к текстам остается их фундаментальной слабостью, которую легко эксплуатировать злоумышленникам.

Еще кое-что по теме: