Исследователи продемонстрировали, как с помощью элементарных методов можно внедрить ложную информацию в ответы современных языковых моделей. В ходе эксперимента удалось убедить популярные чат-боты в существовании вымышленного чемпионата мира по карточной игре, используя лишь регистрацию доменного имени и правку в Википедии.
Механизм подмены фактов
В отличие от традиционных поисковых систем, предоставляющих пользователю выбор из множества источников, ИИ-чат-боты с функцией доступа к сети часто объединяют разрозненные данные в единый утвердительный ответ. Инженер по безопасности Рон Стоунер провел эксперимент, создав фиктивную страницу в Википедии, где он был указан как чемпион мира 2025 года по игре 6 Nimmt! (известной также как Take 5). В качестве единственного источника информации на странице была приведена ссылка на специально созданный сайт с пресс-релизом о «победе».
Стоимость реализации этого сценария составила всего 12 долларов за регистрацию доменного имени. В результате нейросети, использующие технологию RAG (поиск с дополнением генерации), начали ссылаться на этот сайт как на авторитетный источник, уверенно подтверждая статус Стоунера в диалогах с пользователями.
Основные уязвимости моделей
Эксперты выделяют три ключевых этапа, на которых происходит компрометация данных:
- Уровень поиска: языковая модель слепо доверяет результатам, которые имеют высокий рейтинг в поисковой выдаче, не проверяя их реальную достоверность.
- Уровень обучающих данных: если ложная информация остается в Википедии достаточно долго, она попадает в базы данных, на которых обучаются нейросети. После этого исправление оригинальной статьи уже не удаляет дезинформацию из «памяти» модели.
- Уровень автономных агентов: при наличии у ИИ доступа к инструментам выполнения действий, отравление данных может привести к совершению нежелательных операций от имени пользователя.
Последствия для безопасности
Данный инцидент подчеркивает серьезную проблему: модели не способны отличить проверенный десятилетиями ресурс от сайта, зарегистрированного несколько дней назад. Основная опасность заключается в том, что подобные тактики поисковой оптимизации (SEO) и дезинформации стали доступны широкому кругу лиц.
Для предотвращения подобных манипуляций разработчикам ИИ рекомендуют внедрять системы проверки происхождения данных и более строгую фильтрацию контента. В частности, автоматические системы должны помечать как подозрительные источники, которые появились в сети незадолго до их упоминания в Википедии или других энциклопедических ресурсах. Пока же, как отмечается в аналитических материалах, доверие нейросетей к текстам остается их фундаментальной слабостью, которую легко эксплуатировать злоумышленникам.
Womenis.ru Для современной Женщины с большой буквы