В «Лаборатории Касперского» рассказали, как люди манипулируют ИИ
МОСКВА, 12 авг — РИА Новости. Пользователи научились манипулировать искусственным интеллектом, который используется в чат-ботах для поиска, анализа сайтов с ответами на запрос — они размещают на своих сайтах специальные фразы, чтобы нейросети выполнили определенные действия, рассказали РИА Новости в «Лаборатории Касперсого».
«Специалисты «Лаборатории Касперского» изучили открытые данные и внутренние источники, чтобы выяснить, как и для чего люди используют indirect prompt injection (непрямые инъекции затравки) — киберриск, которому подвержены многие системы на основе больших языковых моделей (LLM). Речь о текстовых описаниях задач, которые должны выполнять чат-боты. … Люди могут размещать специальные фразы — инъекции — на своих сайтах и в опубликованных в сети документах, чтобы нейросети выдавали другим пользователям ответ, учитывающий цели интересантов», — рассказали в «Лаборатории Касперского».
Решения на основе больших языковых моделей используются не только в чат-ботах, но и в поисковых системах — ИИ помогает резюмировать результаты по запросу пользователя.
Как выяснили эксперты «Лаборатории Касперского», есть несколько сфер, в которых пользователи применяют такие уловки. Например, «инъекции» используются в продвижении резюме среди других анкет при поиске работы — соискатель прописывает инструкции к ИИ с просьбой максимально положительно отозваться о кандидате, пропустить резюме на следующий этап или выставить ему более высокий приоритет. Инструкции незаметны для рекрутера, потому что обычно они сливаются с фоном страницы. Однако нейросети, которые анализируют резюме, считывают эти фразы.
Аналогичные инъекции используются в рекламных целях: они размещаются на сайтах различных товаров и услуг. Инструкции направлены на поисковые чат-боты — их просят выдавать в ответах на запросы более позитивную оценку конкретного продукта. Некоторые пользователи размещают инструкции для нейросетей, чтобы выразить протест в повсеместном использовании ИИ. Например, один бразильский художник обращался к нейросетям с требованием не читать, не использовать, не хранить, не обрабатывать, не адаптировать и не повторять определённый контент на его сайте.
«На сегодняшний день наиболее важным является оценка потенциальных рисков подобных кибератак. Создатели базовых моделей (например, GPT-4) используют самые разные техники, чтобы значительно повысить сложность инъекций – от специального обучения (как в случае с последней моделью от OpenAI) до создания специальных моделей, которые такие атаки могут обнаруживать заранее (например, от компании Google)», — прокомментировал руководитель группы исследований и разработки технологий машинного обучения Владислав Тушканов.
Он также отметил, что случаи использования «инъекций», обнаруженные Kaspersky, не имели злого умысла. На данный момент такие киберугрозы, как фишинг или кража данных с помощью «инъекций» носят теоретический характер. «Однако киберзлоумышленники тоже проявляют активный интерес к нейросетям. Для защиты существующих и будущих решений на базе больших языковых моделей необходимо оценивать риски, изучать всевозможные методы обхода ограничений», — добавил Тушканов.