Антидистилляция: API под промышленной атакой
За последние 12 часов в фокусе один практический кейс по защите LLM/API от массового сбора данных для дистилляции. Важно не обсуждение вокруг темы, а конкретные элементы операционной схемы атакующих, сигналы детекта и методы атрибуции.
Они попались...
Для кого: CPO, Solo-Dev, Product Manager
Distillation-атака = извлечение данных через API. Легитимная дистилляция — обучение меньшей модели на выходах более сильной, чтобы сжать/ускорить модель. «Нелегитимная» версия в контексте API — конкурент массово собирает пары запрос–ответ (иногда и «reasoning») через API, чтобы ускорить обучение своей модели и обойти стоимость данных/тренировки. В пересказе заявления Anthropic фигурируют «industrial-scale distillation attacks», 24k фрод-аккаунтов и 16M exchanges. 00:56
Масштабный доступ: фрод-аккаунты и прокси. Описан операционный контур доступа «в масштабе»:
- создание множества fraudulent accounts;
- использование proxy services для доступа к API/Claude и уклонения от обнаружения;
- отличимые от нормы паттерны запросов, которые помогли детекту (без конкретных метрик/порогов). 03:55
Атрибуция по IP и метаданным. Перечислены способы атрибуции «с высокой уверенностью»:
- корреляция IP-адресов;
- request metadata;
- инфраструктурные индикаторы;
- подтверждения от индустриальных партнёров, которые наблюдают тех же акторов на своих платформах. 04:17
Целевые паттерны задач для извлечения capabilities. Описаны типы запросов, которыми атакующие пытаются «снять» полезные способности модели:
- reasoning across diverse tasks (прощупывание «как думает»);
- rubric-based grading, чтобы модель работала как judge/reward model для RL;
- генерация вариантов ответов на policy-sensitive темы, включая «censorship-safe alternatives». 04:55
Промпт на chain-of-thought после ответа. Приведена конкретная техника эксфильтрации reasoning: после получения ответа атакующий просит модель «вообразить внутреннее рассуждение» и явно расписать шаги (step-by-step), чтобы собрать данные о процессе мышления и использовать их для обучения своей модели. 05:35