YinNews

За последние 12 часов в фокусе один практический кейс по защите LLM/API от массового сбора данных для дистилляции. Важно не обсуждение вокруг темы, а конкретные элементы операционной схемы атакующих, сигналы детекта и методы атрибуции.

Они попались...

Для кого: CPO, Solo-Dev, Product Manager

Distillation-атака = извлечение данных через API. Легитимная дистилляция — обучение меньшей модели на выходах более сильной, чтобы сжать/ускорить модель. «Нелегитимная» версия в контексте API — конкурент массово собирает пары запрос–ответ (иногда и «reasoning») через API, чтобы ускорить обучение своей модели и обойти стоимость данных/тренировки. В пересказе заявления Anthropic фигурируют «industrial-scale distillation attacks», 24k фрод-аккаунтов и 16M exchanges. schedule00:56

Масштабный доступ: фрод-аккаунты и прокси. Описан операционный контур доступа «в масштабе»:

создание множества fraudulent accounts;
использование proxy services для доступа к API/Claude и уклонения от обнаружения;
отличимые от нормы паттерны запросов, которые помогли детекту (без конкретных метрик/порогов). schedule03:55

Атрибуция по IP и метаданным. Перечислены способы атрибуции «с высокой уверенностью»:

корреляция IP-адресов;
request metadata;
инфраструктурные индикаторы;
подтверждения от индустриальных партнёров, которые наблюдают тех же акторов на своих платформах. schedule04:17

Целевые паттерны задач для извлечения capabilities. Описаны типы запросов, которыми атакующие пытаются «снять» полезные способности модели:

reasoning across diverse tasks (прощупывание «как думает»);
rubric-based grading, чтобы модель работала как judge/reward model для RL;
генерация вариантов ответов на policy-sensitive темы, включая «censorship-safe alternatives». schedule04:55

Промпт на chain-of-thought после ответа. Приведена конкретная техника эксфильтрации reasoning: после получения ответа атакующий просит модель «вообразить внутреннее рассуждение» и явно расписать шаги (step-by-step), чтобы собрать данные о процессе мышления и использовать их для обучения своей модели. schedule05:35