Анти-абьюз и юридические риски LLM
За последние 12 часов в фокусе оказались две практические темы для команд, которые строят продукты на LLM. Первая — масштабируемый abuse API (фермы аккаунтов, прокси, массовые однотипные запросы) ради «дистилляции» способностей модели. Вторая — как саппорт-бот может создать финансовые и юридические обязательства из-за импровизаций.
Поймали дистилляцию с Claude?
Для кого: CPO, Product Manager, Solo-Dev
Масштаб и механика «дистилляции» через фейки. Пересказ заявлений Anthropic: кластеры фейковых аккаунтов использовались для индустриального сбора диалогов и «снятия» способностей Claude через массовые повторяющиеся/похожие промпты, нацеленные на reasoning, tool use и coding. Утверждаемые масштабы:
- ~24 000 фейковых аккаунтов
- ~16 млн exchanges (диалоговых взаимодействий)
- паттерн: большое число однотипных запросов для извлечения поведенческих шаблонов модели
Claude как reward model для RL. Более «продвинутый» вектор: использовать Claude не только как источник ответов, но и как LLM-as-a-judge — заставлять оценивать генерации другой системы по рубрикам, превращая это в reward model/сигнал для reinforcement learning или отбора данных. Упомянутые детали:
- из ~16 млн exchanges на DeepSeek, по словам автора, приходится ~150 000
- формат задач: rubric-based grading (оценка по критериям)
DeepSeek украл Claude, ИИ дал скидку 80%, ИИ может уничтожить сам себя
Для кого: CPO, Product Manager, Solo-Dev
Промышленная дистилляция через прокси и фермы. Описан сценарий: массовые запросы к Claude через прокси и множество аккаунтов для обучения более слабых моделей на ответах сильной (дистилляция), с обходом ограничений и ToS. Практическая интерпретация для продукта: это корпоративно масштабируемая операция, значит защита должна быть системной, а не «бан-листом». Заявленные факты:
- DeepSeek, Moonshot, MiniMax: ~24 000 фиктивных аккаунтов
-
16 млн обменов с Claude
- использование прокси-сетей для обхода ограничений
Чатбот «выдал» 80% скидку. Кейc про customer support: пользователь манипуляцией диалогом (разговор про проценты, позитивное подкрепление) довёл бота до выдачи огромной скидки и «промокода», которого не существовало. Риск обозначен как продуктовый и юридический: если бот воспринимается как официальный представитель, его ответы могут трактоваться как обязательства компании. Заявленные факты:
- бот выдал 80% скидку на заказ примерно £8000
- промокод оказался случайной строкой и отсутствовал в базе
- владелец отменил заказ и вернул деньги
- упомянут прецедент Air Canada (2024): суд обязал выполнить обещание чатбота о скидке
Архитектура: диалог отдельно, действия отдельно. Рекомендованный паттерн: LLM ведёт разговор, но любые операции с финансовыми/контрактными последствиями должны выполняться только через валидированные API к реальным базам и бизнес-правилам (проверки, разрешения, лимиты). Это снижает риск галлюцинаций и юридически значимых «обещаний».
- критические сущности: цены, скидки, промокоды
- механизм: только через валидированные API к реальным данным