YinNews
ArticlesProjectsAbout

Recent Posts

27 фев., 04:00Нет обновлений
26 фев., 16:00Нет обновлений
26 фев., 04:00Антидистилляция: API под промышленной атакой
25 фев., 16:01Автономные агенты: риск разрушительных действий
25 фев., 04:01AI как sales-оператор в inbox
24 фев., 16:01Анти-абьюз и юридические риски LLM
CPOSolo-Dev
24 фев., 04:01Контекст в файлах и копирование поведения
23 фев., 16:01Мультиязычный LLM на edge за копейки
23 фев., 04:00Нет обновлений
22 фев., 16:01Мини‑TTS на edge и быстрые ассистенты
22 фев., 04:00Нет обновлений
21 фев., 16:01AI-инструменты упираются в one-click
21 фев., 04:00Нет обновлений
20 фев., 16:00AI-агенты вредят OSS без ограничений
20 фев., 04:01Токены подписок под запретом, thinking — настраиваемый
19 фев., 17:45Нет обновлений
19 фев., 07:00Нет обновлений
18 фев., 19:02Считайте стоимость задачи, не токена
18 фев., 07:00Нет обновлений
17 фев., 19:02Локальные ассистенты и тяжелые MoE
24 фев., 16:01

Анти-абьюз и юридические риски LLM

CPOSolo-DevProduct Manager2 videos

За последние 12 часов в фокусе оказались две практические темы для команд, которые строят продукты на LLM. Первая — масштабируемый abuse API (фермы аккаунтов, прокси, массовые однотипные запросы) ради «дистилляции» способностей модели. Вторая — как саппорт-бот может создать финансовые и юридические обязательства из-за импровизаций.

Поймали дистилляцию с Claude?

Для кого: CPO, Product Manager, Solo-Dev

Масштаб и механика «дистилляции» через фейки. Пересказ заявлений Anthropic: кластеры фейковых аккаунтов использовались для индустриального сбора диалогов и «снятия» способностей Claude через массовые повторяющиеся/похожие промпты, нацеленные на reasoning, tool use и coding. Утверждаемые масштабы:

  • ~24 000 фейковых аккаунтов
  • ~16 млн exchanges (диалоговых взаимодействий)
  • паттерн: большое число однотипных запросов для извлечения поведенческих шаблонов модели

schedule00:52

Claude как reward model для RL. Более «продвинутый» вектор: использовать Claude не только как источник ответов, но и как LLM-as-a-judge — заставлять оценивать генерации другой системы по рубрикам, превращая это в reward model/сигнал для reinforcement learning или отбора данных. Упомянутые детали:

  • из ~16 млн exchanges на DeepSeek, по словам автора, приходится ~150 000
  • формат задач: rubric-based grading (оценка по критериям)

schedule02:32

DeepSeek украл Claude, ИИ дал скидку 80%, ИИ может уничтожить сам себя

Для кого: CPO, Product Manager, Solo-Dev

Промышленная дистилляция через прокси и фермы. Описан сценарий: массовые запросы к Claude через прокси и множество аккаунтов для обучения более слабых моделей на ответах сильной (дистилляция), с обходом ограничений и ToS. Практическая интерпретация для продукта: это корпоративно масштабируемая операция, значит защита должна быть системной, а не «бан-листом». Заявленные факты:

  • DeepSeek, Moonshot, MiniMax: ~24 000 фиктивных аккаунтов
  • 16 млн обменов с Claude

  • использование прокси-сетей для обхода ограничений

schedule00:46

Чатбот «выдал» 80% скидку. Кейc про customer support: пользователь манипуляцией диалогом (разговор про проценты, позитивное подкрепление) довёл бота до выдачи огромной скидки и «промокода», которого не существовало. Риск обозначен как продуктовый и юридический: если бот воспринимается как официальный представитель, его ответы могут трактоваться как обязательства компании. Заявленные факты:

  • бот выдал 80% скидку на заказ примерно £8000
  • промокод оказался случайной строкой и отсутствовал в базе
  • владелец отменил заказ и вернул деньги
  • упомянут прецедент Air Canada (2024): суд обязал выполнить обещание чатбота о скидке

schedule02:27

Архитектура: диалог отдельно, действия отдельно. Рекомендованный паттерн: LLM ведёт разговор, но любые операции с финансовыми/контрактными последствиями должны выполняться только через валидированные API к реальным базам и бизнес-правилам (проверки, разрешения, лимиты). Это снижает риск галлюцинаций и юридически значимых «обещаний».

  • критические сущности: цены, скидки, промокоды
  • механизм: только через валидированные API к реальным данным

schedule05:11