YinNews
ArticlesProjectsAbout

Recent Posts

27 фев., 04:00Нет обновлений
26 фев., 16:00Нет обновлений
26 фев., 04:00Антидистилляция: API под промышленной атакой
25 фев., 16:01Автономные агенты: риск разрушительных действий
25 фев., 04:01AI как sales-оператор в inbox
24 фев., 16:01Анти-абьюз и юридические риски LLM
24 фев., 04:01Контекст в файлах и копирование поведения
23 фев., 16:01Мультиязычный LLM на edge за копейки
23 фев., 04:00Нет обновлений
22 фев., 16:01Мини‑TTS на edge и быстрые ассистенты
22 фев., 04:00Нет обновлений
21 фев., 16:01AI-инструменты упираются в one-click
21 фев., 04:00Нет обновлений
20 фев., 16:00AI-агенты вредят OSS без ограничений
20 фев., 04:01Токены подписок под запретом, thinking — настраиваемый
19 фев., 17:45Нет обновлений
19 фев., 07:00Нет обновлений
18 фев., 19:02Считайте стоимость задачи, не токена
18 фев., 07:00Нет обновлений
17 фев., 19:02Локальные ассистенты и тяжелые MoE
CPOProduct Manager
17 фев., 19:02

Локальные ассистенты и тяжелые MoE

CPOProduct ManagerSolo-DevProductivity2 videos

За период выделяются два прикладных сюжета. Первый — как собрать локального AI-ассистента с управляемой персоной и долговременной памятью, и на его базе автоматизировать персональный CRM. Второй — как оценивать и планировать внедрение тяжёлой MoE-модели (Qwen 3.5), если нужны длинный контекст и «нативная» мультимодальность.

Как я использую OpenClaw каждый день (21 сценарий)

Для кого: CPO, Product Manager, Solo-Dev, Productivity

Конфигурация ассистента через 2 файла. OpenClaw настраивается через identity.md (базовая «идентичность») и soul.md (правила поведения и коммуникации), где можно задавать разные стили под разные каналы, чтобы ассистент не писал одинаково в личном чате и в Slack, который читают коллеги. schedule01:22

  • Основные конфиги: identity.md, soul.md.
  • В soul.md: параметры стиля ответа (формальность, лаконичность/подробность) и режимы по контексту (личный vs Slack).

Память: daily notes → distill → RAG. Память ведётся локально: диалоги складываются в ежедневные markdown-заметки, затем предпочтения и знания агрегируются в отдельный файл, и всё векторизуется для семантического поиска (RAG) по истории. schedule02:15

  • Формат хранения: локальные markdown-файлы (daily notes) в папке memory.
  • Агрегация: «дистилляция» в memory.md.
  • Использование: ассистент читает память и обновляет identity на её основе.
  • Поиск: векторизация файлов для RAG/семантического поиска по прошлым диалогам.

Персональный CRM: ingestion → очистка → отбор LLM → локальная БД → Q&A. Автор описывает CRM-пайплайн, который забирает данные из Gmail/календаря/Fathom, чистит входящий поток от «шума» (рассылки и холодные письма), затем LLM решает, какие диалоги/контакты сохранять, при необходимости делает ресёрч по контакту и сохраняет всё в локальную базу; дальше по базе можно задавать вопросы на естественном языке. schedule03:57

  • Источники данных: Gmail, calendar, Fathom.
  • Очистка noise: newsletters, cold pitches.
  • LLM-логика: квалификация «что сохранять» + research по контакту при необходимости.
  • Хранилище: локальная БД (упомянута вектор-колонка; детали обрываются).
  • Масштаб: упомянуто 371 контакт.
  • Примеры запросов: «когда последний раз общались», «что обсуждали», «кто последний в компании X».

Qwen 3.5 — следующая NEXT-модель

Для кого: CPO, Solo-Dev, Productivity

MoE-параметры: total vs active и число экспертов. Qwen 3.5 описана как Mixture-of-Experts: 397B параметров всего при 17B активных, с ростом числа экспертов до 512 (для сравнения: у Qwen 3 — 235B total, 22B active, 128 experts). Практика выбора MoE: смотреть не только на total params, но и на active params и количество экспертов. schedule01:12

  • Qwen 3.5: 397B total, 17B active, 512 experts.
  • Qwen 3 (крупнейшая публичная): 235B total, 22B active, 128 experts.

Локальный запуск: модель тяжёлая по RAM. Автор считает модель недружелюбной к локальному инференсу: даже в квантизированном виде ожидается порядка 256 GB RAM, возможно 512 GB, при этом для компаний с GPU-нодой возможен полностью автономный деплой с качеством, близким к проприетарным моделям без «триллионных» размеров. schedule02:37

  • Оценка ресурсов (даже quantized): ~256 GB RAM (возможно 512 GB).
  • Вывод по внедрению: Solo-Dev — вероятнее провайдер/облако; компания — планировать GPU-ноду и бюджет на память/пропускную способность.

Нативная мультимодальность (текст+изображения). В Qwen 3.5 мультимодальность встроена изначально: обучение «с нуля» на тексте и изображениях, а не через отдельную VL-надстройку с энкодером. schedule03:40

  • Подход: trained from scratch on text + images.
  • Продуктовый критерий: если в сценариях есть изображения (скриншоты, документы, UI), имеет смысл тестировать нативно мультимодальные модели.

Ускорение на long-context: архитектура + multi-token prediction. Автор связывает ускорение с изменениями архитектуры/attention, снижающими потребность в RAM при больших контекстах, и переходом к multi-token prediction. Заявлены цифры на 256k контексте: 19x быстрее Qwen 3 Max и 7.2x быстрее Qwen 3 235B при decoding. schedule04:46

  • Заявление по speedup на 256k (decoding):
    • 19x vs Qwen 3 Max
    • 7.2x vs Qwen 3 235B
  • Причины: оптимизации под большие контексты + multi-token prediction.

Языковое покрытие и токенизатор. У Qwen 3.5 заявлено расширение мультиязычности и рост словаря токенизатора, что важно для интернациональных продуктов, но требует проверки на целевых языках. schedule05:56

  • Языки/диалекты: 119 → 200+.
  • Vocab токенизатора: 250K.