Мини‑TTS на edge и быстрые ассистенты
За последние 12 часов фокус сместился в сторону «лёгкого» продакшена: модели и инструменты, которые проще встроить в продукт без сложной инфраструктуры. Два практичных сюжета: микроскопический TTS для edge/клиента и быстрый запуск AI-ассистента с базой знаний.
KittenTTS — The Nano TTS
Для кого: CPO, Product Manager, Solo-Dev, Productivity
Размеры моделей и квантование до ~25MB. KittenTTS доступен в нескольких вариантах, где ключевая ценность — минимальный размер весов для распространения и встраивания.
- Mini: 80M параметров (~80MB на диске)
- Micro: 40M параметров
- Nano: 15M параметров
- Nano 8-bit quantized: ~25MB
- Всего: 3 модели + сжатая версия самой маленькой 00:14
Сценарии деплоя: edge/браузер/мобайл и CPU-only. Размер и позиционирование моделей позволяют рассматривать запуск без GPU на конечных устройствах и потенциально в клиенте.
- Заявлено: CPU optimized, GPU не требуется
- Подходящие цели: lightweight deployment
- Автор отдельно отмечает возможность быстрой загрузки в браузер и идеи формата Chrome extension 01:33
Лицензия и стадия проекта. Для продуктовой интеграции важны и юридика, и зрелость релиза.
- Статус: developer preview
- Лицензия: Apache-2.0 (упрощает коммерческое использование и встраивание)
- На Hugging Face упоминаются версии 0.1/0.2 (Aug/Sep) и 0.8 (последние дни на момент записи) 02:07
Интеграция: pip-пакет, голоса/эмбеддинги, ONNX. Поставка ориентирована на быстрый старт и переносимость.
- Есть pip package
- Можно загрузить все модели (включая quantized и non-quantized nano)
- Формат моделей: ONNX
- Есть NumPy-файл с голосами; автор предполагает, что это voice embeddings (по аналогии с Kokoro) 03:14
Качество/ограничения: артефакты, пунктуация, чувствительность голосов к 8-bit. Компромисс за размер — качество и стабильность.
- На 8-bit nano заметны artifacts
- Качество зависит от выбранного голоса: некоторые голоса «лучше работают на низком битрейте»
- Проблема с паузами/пунктуацией: модель «не делает паузу» между предложениями ("tends to just keep going") 05:09
Gemini 3.1 Pro ставит рекорды — ИИ Новости
Для кого: CPO, Product Manager, Solo-Dev
Gemini 3.1 Pro: бенчмарки, домены силы и стоимость. Даны ориентиры, которые можно использовать для выбора базовой модели и прикидки бюджета inference.
- Humanity’s Last Exam 2: 77% (Gemini 3.1 Pro) vs 68.8% (Opus 4.6)
- По словам автора: Gemini 3.1 — лидер в 6 из 10 оценок ("artificial analysis")
- Цена: $2 за 1M input tokens и $12 за 1M output tokens при контексте <200k tokens
- «Стоимость запуска индекса интеллект» ~ $900: вдвое меньше, чем у Opus 4.6 и GPT 5? 2X H (как произнесено), но в 2 раза выше, чем у open-weights моделей вроде GLM 5 00:51
Spellbook: быстрый запуск кастомного AI-ассистента с базой знаний + интеграции. Показан конкретный no/low-code флоу, как собрать ассистента и быстро довести до канала (Telegram/сайт).
- Создать ассистента → задать параметры (имя/категория)
- Включить функции: обработка Excel-отчётов и файлов (PDF/документы)
- База знаний: создать новую базу → загрузить файлы разных форматов (ассистент будет ссылаться на них)
- Добавить быстрые кнопки для частых вопросов (FAQ)
- Интеграции: Telegram или встраивание на сайт (выдаётся код виджета)
- Дополнительно упомянуто: маркетплейс готовых ассистентов; оплата картами; работа с картинками; промокод на 3 дня pro-тарифа (рекламная вставка) 03:19