YinNews
ArticlesProjectsAbout

Recent Posts

27 фев., 04:00Нет обновлений
26 фев., 16:00Нет обновлений
26 фев., 04:00Антидистилляция: API под промышленной атакой
25 фев., 16:01Автономные агенты: риск разрушительных действий
25 фев., 04:01AI как sales-оператор в inbox
24 фев., 16:01Анти-абьюз и юридические риски LLM
24 фев., 04:01Контекст в файлах и копирование поведения
23 фев., 16:01Мультиязычный LLM на edge за копейки
CPOSolo-Dev
23 фев., 04:00Нет обновлений
22 фев., 16:01Мини‑TTS на edge и быстрые ассистенты
22 фев., 04:00Нет обновлений
21 фев., 16:01AI-инструменты упираются в one-click
21 фев., 04:00Нет обновлений
20 фев., 16:00AI-агенты вредят OSS без ограничений
20 фев., 04:01Токены подписок под запретом, thinking — настраиваемый
19 фев., 17:45Нет обновлений
19 фев., 07:00Нет обновлений
18 фев., 19:02Считайте стоимость задачи, не токена
18 фев., 07:00Нет обновлений
17 фев., 19:02Локальные ассистенты и тяжелые MoE
23 фев., 16:01

Мультиязычный LLM на edge за копейки

CPOSolo-Dev1 video

За последние 12 часов в фокусе — практичный релиз компактных мультиязычных моделей, которые закрывают проблему качества на «редких» языках и упрощают локальный запуск. Ключевая ценность для продукта — снизить стоимость инференса и расширить языковое покрытие без зависимости от облака.

Tiny Aya — мини-мультиязычные модели Cohere

Для кого: CPO, Solo-Dev

Почему мультиязычность ломается: low-resource данные и плохая токенизация. Две причины слабого качества на «непопулярных» языках:

  • мало данных (low-resource), иногда из-за отсутствия достаточного объема контента/Википедии;
  • неэффективный токенизатор дробит текст на слишком много токенов (почти «по символам»), что ухудшает обучаемость и делает инференс дороже и медленнее.

Факт из примера: в старых токенизаторах LLaMA 2 для ряда языков (Thai/Greek/Chinese) требуется существенно больше токенов, чем для английского/французского, что бьет по эффективности. schedule00:00

Релиз Cohere TinyAya: состав линейки и назначение моделей. TinyAya — семейство компактных мультиязычных general-purpose моделей:

  • размер: около 3.3B параметров;
  • base pretrained: предобучение на 70+ языках, включая low-resource;
  • post-trained варианты: TinyAya Global (универсальная) и региональные миксы Earth/Fire/Water;
  • публикуются multilingual training datasets и benchmarks для дальнейших fine-tune.

Практически: стартовать с Global или региональной модели под ваш рынок, затем при необходимости дообучать на своих данных. schedule03:54

Как поделены языки по регионам (Earth/Fire/Water) и что туда входит. Разбиение помогает выбирать модель под географию продукта:

  • Earth: West Asia + Africa + часть Europe
    • арабский/турецкий/иврит;
    • 10 африканских;
    • 31 европейский язык.
  • Fire: South Asia
    • хинди/бенгали/тамильский/непали и др.;
    • обычно также английский из‑за code-switching.
  • Water: Asia Pacific + часть West Asia/Europe
    • тагалог/бахаса/вьетнамский/тайский/китайский;
    • low-resource: кхмерский, бирманский.

Если вы делаете продукт под конкретный регион, выбор Earth/Fire/Water может быть более выгодным стартом, чем «универсальная» модель. schedule05:55

Собственный токенизатор TinyAya и сравнение эффективности; что делать на практике. Cohere обучили собственный токенизатор и сравнивают эффективность токенизации:

  • TinyAya tokenizer vs Gemma 3 tokenizer vs Qwen3 tokenizer;
  • по ряду языков TinyAya эффективнее, по ряду — Gemma 3.

Практический шаг: перед выбором модели проверять результаты по своему языку в paper и начинать эксперименты с подходящей (Global или региональной) версией. schedule08:30

Деплой/запуск: квантизация, Ollama и on-device сценарии. Упомянуты быстрые опции для локального запуска:

  • есть квантизованные версии, доступные «straight away» для Ollama;
  • из-за размера около 3B модели потенциально подходят для запуска на телефоне (оценка автора), что полезно для мобильных приложений на локальных языках.

Если вам важны приватность/офлайн/стоимость, TinyAya — кандидат для edge-инференса с минимальным порогом входа. schedule09:19