Мультиязычный LLM на edge за копейки
За последние 12 часов в фокусе — практичный релиз компактных мультиязычных моделей, которые закрывают проблему качества на «редких» языках и упрощают локальный запуск. Ключевая ценность для продукта — снизить стоимость инференса и расширить языковое покрытие без зависимости от облака.
Tiny Aya — мини-мультиязычные модели Cohere
Для кого: CPO, Solo-Dev
Почему мультиязычность ломается: low-resource данные и плохая токенизация. Две причины слабого качества на «непопулярных» языках:
- мало данных (low-resource), иногда из-за отсутствия достаточного объема контента/Википедии;
- неэффективный токенизатор дробит текст на слишком много токенов (почти «по символам»), что ухудшает обучаемость и делает инференс дороже и медленнее.
Факт из примера: в старых токенизаторах LLaMA 2 для ряда языков (Thai/Greek/Chinese) требуется существенно больше токенов, чем для английского/французского, что бьет по эффективности. 00:00
Релиз Cohere TinyAya: состав линейки и назначение моделей. TinyAya — семейство компактных мультиязычных general-purpose моделей:
- размер: около 3.3B параметров;
- base pretrained: предобучение на 70+ языках, включая low-resource;
- post-trained варианты: TinyAya Global (универсальная) и региональные миксы Earth/Fire/Water;
- публикуются multilingual training datasets и benchmarks для дальнейших fine-tune.
Практически: стартовать с Global или региональной модели под ваш рынок, затем при необходимости дообучать на своих данных. 03:54
Как поделены языки по регионам (Earth/Fire/Water) и что туда входит. Разбиение помогает выбирать модель под географию продукта:
- Earth: West Asia + Africa + часть Europe
- арабский/турецкий/иврит;
- 10 африканских;
- 31 европейский язык.
- Fire: South Asia
- хинди/бенгали/тамильский/непали и др.;
- обычно также английский из‑за code-switching.
- Water: Asia Pacific + часть West Asia/Europe
- тагалог/бахаса/вьетнамский/тайский/китайский;
- low-resource: кхмерский, бирманский.
Если вы делаете продукт под конкретный регион, выбор Earth/Fire/Water может быть более выгодным стартом, чем «универсальная» модель. 05:55
Собственный токенизатор TinyAya и сравнение эффективности; что делать на практике. Cohere обучили собственный токенизатор и сравнивают эффективность токенизации:
- TinyAya tokenizer vs Gemma 3 tokenizer vs Qwen3 tokenizer;
- по ряду языков TinyAya эффективнее, по ряду — Gemma 3.
Практический шаг: перед выбором модели проверять результаты по своему языку в paper и начинать эксперименты с подходящей (Global или региональной) версией. 08:30
Деплой/запуск: квантизация, Ollama и on-device сценарии. Упомянуты быстрые опции для локального запуска:
- есть квантизованные версии, доступные «straight away» для Ollama;
- из-за размера около 3B модели потенциально подходят для запуска на телефоне (оценка автора), что полезно для мобильных приложений на локальных языках.
Если вам важны приватность/офлайн/стоимость, TinyAya — кандидат для edge-инференса с минимальным порогом входа. 09:19