Токены подписок под запретом, thinking — настраиваемый
За последние 12 часов два практичных сигнала для продуктовых и техкоманд. С одной стороны — ужесточение/прояснение правил Anthropic по использованию consumer OAuth-токенов в сторонних обвязках. С другой — Gemini 3.1 Pro добавляет промежуточный режим размышления, позволяя управлять latency и качеством.
Anthropic just BANNED OpenClaw...
Для кого: CPO, Product Manager, Solo-Dev
OAuth-токены подписки запрещены в сторонних инструментах. В документации указано, что OAuth-аутентификация предназначена исключительно для Claude Code и Claude AI; использование OAuth-токенов, полученных через Claude Free/Pro/Max, в любом другом продукте/инструменте/сервисе (в тексте отдельно упоминается и Agent SDK) запрещено и считается нарушением consumer ToS. Практический вывод для команд: любые локальные агенты/обвязки, которые логинятся через consumer OAuth вместо API, попадают в зону риска блокировок. 00:57
Подписка vs API: почему «дорого с первого запроса». Автор объясняет мотивацию пользователей подключать подписочные токены к OpenClaw: подписка даёт существенно более низкую «цену за токен», чем API. При переключении на API стоимость резко растёт из‑за больших базовых контекстов: даже простое «hello» может тянуть порядка 50k input tokens.
- Пример из видео: ~50,000 input tokens на простой запрос
- Оценка автора: 50k input для Opus ≈ $0.25 за один «hello» (без output)
- Упоминаемые ориентиры прайса (со слов автора):
- Opus: ~$25 / 1M output tokens
- Sonnet: ~$15 / 1M output tokens
Практический вывод: в агентских сценариях критично ограничивать контекст и частоту вызовов — иначе расходы на API быстро становятся несопоставимыми с подпиской. 02:48
Introducing Gemini 3.1 Pro
Для кого: CPO, Solo-Dev, Product Manager
Три уровня thinking и управляемый trade-off. В Gemini 3.1 Pro можно выбирать уровень “thinking”: low/medium/high (в Gemini 3 Pro, по словам автора, было только low и high). Чем выше thinking, тем больше задержка до ответа — вплоть до 5+ минут. Практический вывод: уровень thinking можно подбирать под класс задач, балансируя latency и вероятность правильного ответа. 04:27
IMO-уровень математики: high дольше, но точнее. На демонстрации автор показывает, что при thinking=high модель пришла к правильному ответу, но ожидание заняло заметное время; при thinking=low ответ был быстрее, но неверный (по словам автора).
- На примере: thinking=high — правильный ответ примерно за 8+ минут
- thinking=low — быстрее, но неверно
Практический вывод: high имеет смысл включать там, где цена ошибки выше стоимости ожидания (или выносить такие запросы в асинхронный режим). 04:58
Где попробовать и где доступна модель. Автор рекомендует тестировать Gemini 3.1 Pro в Google AI Studio: выбрать Latest model (если не видно — открыть список All). Также заявлено, что модель раскатывается в Gemini Pro Plan и уже доступна в Google Cloud.
- Google AI Studio: можно пробовать бесплатно (со слов автора)
- Gemini Pro Plan: rollout
- Google Cloud: уже доступна
Это удобно для быстрых продуктовых проверок качества/latency без немедленной интеграции в прод. 04:45