Kimi K2.6 резко снижает затраты на инференс ИИ

2049.news · 15.05.2026, 13:35:02

Kimi K2.6 резко снижает затраты на инференс ИИ


До появления Kimi K2.6 команды запускали рабочие нагрузки на Claude Opus 4.7 по $25 per million выходных токенов. На 20.04. была выпущена открытая модель Kimi K2.6, и она сразу изменила динамику затрат.

Что такое Kimi K2.6

Kimi K2.6 — это открытая модель Mixture-of-Experts с теоретическим размером 1 trillion параметров и 32 billion активных параметров на токен. Её инференс ведёт себя как компактная 32B модель, при этом обеспечивая производительность, сопоставимую с архитектурой 1T.

Затраты и бенчмарки

Опубликованная цена — $0.60 per million за входные токены и $2.50 per million за выходные токены, с контекстным окном в 256K токенов. На SWE-Bench Pro Kimi набрала 58.6%, как сообщается, превзойдя GPT-5.4 и Opus 4.6.

Для цикла агента с 100 million входных и 10 million выходных токенов в месяц Opus 4.7 стоит $2,550, тогда как Kimi K2.6 — $85. Эта разница означает ежегодную экономию в размере $28,560 при идентичных нагрузках.

Тесты в реальных условиях

Независимые задания демонстрируют сильные стороны Kimi в длительных автономных прогонках. В одном задании на Mac по созданию движка Zig с нуля Kimi выполнила 14 итераций и 4,000+ вызовов инструментов за 12 часов, показав результат примерно на 20% быстрее, чем LM Studio.

В другом случае, Exchange-Core, открытый финансовый движок с восьмилетней эксплуатацией, Kimi выступала в роли старшего архитектора в течение 13 часов, создав 4,000 строк изменений и почти утроив пропускную способность на критических путях.

Рекомендуемая оркестрация и подводные камни

Большинство команд в настоящее время полагаются на одну модель. Рекомендуемый стек — использовать Kimi K2.6 в качестве основного мозга для 80% задач, держать Opus 4.7 для верхних 10% сложных эскалаций и использовать Haiku 4.5 для заголовков и сжатия сессий.

Режим мышления Kimi генерирует примерно в 3.6x раза больше выходных токенов, чем Opus при аналогичных задачах; при цене токенов примерно в десять раз ниже эффективная экономия становится примерно 2.7x, а не десятикратной. Дешёвые токены также снижают дисциплину мониторинга, что может привести к незамеченному дополнительному потреблению и периодическим превышениям на 80K токенов.

«Область: [specific files]. Не трогайте ничего за пределами области. Перечислите связанные задачи в конце, не исправляйте inline.»

Выводы

Kimi K2.6 не полностью заменяет Opus для всех случаев использования, но позволяет перенести большую часть рабочих нагрузок на значительно более дешёвую модель с открытым исходным кодом. Модель с открытым исходным кодом и, как ожидается, в течение нескольких месяцев породит форки и специализированные версии, расширяя возможности развертывания и оптимизации.


Похожие записи

Anthropic Releases Open Legal Skills for Claude Cowork
Monero selects CSIDH‑1024 for post‑quantum addresses
Прокрутите вниз для загрузки следующего материала