Google DeepMind объявляет модель Gemini 3.1 Flash‑Lite
Google DeepMind объявляет модель Gemini 3.1 Flash‑Lite
03.03.2026 Google DeepMind объявила Gemini 3.1 Flash‑Lite, более быструю и экономичную модель в семействе Gemini 3.
Она нацелена на приложения, где пропускная способность, масштабируемость и низкие эксплуатационные расходы являются основными ограничениями для задач инференса и обработки данных.
Ключевые особенности
Модель принимает мультимодальные входы, включая текст, изображения, видео, аудио и PDF-документы, для унифицированной обработки различных форматов.
Она предоставляет окно контекста до 1 000 000 токенов, что позволяет проводить длительные разговоры и рассуждения на уровне документов в рамках одной сессии.
Разработчики могут настраивать глубину рассуждений модели, балансируя затраты вычислений и точность вывода в соответствии с требованиями рабочей нагрузки.
Производительность и стоимость
Google позиционирует Gemini 3.1 Flash‑Lite как самый быстрый и наиболее экономичный представитель линейки Gemini 3 для инференса, чувствительного к задержкам.
Конкретные ценовые показатели не раскрывались, однако компания подчеркнула снижение потребления вычислительных ресурсов на один инференс и уменьшение общей стоимости владения.
Доступность и тестирование
Компания сообщила, что программы раннего доступа и тестирования будут доступны через её платформы для разработчиков и выбранных облачных партнёров в ближайшие недели.
Подходящие сценарии использования
- Инференс с высокой пропускной способностью для клиентских сервисов, где низкая задержка и предсказуемая стоимость запроса критичны для пользовательского опыта.
- Пакетная обработка больших мультимодальных корпусов, таких как длинные документы и библиотеки видео, которые требуют сохранения расширенного контекста.
- Периферийные или близкие к периферии развёртывания, требующие снижения вычислительных бюджетов при сохранении возможности сложного мультимодального инференса и приемлемого времени ответа.
В этой статье рассматривается
- Как цена на Gemini 3.1 Flash‑Lite соотносится с альтернативами и почему Google позиционирует её как более экономичное решение для крупных инференс‑нагрузок.
- Где и когда разработчики смогут получить доступ к публичным оценкам, программам раннего просмотра и пробным версиям, проводимым партнёрами, для практических экспериментов.
- Какие задачи и рабочие нагрузки лучше всего соответствуют компромиссам Flash‑Lite между скоростью, масштабируемостью и сниженным потреблением вычислительных ресурсов.
Организациям, оценивающим Gemini 3.1 Flash‑Lite, следует сравнить показатели пропускной способности, задержки и стоимости на один инференс с их текущими развёртываниями перед принятием решения о миграции.
Похожие записи

