API для взаимодействия теперь общедоступн. Мы рекомендуем использовать этот API для доступа ко всем новейшим функциям и моделям.

Эта страница переведена с помощью Cloud Translation API.

Оптимизация и вывод данных API Gemini

API Gemini предлагает множество механизмов оптимизации, которые помогут вам сбалансировать скорость, стоимость и надежность в зависимости от конкретных потребностей вашей рабочей нагрузки. Независимо от того, создаете ли вы ботов для диалогового взаимодействия в реальном времени или запускаете ресурсоемкие конвейеры обработки данных в автономном режиме, выбор правильной парадигмы может значительно снизить затраты или повысить производительность.

Особенность	Стандарт	Флекс	Приоритет	Партия	Кэширование
Цены	Полная цена	скидка 50%	На 75–100% больше, чем стандарт	скидка 50%	Скидка 90% + пропорциональное хранение токенов
Задержка	Секунды в минуты	Минуты (целевое значение 1–15 минут)	Секунды	До 24 часов	Более быстрое получение первого токена
Надежность	Высокий / Средне-высокий	Максимально возможные варианты (можно сбросить)	Высокая (не линяет)	Высокий (для обеспечения высокой пропускной способности)	Н/Д
Интерфейс	Синхронный	Синхронный	Синхронный	Асинхронный	Сохраненное состояние
Наилучший вариант использования	Общие рабочие процессы приложений	Несрочные последовательные цепочки	Разработка пользовательских приложений	Огромные массивы данных, офлайн-оценки	Повторяющиеся запросы к одному и тому же файлу

Уровни сервисов вывода (синхронные)

Переключаться между оптимизированным по надежности и оптимизированным по стоимости синхронным трафиком можно, передавая параметр service_tier в стандартных вызовах генерации.

Стандартный вывод (по умолчанию)

Стандартный тариф — это вариант по умолчанию для последовательной генерации контента. Он обеспечивает обычное время отклика без дополнительных сборов или длительных очередей.

Надежность: Стандартная критичность
Цена: Стандартная цена.
Лучше всего подходит для: большинства интерактивных приложений повседневного использования.

Определение приоритетов (оптимизированное по задержке)

Приоритетная обработка направляет ваши запросы в очереди вычислительных ресурсов с высокой степенью критичности. Этот трафик строго не подлежит исключению (никогда не прерывается другими уровнями) и обеспечивает высочайшую надежность. Если вы превысите динамические лимиты приоритета, система корректно переведет запрос в стандартный режим обработки вместо того, чтобы завершиться ошибкой.

Надежность: наивысшая критичность
Цена: на 75-100% выше стандартных тарифов.
Наилучшее применение: чат-боты для взаимодействия с клиентами, обнаружение мошенничества в режиме реального времени и критически важные для бизнеса вспомогательные системы.

Гибкий вывод (оптимизированный по стоимости)

Технология Flex Inference предлагает 50% скидку по сравнению со стандартными тарифами за счет использования вычислительных мощностей в непиковые часы. Запросы обрабатываются синхронно, что означает отсутствие необходимости переписывать код для управления пакетными объектами. Поскольку это "отключаемый" трафик, запросы могут быть прерваны, если система столкнется со стандартными пиками нагрузки.

Надежность: негарантированная, с возможностью отключения.
Цена: 50% от стандартной цены (оплата за токен).
Лучше всего подходит для: многоэтапных рабочих процессов с участием агентов, где результат звонка N+1 зависит от результата звонка N, фоновых обновлений CRM и офлайн-оценок.

Пакетный API (массовая обработка, асинхронная обработка)

Пакетный API предназначен для асинхронной обработки больших объемов запросов со скоростью, составляющей 50% от стандартной. Запросы можно отправлять либо в виде встроенных словарей, либо с помощью входного файла JSONL (до 2 ГБ). Обработка запросов осуществляется с использованием фоновых очередей с целевым временем выполнения 24 часа.

Надежность: Возможность отключения, но с автоматическими повторными попытками в течение 24 часов и системой очередей.
Цена: 50% от стандартной цены.
Лучше всего подходит для: предварительной обработки больших наборов данных, запуска периодических наборов регрессионных тестов и генерации больших объемов изображений или встраиваний.

Кэширование контекста (экономия входных данных)

Кэширование контекста используется в тех случаях, когда существенный исходный контекст многократно используется в более коротких запросах.

Неявное кэширование: автоматически включается на моделях Gemini 2.5 и более новых. Система передает экономию средств, если ваш запрос попадает в существующие кэши на основе распространенных префиксов командной строки.
Явное кэширование: Вы можете вручную создать объект кэша с заданным временем жизни (TTL). После создания вы будете использовать кэшированные токены для последующих запросов, чтобы избежать повторной передачи одного и того же корпуса данных.
Цена: Оплата производится исходя из количества кэш-токенов и времени хранения (TTL).
Лучше всего подходит для: чат-ботов с подробными системными инструкциями, повторяющегося анализа длинных видеофайлов или запросов к большим наборам документов.