Оптимизация и вывод данных API Gemini

API Gemini предлагает множество механизмов оптимизации, которые помогут вам сбалансировать скорость, стоимость и надежность в зависимости от конкретных потребностей вашей рабочей нагрузки. Независимо от того, создаете ли вы ботов для диалогового взаимодействия в реальном времени или запускаете ресурсоемкие конвейеры обработки данных в автономном режиме, выбор правильной парадигмы может значительно снизить затраты или повысить производительность.

Особенность Стандарт Флекс Приоритет Партия Кэширование
Цены Полная цена скидка 50% На 75–100% больше, чем стандарт скидка 50% Пропорциональное хранение токенов
Задержка Секунды в минуты Минуты (целевое значение 1–15 минут) Низкий уровень (секунды) До 24 часов Более быстрое получение первого токена
Надежность Высокий / Средне-высокий Максимально возможные варианты (можно сбросить) Высокая (не линяет) Высокий (для обеспечения высокой пропускной способности) Н/Д
Интерфейс Синхронный Синхронный Синхронный Асинхронный Сохраненное состояние
Наилучший вариант использования Общие рабочие процессы приложений Несрочные последовательные цепочки Разработка пользовательских приложений Огромные массивы данных, офлайн-оценки Повторяющиеся запросы к одному и тому же файлу

Уровни сервисов вывода (синхронные)

Переключаться между оптимизированным по задержке и оптимизированным по стоимости синхронным трафиком можно, передавая параметр service_tier в стандартных вызовах генерации.

Стандартный вывод (по умолчанию)

Стандартный тариф — это вариант по умолчанию для последовательной генерации контента. Он обеспечивает обычное время отклика без дополнительных сборов или длительных очередей.

  • Задержка: от секунд до минут.
  • Цена: Стандартная цена.
  • Лучше всего подходит для: большинства интерактивных приложений повседневного использования.

Определение приоритетов (оптимизированное по задержке)

Приоритетная обработка направляет ваши запросы в очереди вычислительных ресурсов с высокой степенью критичности. Этот трафик строго не подлежит исключению (никогда не прерывается другими уровнями) и обеспечивает высочайшую надежность. Если вы превысите динамические лимиты приоритета, система корректно переведет запрос в стандартный режим обработки вместо того, чтобы завершиться ошибкой.

  • Задержка: Сверхнизкая (от миллисекунд до секунд).
  • Цена: на 75-100% выше стандартных тарифов.
  • Лучше всего подходит для: чат-ботов для взаимодействия с клиентами в режиме реального времени, обнаружения мошенничества в реальном времени и критически важных вспомогательных систем для бизнеса.

Гибкий вывод (оптимизированный по стоимости)

Технология Flex Inference предлагает 50% скидку по сравнению со стандартными тарифами за счет использования вычислительных мощностей в непиковые часы. Запросы обрабатываются синхронно, что означает отсутствие необходимости переписывать код для управления пакетными объектами. Поскольку это "отключаемый" трафик, запросы могут быть прерваны, если система столкнется со стандартными пиками нагрузки.

  • Задержка: Не гарантируется, целевой показатель от 1 до 15 минут.
  • Цена: 50% от стандартной цены (оплата за токен).
  • Лучше всего подходит для: многоэтапных рабочих процессов с участием агентов, где результат звонка N+1 зависит от результата звонка N, фоновых обновлений CRM и офлайн-оценок.

Пакетный API (массовая обработка, асинхронная обработка)

Пакетный API предназначен для асинхронной обработки больших объемов запросов со скоростью, составляющей 50% от стандартной. Запросы можно отправлять либо в виде встроенных словарей, либо с помощью входного файла JSONL (до 2 ГБ). Обработка запросов осуществляется с использованием фоновых очередей с целевым временем выполнения 24 часа.

  • Задержка: высокая (до 24 часов).
  • Цена: 50% от стандартной цены.
  • Лучше всего подходит для: предварительной обработки больших наборов данных, запуска периодических наборов регрессионных тестов и генерации больших объемов изображений или встраиваний.

Кэширование контекста (экономия входных данных)

Кэширование контекста используется в тех случаях, когда существенный исходный контекст многократно используется в более коротких запросах.

  • Неявное кэширование: автоматически включается на моделях Gemini 2.5 и более новых. Система передает экономию средств, если ваш запрос попадает в существующие кэши на основе распространенных префиксов командной строки.
  • Явное кэширование: Вы можете вручную создать объект кэша с заданным временем жизни (TTL). После создания вы будете использовать кэшированные токены для последующих запросов, чтобы избежать повторной передачи одного и того же корпуса данных.
  • Цена: Оплата производится исходя из количества кэш-токенов и времени хранения (TTL).
  • Лучше всего подходит для: чат-ботов с подробными системными инструкциями, повторяющегося анализа длинных видеофайлов или запросов к большим наборам документов.