API Gemini предлагает множество механизмов оптимизации, которые помогут вам сбалансировать скорость, стоимость и надежность в зависимости от конкретных потребностей вашей рабочей нагрузки. Независимо от того, создаете ли вы ботов для диалогового взаимодействия в реальном времени или запускаете ресурсоемкие конвейеры обработки данных в автономном режиме, выбор правильной парадигмы может значительно снизить затраты или повысить производительность.
| Особенность | Стандарт | Флекс | Приоритет | Партия | Кэширование |
|---|---|---|---|---|---|
| Цены | Полная цена | скидка 50% | На 75–100% больше, чем стандарт | скидка 50% | Пропорциональное хранение токенов |
| Задержка | Секунды в минуты | Минуты (целевое значение 1–15 минут) | Низкий уровень (секунды) | До 24 часов | Более быстрое получение первого токена |
| Надежность | Высокий / Средне-высокий | Максимально возможные варианты (можно сбросить) | Высокая (не линяет) | Высокий (для обеспечения высокой пропускной способности) | Н/Д |
| Интерфейс | Синхронный | Синхронный | Синхронный | Асинхронный | Сохраненное состояние |
| Наилучший вариант использования | Общие рабочие процессы приложений | Несрочные последовательные цепочки | Разработка пользовательских приложений | Огромные массивы данных, офлайн-оценки | Повторяющиеся запросы к одному и тому же файлу |
Уровни сервисов вывода (синхронные)
Переключаться между оптимизированным по задержке и оптимизированным по стоимости синхронным трафиком можно, передавая параметр service_tier в стандартных вызовах генерации.
Стандартный вывод (по умолчанию)
Стандартный тариф — это вариант по умолчанию для последовательной генерации контента. Он обеспечивает обычное время отклика без дополнительных сборов или длительных очередей.
- Задержка: от секунд до минут.
- Цена: Стандартная цена.
- Лучше всего подходит для: большинства интерактивных приложений повседневного использования.
Определение приоритетов (оптимизированное по задержке)
Приоритетная обработка направляет ваши запросы в очереди вычислительных ресурсов с высокой степенью критичности. Этот трафик строго не подлежит исключению (никогда не прерывается другими уровнями) и обеспечивает высочайшую надежность. Если вы превысите динамические лимиты приоритета, система корректно переведет запрос в стандартный режим обработки вместо того, чтобы завершиться ошибкой.
- Задержка: Сверхнизкая (от миллисекунд до секунд).
- Цена: на 75-100% выше стандартных тарифов.
- Лучше всего подходит для: чат-ботов для взаимодействия с клиентами в режиме реального времени, обнаружения мошенничества в реальном времени и критически важных вспомогательных систем для бизнеса.
Гибкий вывод (оптимизированный по стоимости)
Технология Flex Inference предлагает 50% скидку по сравнению со стандартными тарифами за счет использования вычислительных мощностей в непиковые часы. Запросы обрабатываются синхронно, что означает отсутствие необходимости переписывать код для управления пакетными объектами. Поскольку это "отключаемый" трафик, запросы могут быть прерваны, если система столкнется со стандартными пиками нагрузки.
- Задержка: Не гарантируется, целевой показатель от 1 до 15 минут.
- Цена: 50% от стандартной цены (оплата за токен).
- Лучше всего подходит для: многоэтапных рабочих процессов с участием агентов, где результат звонка N+1 зависит от результата звонка N, фоновых обновлений CRM и офлайн-оценок.
Пакетный API (массовая обработка, асинхронная обработка)
Пакетный API предназначен для асинхронной обработки больших объемов запросов со скоростью, составляющей 50% от стандартной. Запросы можно отправлять либо в виде встроенных словарей, либо с помощью входного файла JSONL (до 2 ГБ). Обработка запросов осуществляется с использованием фоновых очередей с целевым временем выполнения 24 часа.
- Задержка: высокая (до 24 часов).
- Цена: 50% от стандартной цены.
- Лучше всего подходит для: предварительной обработки больших наборов данных, запуска периодических наборов регрессионных тестов и генерации больших объемов изображений или встраиваний.
Кэширование контекста (экономия входных данных)
Кэширование контекста используется в тех случаях, когда существенный исходный контекст многократно используется в более коротких запросах.
- Неявное кэширование: автоматически включается на моделях Gemini 2.5 и более новых. Система передает экономию средств, если ваш запрос попадает в существующие кэши на основе распространенных префиксов командной строки.
- Явное кэширование: Вы можете вручную создать объект кэша с заданным временем жизни (TTL). После создания вы будете использовать кэшированные токены для последующих запросов, чтобы избежать повторной передачи одного и того же корпуса данных.
- Цена: Оплата производится исходя из количества кэш-токенов и времени хранения (TTL).
- Лучше всего подходит для: чат-ботов с подробными системными инструкциями, повторяющегося анализа длинных видеофайлов или запросов к большим наборам документов.