Приоритетный вывод

API Gemini Priority — это премиальный уровень обработки данных, разработанный для критически важных бизнес-задач, требующих минимальной задержки и высочайшей надежности по премиум-цене. Трафик уровня Priority имеет приоритет над трафиком стандартного API и уровня Flex.

Функция определения приоритетов доступна для всех конечных точек API взаимодействий.

Как использовать приоритет

Для использования уровня «Приоритет» установите значение поля service_tier в вашем запросе на priority . Если это поле опущено, по умолчанию будет использоваться уровень «Стандарт».

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          serviceTier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

ОТДЫХ

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Как работает вывод приоритетов

Приоритетное определение маршрутов направляет запросы в очереди вычислений с высокой критичностью, обеспечивая предсказуемую и высокую производительность для приложений, ориентированных на пользователя. Основной механизм заключается в корректном переходе на стандартную обработку на стороне сервера для трафика, превышающего динамические ограничения, что обеспечивает стабильность приложения вместо прерывания запроса.

Особенность Приоритет Стандарт Флекс Партия
Цены На 75-100% больше, чем стандартная версия. Полная цена скидка 50% скидка 50%
Задержка Секунды Секунды в минуты Минуты (целевое значение 1–15 минут) До 24 часов
Надежность Высокая (не линяет) Высокий / Средне-высокий Максимально возможные варианты (можно сбросить) Высокий (для обеспечения высокой пропускной способности)
Интерфейс Синхронный Синхронный Синхронный Асинхронный

Основные преимущества

  • Низкая задержка : разработано для обеспечения времени отклика в несколько секунд для интерактивных инструментов искусственного интеллекта, ориентированных на пользователя.
  • Высокая надежность : трафик обрабатывается с наивысшей степенью критичности и строго исключается из резервирования.
  • Плавное снижение нагрузки : пиковые нагрузки, превышающие динамические ограничения, автоматически переводятся на стандартный уровень обработки вместо сбоя, что предотвращает перебои в работе сервиса.
  • Низкое трение : Использует тот же синхронный метод create , что и стандартный и гибкий уровни.

Варианты использования

Приоритетная обработка идеально подходит для критически важных бизнес-процессов, где производительность и надежность имеют первостепенное значение.

  • Интерактивные приложения ИИ : чат-боты и помощники для обслуживания клиентов, за которые пользователи платят дополнительную плату и ожидают быстрых и стабильных ответов.
  • Системы принятия решений в реальном времени : системы, требующие высоконадежных результатов с низкой задержкой, такие как сортировка заявок в режиме реального времени или обнаружение мошенничества.
  • Премиум-функции для клиентов : для разработчиков, которым необходимо гарантировать более высокие показатели уровня обслуживания (SLO) для платящих клиентов.

Ограничения скорости

Потребление в приоритетном режиме имеет свои собственные ограничения скорости, даже несмотря на то, что потребление учитывается в общих ограничениях скорости интерактивного трафика . Ограничения скорости по умолчанию для вывода приоритетного режима составляют 0,3x от стандартного ограничения скорости для модели/уровня.

Логика плавного понижения уровня

Если из-за перегрузки превышены лимиты приоритета, запросы на переполнение автоматически и корректно переводятся в стандартный режим обработки вместо ошибки 503 или 429. За запросы, переведенные в более низкий режим, взимается плата по стандартному тарифу, а не по тарифу для приоритетных запросов.

Ответственность клиента

  • Мониторинг ответов : Разработчикам следует отслеживать заголовок x-gemini-service-tier в ответе API, чтобы определить, часто ли запросы понижаются до standard .
  • Повторные попытки : Клиенты должны реализовать логику повторных попыток/экспоненциальную задержку для стандартных ошибок, таких как DEADLINE_EXCEEDED .

Цены

Приоритетное определение приоритета стоит на 75-100% дороже, чем стандартный API , и оплачивается за токен.

Поддерживаемые модели

Следующие модели поддерживают вывод приоритетов:

Модель Приоритетный вывод
Фонарик Gemini 3.1 ✔️
Предварительная версия Gemini 3.1 Flash-Lite ✔️
Gemini 3.1 Pro Preview ✔️
Предварительный просмотр Gemini 3 Flash ✔️
Gemini 2.5 Pro ✔️
Вспышка Gemini 2.5 ✔️
Фонарь Gemini 2.5 Flash-Lite ✔️

Что дальше?