Gemini Deep Research теперь доступен в режиме предварительного просмотра и включает в себя функции совместного планирования, визуализации, поддержки MCP и многое другое.

Эта страница переведена с помощью Cloud Translation API.

Приоритетный вывод

API Gemini Priority — это премиальный уровень обработки данных, разработанный для критически важных бизнес-задач, требующих минимальной задержки и высочайшей надежности по премиум-цене. Трафик уровня Priority имеет приоритет над трафиком стандартного API и уровня Flex.

Функция определения приоритетов доступна пользователям уровней 2 и 3 через конечные точки GenerateContent API и Interactions API.

Как использовать приоритет

Для использования уровня Priority установите значение поля service_tier в теле запроса равным priority . Если это поле опущено, по умолчанию будет использоваться уровень standard.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Идти

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

ОТДЫХ

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

Как работает вывод приоритетов

Приоритетное определение маршрутизации запросов направляет их в очереди вычислительных ресурсов высокой критичности, обеспечивая предсказуемую и высокую производительность для приложений, ориентированных на пользователя. Основной механизм заключается в корректном переходе на стандартную обработку на стороне сервера для трафика, превышающего динамические ограничения, что обеспечивает стабильность приложения вместо прерывания запроса.

Особенность	Приоритет	Стандарт	Флекс	Партия
Цены	На 75-100% больше, чем стандартная версия.	Полная цена	скидка 50%	скидка 50%
Задержка	Секунды	Секунды в минуты	Минуты (целевое значение 1–15 минут)	До 24 часов
Надежность	Высокая (не линяет)	Высокий / Средне-высокий	Максимально возможные варианты (можно сбросить)	Высокий (для обеспечения высокой пропускной способности)
Интерфейс	Синхронный	Синхронный	Синхронный	Асинхронный

Основные преимущества

Низкая задержка : разработано для обеспечения времени отклика в несколько секунд для интерактивных инструментов искусственного интеллекта, ориентированных на пользователя.
Высокая надежность : трафик обрабатывается с наивысшей степенью критичности и строго исключается из резервирования.
Плавное снижение нагрузки : пиковые нагрузки, превышающие динамические ограничения, автоматически переводятся на стандартный уровень обработки вместо сбоя, что предотвращает перебои в работе сервиса.
Низкое трение : Использует тот же синхронный метод generateContent , что и стандартный и Flex-уровни.

Варианты использования

Приоритетная обработка идеально подходит для критически важных бизнес-процессов, где производительность и надежность имеют первостепенное значение.

Интерактивные приложения ИИ : чат-боты и помощники для обслуживания клиентов, за которые пользователи платят дополнительную плату и ожидают быстрых и стабильных ответов.
Системы принятия решений в реальном времени : системы, требующие высоконадежных результатов с низкой задержкой, такие как сортировка заявок в режиме реального времени или обнаружение мошенничества.
Премиум-функции для клиентов : для разработчиков, которым необходимо гарантировать более высокие показатели уровня обслуживания (SLO) для платящих клиентов.

Ограничения скорости

Потребление в приоритетном режиме имеет свои собственные ограничения скорости, даже несмотря на то, что потребление учитывается в общих ограничениях скорости интерактивного трафика . Ограничения скорости по умолчанию для приоритетного вывода составляют 0,3x от стандартного ограничения скорости для модели/уровня.

Логика плавного понижения уровня

Если из-за перегрузки превышены лимиты приоритета, запросы на обработку избыточного объема автоматически и корректно переводятся в стандартный режим обработки вместо ошибки 503 или 429. Запросы, переведенные в более низкий режим, оплачиваются по стандартному тарифу, а не по тарифу для приоритетных запросов.

Ответственность клиента

Мониторинг ответов : Разработчикам следует отслеживать заголовок x-gemini-service-tier в ответе API, чтобы определить, часто ли запросы понижаются до standard .
Повторные попытки : Клиенты должны реализовать логику повторных попыток/экспоненциальную задержку для стандартных ошибок, таких как DEADLINE_EXCEEDED .

Цены

Приоритетное определение приоритета стоит на 75-100% дороже, чем стандартный API , и оплачивается за токен.

Поддерживаемые модели

Следующие модели поддерживают вывод приоритетов:

Модель	Приоритетный вывод
Фонарик Gemini 3.1	✔️
Предварительная версия Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Pro Preview	✔️
Предварительный просмотр Gemini 3 Flash	✔️
Предварительный просмотр изображения Gemini 3 Pro	✔️
Gemini 2.5 Pro	✔️
Вспышка Gemini 2.5	✔️
Изображение со вспышкой Gemini 2.5	✔️
Фонарь Gemini 2.5 Flash-Lite	✔️

Что дальше?

Узнайте больше о других возможностях Gemini в области вывода и оптимизации :

Гибкий подход к выводу данных позволяет снизить затраты на 50%.
Пакетный API для асинхронной обработки в течение 24 часов.
Кэширование контекста для снижения затрат на ввод токенов.