API Gemini Priority — это премиальный уровень обработки данных, разработанный для критически важных бизнес-задач, требующих минимальной задержки и высочайшей надежности по премиум-цене. Трафик уровня Priority имеет приоритет над трафиком стандартного API и уровня Flex.
Функция определения приоритетов доступна пользователям уровней 2 и 3 через конечные точки GenerateContent API и Interactions API.
Как использовать приоритет
Для использования уровня Priority установите значение поля service_tier в теле запроса равным priority . Если это поле опущено, по умолчанию будет использоваться уровень standard.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'priority'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Идти
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
ОТДЫХ
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
Как работает вывод приоритетов
Приоритетное определение маршрутизации запросов направляет их в очереди вычислительных ресурсов высокой критичности, обеспечивая предсказуемую и высокую производительность для приложений, ориентированных на пользователя. Основной механизм заключается в корректном переходе на стандартную обработку на стороне сервера для трафика, превышающего динамические ограничения, что обеспечивает стабильность приложения вместо прерывания запроса.
| Особенность | Приоритет | Стандарт | Флекс | Партия |
|---|---|---|---|---|
| Цены | На 75-100% больше, чем стандартная версия. | Полная цена | скидка 50% | скидка 50% |
| Задержка | Низкий уровень (секунды) | Секунды в минуты | Минуты (целевое значение 1–15 минут) | До 24 часов |
| Надежность | Высокая (не линяет) | Высокий / Средне-высокий | Максимально возможные варианты (можно сбросить) | Высокий (для обеспечения высокой пропускной способности) |
| Интерфейс | Синхронный | Синхронный | Синхронный | Асинхронный |
Основные преимущества
- Низкая задержка : разработано для обеспечения времени отклика в миллисекунды для интерактивных инструментов искусственного интеллекта, ориентированных на пользователя.
- Высокая надежность : трафик обрабатывается с наивысшей степенью критичности и строго исключается из резервирования.
- Плавное снижение нагрузки : пиковые нагрузки, превышающие динамические ограничения, автоматически переводятся на стандартный уровень обработки вместо сбоя, что предотвращает перебои в работе сервиса.
- Низкое трение : Использует тот же синхронный метод
generateContent, что и стандартный и Flex-уровни.
Варианты использования
Приоритетная обработка идеально подходит для критически важных бизнес-процессов, где производительность и надежность имеют первостепенное значение.
- Интерактивные приложения ИИ : чат-боты и помощники для обслуживания клиентов, за которые пользователи платят дополнительную плату и ожидают быстрых и стабильных ответов.
- Системы принятия решений в реальном времени : системы, требующие высоконадежных результатов с низкой задержкой, такие как сортировка заявок в режиме реального времени или обнаружение мошенничества.
- Премиум-функции для клиентов : для разработчиков, которым необходимо гарантировать более высокие показатели уровня обслуживания (SLO) для платящих клиентов.
Ограничения скорости
Потребление в приоритетном режиме имеет свои собственные ограничения скорости, даже несмотря на то, что потребление учитывается в общих ограничениях скорости интерактивного трафика . Ограничения скорости по умолчанию для приоритетного вывода составляют 0,3x от стандартного ограничения скорости для модели/уровня.
Логика плавного понижения уровня
Если из-за перегрузки превышены лимиты приоритета, запросы на обработку избыточного объема автоматически и корректно переводятся в стандартный режим обработки вместо ошибки 503 или 429. Запросы, переведенные в более низкий режим, оплачиваются по стандартному тарифу, а не по тарифу для приоритетных запросов.
Ответственность клиента
- Мониторинг ответов : Разработчикам следует отслеживать значение
service_tierв теле ответа API, чтобы определить, часто ли запросы понижаются доstandard. - Повторные попытки : Клиенты должны реализовать логику повторных попыток/экспоненциальную задержку для стандартных ошибок, таких как
DEADLINE_EXCEEDED.
Цены
Приоритетное определение приоритета стоит на 75-100% дороже, чем стандартный API , и оплачивается за токен.
Поддерживаемые модели
Следующие модели поддерживают вывод приоритетов:
Что дальше?
Узнайте больше о других возможностях Gemini в области вывода и оптимизации :
- Гибкий подход к выводу данных позволяет снизить затраты на 50%.
- Пакетный API для асинхронной обработки в течение 24 часов.
- Кэширование контекста для снижения затрат на ввод токенов.