Suy luận mức độ ưu tiên

Gemini Priority API là một cấp suy luận cao cấp được thiết kế cho các khối lượng công việc quan trọng đối với doanh nghiệp, đòi hỏi độ trễ thấp và độ tin cậy cao nhất với mức giá cao cấp. Lưu lượng truy cập ở cấp ưu tiên được ưu tiên hơn lưu lượng truy cập ở cấp API tiêu chuẩn và cấp linh hoạt.

Tính năng suy luận mức độ ưu tiên được cung cấp cho người dùng Cấp 2 và Cấp 3 trên các điểm cuối GenerateContent API và Interactions API.

Cách sử dụng Mức độ ưu tiên

Để sử dụng Cấp ưu tiên, hãy đặt trường service_tier trong nội dung yêu cầu thành priority. Cấp mặc định là cấp tiêu chuẩn nếu bạn bỏ qua trường này.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

Cách hoạt động của tính năng suy luận về mức độ ưu tiên

Các tuyến suy luận ưu tiên sẽ định tuyến các yêu cầu đến các hàng đợi điện toán có mức độ quan trọng cao, mang lại hiệu suất nhanh chóng và có thể dự đoán được cho các ứng dụng dành cho người dùng. Cơ chế chính của tính năng này là giảm cấp phía máy chủ một cách hợp lý xuống quy trình xử lý tiêu chuẩn cho lưu lượng truy cập vượt quá giới hạn động, đảm bảo tính ổn định của ứng dụng thay vì làm cho yêu cầu không thành công.

Tính năng Mức độ ưu tiên Tiêu chuẩn Gập Theo nhóm
Định giá Cao hơn 75 – 100% so với gói Standard Giá đầy đủ Giảm giá 50% Giảm giá 50%
Độ trễ Giây Giây sang phút Phút (mục tiêu 1 – 15 phút) Tối đa 24 giờ
Độ tin cậy Cao (Không rụng lông) Cao / Cao vừa Nỗ lực tối đa (Có thể loại bỏ) Cao (đối với thông lượng)
Giao diện Đồng bộ Đồng bộ Đồng bộ Không đồng bộ

Lợi ích chính

  • Độ trễ thấp: Được thiết kế để có thời gian phản hồi dưới một giây cho các công cụ AI tương tác, hướng đến người dùng.
  • Độ tin cậy cao: Lưu lượng truy cập được xử lý với mức độ quan trọng cao nhất và hoàn toàn không thể loại bỏ.
  • Xuống cấp nhẹ: Các đợt tăng đột biến lưu lượng truy cập vượt quá hạn mức linh hoạt sẽ tự động được hạ cấp xuống cấp độ Tiêu chuẩn để xử lý thay vì thất bại, ngăn chặn tình trạng ngừng dịch vụ.
  • Ít rắc rối: Sử dụng cùng một phương thức generateContent đồng bộ như các cấp tiêu chuẩn và linh hoạt.

Trường hợp sử dụng

Xử lý ưu tiên là lựa chọn lý tưởng cho các quy trình quan trọng đối với doanh nghiệp, trong đó hiệu suất và độ tin cậy là yếu tố tối quan trọng.

  • Các ứng dụng AI tương tác: Chatbot và trợ lý dịch vụ khách hàng mà người dùng trả phí cao và mong đợi câu trả lời nhanh chóng, nhất quán.
  • Công cụ đưa ra quyết định theo thời gian thực: Hệ thống yêu cầu kết quả có độ tin cậy cao và độ trễ thấp, chẳng hạn như phân loại vé trực tiếp hoặc phát hiện hành vi gian lận.
  • Các tính năng dành cho khách hàng cao cấp: Nhà phát triển cần đảm bảo mục tiêu mức độ dịch vụ (SLO) cao hơn cho khách hàng trả phí.

Giới hạn số lượng yêu cầu

Mức sử dụng ưu tiên có giới hạn tốc độ riêng, mặc dù mức sử dụng được tính vào giới hạn tốc độ lưu lượng truy cập tương tác tổng thể. Giới hạn tốc độ mặc định cho suy luận Ưu tiên là giới hạn tốc độ tiêu chuẩn 0,3x cho Mô hình / Cấp

Logic hạ cấp từng bước

Nếu vượt quá giới hạn Ưu tiên do tình trạng tắc nghẽn, thì các yêu cầu vượt quá sẽ được tự động và hạ cấp một cách suôn sẻ xuống mức xử lý Chuẩn thay vì gặp lỗi 503 hoặc 429. Các yêu cầu bị hạ cấp sẽ được tính phí theo mức giá tiêu chuẩn, chứ không phải mức giá ưu tiên cao cấp.

Trách nhiệm của khách hàng

  • Giám sát phản hồi: Nhà phát triển nên giám sát tiêu đề x-gemini-service-tier trong phản hồi API để phát hiện xem các yêu cầu có thường xuyên bị hạ cấp xuống standard hay không.
  • Thử lại: Ứng dụng phải triển khai logic thử lại/thuật toán đợi luỹ tiến cho các lỗi tiêu chuẩn, chẳng hạn như DEADLINE_EXCEEDED.

Giá

Suy luận ưu tiên có giá cao hơn 75 – 100% so với API tiêu chuẩn và được tính phí theo token.

Mô hình được hỗ trợ

Các mô hình sau đây hỗ trợ tính năng Suy luận ưu tiên:

Mô hình Suy luận mức độ ưu tiên
Gemini 3.1 Flash-Lite ✔️
Bản xem trước Gemini 3.1 Flash-Lite ✔️
Bản dùng thử Gemini 3.1 Pro ✔️
Bản dùng thử Gemini 3 Flash ✔️
Bản xem trước hình ảnh của Gemini 3 Pro ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Hình ảnh Gemini 2.5 Flash ✔️
Gemini 2.5 Flash-Lite ✔️

Bước tiếp theo

Đọc về các lựa chọn suy luận và tối ưu hoá khác của Gemini: