Gemini Priority API là một cấp suy luận cao cấp được thiết kế cho các khối lượng công việc quan trọng đối với doanh nghiệp, đòi hỏi độ trễ thấp hơn và độ tin cậy cao nhất với mức giá cao cấp. Lưu lượng truy cập ở cấp độ ưu tiên được ưu tiên hơn lưu lượng truy cập ở API tiêu chuẩn và cấp độ linh hoạt.
Tính năng suy luận ưu tiên được cung cấp cho người dùng Cấp 2 và Cấp 3 trên các điểm cuối GenerateContent API và Interactions API.
Cách sử dụng Mức độ ưu tiên
Để sử dụng cấp độ Ưu tiên, hãy đặt trường service_tier trong nội dung yêu cầu thành SERVICE_TIER_PRIORITY. Cấp độ mặc định là tiêu chuẩn nếu bạn bỏ qua trường này.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'SERVICE_TIER_PRIORITY'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
Trong JavaScript, thư viện ứng dụng sẽ tự động xử lý việc hạ cấp. Nếu vượt quá dung lượng, hệ thống sẽ gửi một lỗi hoặc xử lý ở cấp độ tiêu chuẩn. Đối tượng phản hồi không trực tiếp hiển thị các tiêu đề để kiểm tra việc hạ cấp.
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
Trong Go, thư viện ứng dụng sẽ tự động xử lý việc hạ cấp. Nếu vượt quá dung lượng, hệ thống sẽ gửi một lỗi hoặc xử lý ở cấp độ tiêu chuẩn. Đối tượng phản hồi không trực tiếp hiển thị các tiêu đề để kiểm tra việc hạ cấp.
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
Cách hoạt động của tính năng suy luận ưu tiên
Tính năng suy luận ưu tiên định tuyến các yêu cầu đến các hàng đợi tính toán có mức độ quan trọng cao, mang lại hiệu suất nhanh chóng, có thể dự đoán được cho các ứng dụng dành cho người dùng. Cơ chế chính của tính năng này là hạ cấp nhẹ phía máy chủ xuống quy trình xử lý tiêu chuẩn đối với lưu lượng truy cập vượt quá giới hạn động, đảm bảo tính ổn định của ứng dụng thay vì không thực hiện được yêu cầu.
| Tính năng | Mức độ ưu tiên | Tiêu chuẩn | Linh hoạt | Theo nhóm |
|---|---|---|---|---|
| Định giá | Cao hơn 75 – 100% so với Tiêu chuẩn | Giá đầy đủ | Chiết khấu 50% | Chiết khấu 50% |
| Độ trễ | Thấp (Giây) | Giây đến phút | Phút (mục tiêu 1–15 phút) | Tối đa 24 giờ |
| Độ tin cậy | Cao (Không thể loại bỏ) | Cao / Trung bình cao | Trong khả năng tốt nhất có thể (Có thể loại bỏ) | Cao (đối với thông lượng) |
| Giao diện | Đồng bộ | Đồng bộ | Đồng bộ | Không đồng bộ |
Lợi ích chính
- Độ trễ thấp: Được thiết kế cho thời gian phản hồi từ mili giây đến giây đối với các công cụ AI tương tác, hướng đến người dùng.
- Độ tin cậy cao: Lưu lượng truy cập được xử lý với mức độ quan trọng cao nhất và hoàn toàn không thể loại bỏ.
- Giảm tải linh hoạt: Các đợt tăng đột biến lưu lượng truy cập vượt quá giới hạn động sẽ tự động được hạ cấp xuống cấp độ Tiêu chuẩn để xử lý thay vì không thực hiện được, ngăn ngừa tình trạng ngừng hoạt động của dịch vụ.
- Ít gây cản trở: Sử dụng cùng một phương thức
generateContentđồng bộ như các cấp độ tiêu chuẩn và Linh hoạt.
Trường hợp sử dụng
Quy trình xử lý ưu tiên là lựa chọn lý tưởng cho các quy trình công việc quan trọng đối với doanh nghiệp, trong đó hiệu suất và độ tin cậy là yếu tố quan trọng nhất.
- Các ứng dụng AI tương tác: Chatbot và trợ lý ảo dịch vụ khách hàng, nơi người dùng trả phí cao cấp và mong đợi các phản hồi nhanh chóng, nhất quán.
- Công cụ đưa ra quyết định theo thời gian thực: Các hệ thống yêu cầu kết quả có độ tin cậy cao và độ trễ thấp , chẳng hạn như phân loại vé trực tiếp hoặc phát hiện gian lận.
- Các tính năng cao cấp dành cho khách hàng: Nhà phát triển cần đảm bảo các mục tiêu mức độ dịch vụ (SLO) cao hơn cho khách hàng trả phí.
Giới hạn số lượng yêu cầu
Mức tiêu thụ ưu tiên có giới hạn số lượng yêu cầu riêng, mặc dù mức tiêu thụ được tính vào giới hạn số lượng yêu cầu lưu lượng truy cập tương tác tổng thể. Giới hạn số lượng yêu cầu mặc định cho tính năng suy luận ưu tiên là 0,3 lần giới hạn số lượng yêu cầu tiêu chuẩn cho Mô hình / Cấp độ
Logic hạ cấp nhẹ
Nếu vượt quá giới hạn ưu tiên do tắc nghẽn, các yêu cầu tràn sẽ được tự động và nhẹ nhàng hạ cấp xuống quy trình xử lý tiêu chuẩn thay vì không thực hiện được với lỗi 503 hoặc 429. Các yêu cầu bị hạ cấp sẽ được tính phí theo mức giá tiêu chuẩn, không phải mức giá cao cấp ưu tiên.
Trách nhiệm của ứng dụng
- Giám sát phản hồi: Nhà phát triển nên giám sát giá trị
service_tiertrong nội dung phản hồi API để phát hiện xem các yêu cầu có thường xuyên bị hạ cấp xuốngstandardhay không. - Thử lại: Ứng dụng phải triển khai logic thử lại/thuật toán thời gian đợi luỹ thừa cho
các lỗi tiêu chuẩn, chẳng hạn như
DEADLINE_EXCEEDED.
Định giá
Tính năng suy luận ưu tiên có giá cao hơn 75 – 100% so với API tiêu chuẩn và được tính phí theo mỗi token.
Mô hình được hỗ trợ
Các mô hình sau đây hỗ trợ tính năng suy luận ưu tiên:
| Mô hình | Tính năng suy luận ưu tiên |
|---|---|
| Bản xem trước Gemini 3.1 Flash-Lite | ✔️ |
| Bản xem trước Gemini 3.1 Pro | ✔️ |
| Bản xem trước Gemini 3 Flash | ✔️ |
| Bản xem trước hình ảnh Gemini 3 Pro | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Hình ảnh Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Bước tiếp theo
Đọc về các lựa chọn suy luận và tối ưu hoá khác của Gemini:
- Tính năng suy luận linh hoạt để giảm 50% chi phí.
- Batch API để xử lý không đồng bộ trong vòng 24 giờ.
- Tính năng lưu vào bộ nhớ đệm theo bối cảnh để giảm chi phí mã thông báo đầu vào.