Gemini Priority API เป็นระดับการอนุมานแบบพรีเมียมที่ออกแบบมาสำหรับ ภาระงานที่สำคัญต่อธุรกิจซึ่งต้องมีเวลาในการตอบสนองที่ต่ำกว่าและความน่าเชื่อถือสูงสุด ในราคาพรีเมียม การเข้าชมระดับ Priority จะมีความสำคัญมากกว่าการเข้าชม API มาตรฐานและการเข้าชมระดับ Flex
การอนุมานตามลำดับความสำคัญพร้อมให้บริการแก่ผู้ใช้ระดับ 2 และระดับ 3 ในปลายทาง GenerateContent API และ Interactions API
วิธีใช้รายการสำคัญ
หากต้องการใช้ระดับลำดับความสำคัญ ให้ตั้งค่าฟิลด์ service_tier ในส่วนเนื้อหาของคำขอเป็น
SERVICE_TIER_PRIORITY ระดับเริ่มต้นคือมาตรฐานหากไม่ระบุฟิลด์
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'SERVICE_TIER_PRIORITY'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
ใน JavaScript ไลบรารีของไคลเอ็นต์จะจัดการการดาวน์เกรดโดยอัตโนมัติ หากความจุเกิน ระบบจะแสดงข้อผิดพลาดหรือประมวลผลที่ระดับมาตรฐาน ออบเจ็กต์การตอบกลับไม่ได้แสดงส่วนหัวโดยตรงเพื่อตรวจสอบการลดรุ่น
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
ใน Go ไลบรารีของไคลเอ็นต์จะจัดการการดาวน์เกรดโดยอัตโนมัติ หากความจุเกิน ระบบจะแสดงข้อผิดพลาดหรือประมวลผลที่ระดับมาตรฐาน ออบเจ็กต์การตอบกลับไม่ได้แสดงส่วนหัวโดยตรงเพื่อตรวจสอบการดาวน์เกรด
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
วิธีการทำงานของการอนุมานตามลำดับความสำคัญ
เส้นทางการอนุมานที่มีลำดับความสำคัญจะส่งคำขอไปยังคิวการประมวลผลที่มีความสำคัญสูง ซึ่งให้ประสิทธิภาพที่รวดเร็วและคาดการณ์ได้สำหรับแอปพลิเคชันที่แสดงต่อผู้ใช้ กลไกหลักของฟีเจอร์นี้คือการลดระดับฝั่งเซิร์ฟเวอร์อย่างเหมาะสมเป็นการประมวลผลมาตรฐานสำหรับการเข้าชมที่เกินขีดจำกัดแบบไดนามิก เพื่อให้มั่นใจว่าแอปพลิเคชันจะมีความเสถียรแทนที่จะทำให้คำขอไม่สำเร็จ
| ฟีเจอร์ | ลำดับความสำคัญ | มาตรฐาน | พับ | กลุ่ม |
|---|---|---|---|---|
| การกำหนดราคา | มากกว่ารุ่น Standard 75-100% | ตั๋วราคาเต็ม | ส่วนลด 50% | ส่วนลด 50% |
| เวลาในการตอบสนอง | ต่ำ (วินาที) | วินาทีถึงนาที | นาที (เป้าหมาย 1-15 นาที) | สูงสุด 24 ชั่วโมง |
| ความน่าเชื่อถือ | สูง (ไม่หลุดร่วง) | สูง / สูงปานกลาง | ดีที่สุดเท่าที่ทำได้ (ลดภาระได้) | สูง (สำหรับอัตราการส่งข้อมูล) |
| อินเทอร์เฟซ | พร้อมกัน | พร้อมกัน | พร้อมกัน | อะซิงโครนัส |
ประโยชน์สำคัญ
- เวลาในการตอบสนองต่ำ: ออกแบบมาเพื่อเวลาในการตอบสนองระดับมิลลิวินาทีสำหรับเครื่องมือ AI แบบอินเทอร์แอกทีฟที่ผู้ใช้ใช้งาน
- ความน่าเชื่อถือสูง: ระบบจะจัดการการเข้าชมโดยให้ความสำคัญสูงสุดและ ไม่สามารถลดการเข้าชมได้
- การลดลงอย่างค่อยเป็นค่อยไป: การรับส่งข้อมูลที่เพิ่มขึ้นเกินขีดจำกัดแบบไดนามิกจะลดระดับเป็นระดับ Standard โดยอัตโนมัติเพื่อประมวลผลแทนที่จะล้มเหลว เพื่อป้องกันไม่ให้บริการหยุดทำงาน
- ใช้งานง่าย: ใช้เมธอด
generateContentแบบซิงโครนัสเดียวกันกับ ระดับมาตรฐานและระดับ Flex
กรณีการใช้งาน
การประมวลผลที่มีลำดับความสำคัญเหมาะสำหรับเวิร์กโฟลว์ที่สำคัญต่อธุรกิจซึ่งประสิทธิภาพ และความน่าเชื่อถือเป็นสิ่งสำคัญที่สุด
- แอปพลิเคชัน AI แบบอินเทอร์แอกทีฟ: แชทบ็อตและโคไพลอทฝ่ายบริการลูกค้าที่ผู้ใช้ จ่ายเงินในราคาพรีเมียมและคาดหวังว่าจะได้รับคำตอบที่รวดเร็วและสม่ำเสมอ
- เครื่องมือตัดสินใจแบบเรียลไทม์: ระบบที่ต้องการผลลัพธ์ที่มีความน่าเชื่อถือสูงและมีความหน่วงต่ำ เช่น การคัดกรองคำขอแจ้งปัญหาแบบเรียลไทม์หรือการตรวจจับการประพฤติมิชอบ
- ฟีเจอร์สำหรับลูกค้าพรีเมียม: นักพัฒนาแอปที่ต้องการรับประกันเป้าหมายระดับการให้บริการ (SLO) ที่สูงขึ้นสำหรับลูกค้าที่ชำระเงิน
ขีดจำกัดอัตรา
การใช้ทรัพยากรที่มีลำดับความสำคัญจะมีขีดจำกัดอัตราของตัวเองแม้ว่าระบบจะนับการใช้งานรวมกับขีดจำกัดอัตราการรับส่งข้อมูลแบบอินเทอร์แอกทีฟโดยรวมก็ตาม ขีดจำกัดอัตราเริ่มต้นสำหรับการอนุมานตามลำดับความสำคัญคือขีดจำกัดอัตรามาตรฐาน 0.3 เท่าสำหรับโมเดล / ระดับ
ตรรกะการดาวน์เกรดอย่างค่อยเป็นค่อยไป
หากคำขอเกินขีดจำกัดของลำดับความสำคัญเนื่องจากความหนาแน่น คำขอที่เกินจะลดระดับโดยอัตโนมัติและราบรื่นเป็นการประมวลผลแบบมาตรฐานแทนที่จะล้มเหลวพร้อมข้อผิดพลาด 503 หรือ 429 ระบบจะเรียกเก็บเงินสำหรับคำขอที่ลดระดับในอัตรามาตรฐาน ไม่ใช่ในอัตราพรีเมียมแบบมีลำดับความสำคัญ
ความรับผิดชอบของลูกค้า
- การตรวจสอบการตอบกลับ: นักพัฒนาซอฟต์แวร์ควรตรวจสอบค่า
service_tierในเนื้อหาการตอบกลับของ API เพื่อตรวจหาว่ามีการลดระดับคำขอเป็นstandardบ่อยหรือไม่ - การลองใหม่: ไคลเอ็นต์ต้องใช้ตรรกะการลองใหม่/Exponential Backoff สำหรับ
ข้อผิดพลาดมาตรฐาน เช่น
DEADLINE_EXCEEDED
ราคา
การอนุมานที่มีลำดับความสำคัญมีราคาแพงกว่า API มาตรฐาน 75-100% และจะเรียกเก็บเงินต่อโทเค็น
โมเดลที่รองรับ
โมเดลต่อไปนี้รองรับการอนุมานแบบมีลำดับความสำคัญ
| รุ่น | การอนุมานตามลำดับความสำคัญ |
|---|---|
| Gemini 3.1 Flash-Lite (เวอร์ชันตัวอย่าง) | ✔️ |
| ตัวอย่าง Gemini 3.1 Pro | ✔️ |
| ตัวอย่าง Gemini 3 Flash | ✔️ |
| ตัวอย่างรูปภาพ Gemini 3 Pro | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| รูปภาพ Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
ขั้นตอนถัดไป
อ่านเกี่ยวกับตัวเลือกการอนุมานและการเพิ่มประสิทธิภาพอื่นๆ ของ Gemini
- การอนุมานแบบยืดหยุ่นเพื่อลดต้นทุน 50%
- Batch API สำหรับการประมวลผลแบบไม่พร้อมกันภายใน 24 ชั่วโมง
- การแคชบริบทเพื่อลดต้นทุนโทเค็นอินพุต