การอนุมานตามลำดับความสำคัญ
Gemini Priority API เป็นระดับการอนุมานแบบพรีเมียมที่ออกแบบมาสำหรับ ภาระงานที่สำคัญต่อธุรกิจซึ่งต้องมีเวลาในการตอบสนองที่ต่ำกว่าและความน่าเชื่อถือสูงสุด ในราคาพรีเมียม การเข้าชมระดับความสำคัญจะมีความสำคัญเหนือกว่า การเข้าชม API มาตรฐานและการเข้าชมระดับ Flex
การอนุมานตามลำดับความสำคัญพร้อมใช้งานในปลายทาง Interactions API
วิธีใช้รายการสำคัญ
หากต้องการใช้ระดับลำดับความสำคัญ ให้ตั้งค่าฟิลด์ service_tier ในคำขอเป็น priority ระดับเริ่มต้นคือมาตรฐานหากไม่ระบุฟิลด์
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
print(interaction.output_text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3.5-flash",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
console.log(interaction.output_text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
วิธีการทำงานของการอนุมานตามลำดับความสำคัญ
เส้นทางการอนุมานที่มีลำดับความสำคัญจะกำหนดเส้นทางคำขอไปยังคิวการประมวลผลที่มีความสำคัญสูง ซึ่งให้ประสิทธิภาพที่รวดเร็วและคาดการณ์ได้สำหรับแอปพลิเคชันที่แสดงต่อผู้ใช้ กลไกหลักของฟีเจอร์นี้คือการลดระดับฝั่งเซิร์ฟเวอร์อย่างเหมาะสมเป็นการประมวลผลมาตรฐานสำหรับการเข้าชมที่เกินขีดจำกัดแบบไดนามิก เพื่อให้มั่นใจว่าแอปพลิเคชันจะเสถียรแทนที่จะทำให้คำขอล้มเหลว
| ฟีเจอร์ | ลำดับความสำคัญ | มาตรฐาน | พับ | กลุ่ม |
|---|---|---|---|---|
| การกำหนดราคา | มากกว่ารุ่น Standard 75-100% | ตั๋วราคาเต็ม | ส่วนลด 50% | ส่วนลด 50% |
| เวลาในการตอบสนอง | วินาที | วินาทีถึงนาที | นาที (เป้าหมาย 1-15 นาที) | สูงสุด 24 ชั่วโมง |
| ความน่าเชื่อถือ | สูง (ไม่หลุดร่วง) | สูง / สูงปานกลาง | ดีที่สุดเท่าที่ทำได้ (ลดภาระได้) | สูง (สำหรับปริมาณงาน) |
| อินเทอร์เฟซ | ซิงโครนัส | ซิงโครนัส | ซิงโครนัส | แบบอะซิงโครนัส |
ประโยชน์สำคัญ
- เวลาในการตอบสนองต่ำ: ออกแบบมาเพื่อเวลาในการตอบสนองระดับวินาทีสำหรับเครื่องมือ AI แบบอินเทอร์แอกทีฟที่ผู้ใช้มองเห็น
- ความน่าเชื่อถือสูง: ระบบจะจัดการการเข้าชมโดยให้ความสำคัญสูงสุดและ ไม่สามารถลดการเข้าชมได้
- การลดลงอย่างค่อยเป็นค่อยไป: การรับส่งข้อมูลที่เพิ่มขึ้นเกินขีดจำกัดแบบไดนามิกจะลดระดับเป็นระดับ Standard โดยอัตโนมัติเพื่อประมวลผลแทนที่จะล้มเหลว ซึ่งจะป้องกันไม่ให้เกิดการหยุดทำงานของบริการ
- ราบรื่น: ใช้วิธีการ
createแบบซิงโครนัสเดียวกันกับ แพ็กเกจมาตรฐานและแพ็กเกจ Flex
กรณีการใช้งาน
การประมวลผลที่มีลำดับความสำคัญเหมาะสำหรับเวิร์กโฟลว์ที่สำคัญต่อธุรกิจซึ่งประสิทธิภาพ และความน่าเชื่อถือเป็นสิ่งสำคัญที่สุด
- แอปพลิเคชัน AI แบบอินเทอร์แอกทีฟ: แชทบ็อตและโคไพลอตฝ่ายบริการลูกค้าที่ผู้ใช้ จ่ายเงินในราคาพรีเมียมและคาดหวังการตอบกลับที่รวดเร็วและสม่ำเสมอ
- เครื่องมือตัดสินใจแบบเรียลไทม์: ระบบที่ต้องการผลลัพธ์ที่มีความน่าเชื่อถือสูงและมีความหน่วงต่ำ เช่น การจัดลำดับความสำคัญของคำขอแจ้งปัญหาแบบเรียลไทม์หรือการตรวจจับการประพฤติมิชอบ
- ฟีเจอร์สำหรับลูกค้าพรีเมียม: นักพัฒนาแอปที่ต้องการรับประกันเป้าหมายระดับการให้บริการ (SLO) ที่สูงขึ้นสำหรับลูกค้าที่ชำระเงิน
ขีดจำกัดอัตรา
การใช้งานที่มีลำดับความสำคัญจะมีขีดจำกัดอัตราของตัวเอง แม้ว่าระบบจะนับการใช้งานรวมกับขีดจำกัดอัตราของการเข้าชมแบบอินเทอร์แอกทีฟโดยรวมก็ตาม ขีดจำกัดอัตราเริ่มต้นสำหรับการอนุมานตามลำดับความสำคัญคือขีดจำกัดอัตรามาตรฐาน 0.3 เท่าสำหรับโมเดล / ระดับ
ตรรกะการดาวน์เกรดอย่างค่อยเป็นค่อยไป
หากคำขอเกินขีดจำกัดของลำดับความสำคัญเนื่องจากมีการใช้งานหนาแน่น ระบบจะลดระดับคำขอที่เกินมาเป็นระดับมาตรฐานโดยอัตโนมัติและราบรื่นแทนที่จะแสดงข้อผิดพลาด 503 หรือ 429 ระบบจะเรียกเก็บเงินสำหรับคำขอที่ลดระดับในอัตรามาตรฐาน ไม่ใช่ในอัตราพรีเมียมแบบมีลำดับความสำคัญ
ความรับผิดชอบของลูกค้า
- การตรวจสอบการตอบกลับ: นักพัฒนาซอฟต์แวร์ควรตรวจสอบ
x-gemini-service-tierส่วนหัวstandardในการตอบกลับ API เพื่อตรวจหาว่ามีการลดระดับคำขอเป็นstandardบ่อยหรือไม่ - การลองใหม่: ไคลเอ็นต์ต้องใช้ตรรกะการลองใหม่/Exponential Backoff สำหรับ
ข้อผิดพลาดมาตรฐาน เช่น
DEADLINE_EXCEEDED
ราคา
การอนุมานที่มีลำดับความสำคัญมีราคาแพงกว่า API มาตรฐาน 75-100% และจะเรียกเก็บเงินต่อโทเค็น
โมเดลที่รองรับ
โมเดลต่อไปนี้รองรับการอนุมานที่มีลำดับความสำคัญ
| รุ่น | การอนุมานตามลำดับความสำคัญ |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| ตัวอย่าง Gemini 3.1 Pro | ✔️ |
| ตัวอย่าง Gemini 3 Flash | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
ขั้นตอนถัดไป
- การอนุมานแบบยืดหยุ่นเพื่อลดต้นทุน
- โทเค็น: ทำความเข้าใจโทเค็น