การอนุมานแบบลำดับความสำคัญ
Gemini Priority API เป็นระดับการอนุมานแบบพรีเมียมที่ออกแบบมาสำหรับภาระงานที่สำคัญต่อธุรกิจ ซึ่งต้องใช้เวลาในการตอบสนองที่ต่ำกว่าและความน่าเชื่อถือสูงสุดในราคาพรีเมียม ระบบจะให้ความสำคัญกับการเข้าชมระดับพรีเมียมเหนือการเข้าชม API มาตรฐานและการเข้าชมระดับ Flex
การอนุมานแบบลำดับความสำคัญพร้อมให้บริการในปลายทาง Interactions API
วิธีใช้รายการสำคัญ
หากต้องการใช้ระดับ Priority ให้ตั้งค่าฟิลด์ service_tier ในคำขอเป็น priority ระดับเริ่มต้นคือระดับมาตรฐานหากละเว้นฟิลด์นี้
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
print(interaction.output_text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3.5-flash",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
console.log(interaction.output_text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
วิธีการทำงานของการอนุมานแบบลำดับความสำคัญ
การอนุมานแบบลำดับความสำคัญจะกำหนดเส้นทางคำขอไปยังคิวการประมวลผลที่มีความสำคัญสูง ซึ่งให้ประสิทธิภาพที่รวดเร็วและคาดการณ์ได้สำหรับแอปพลิเคชันที่ผู้ใช้ใช้งาน กลไกหลักคือการลดระดับฝั่งเซิร์ฟเวอร์อย่างค่อยเป็นค่อยไปเป็นการประมวลผลมาตรฐานสำหรับการเข้าชมที่เกินขีดจำกัดแบบไดนามิก ซึ่งช่วยให้แอปพลิเคชันมีความเสถียรแทนที่จะทำให้คำขอไม่สำเร็จ
| ฟีเจอร์ | รายการสำคัญ | ระดับมาตรฐาน | ระดับ Flex | ระดับกลุ่ม |
|---|---|---|---|---|
| การกำหนดราคา | มากกว่าระดับมาตรฐาน 75-100% | ราคาเต็ม | ส่วนลด 50% | ส่วนลด 50% |
| เวลาในการตอบสนอง | วินาที | วินาทีถึงนาที | นาที (เป้าหมาย 1-15 นาที) | สูงสุด 24 ชั่วโมง |
| ความน่าเชื่อถือ | สูง (ไม่สามารถลดระดับได้) | สูง / สูงปานกลาง | อย่างเต็มที่ (สามารถลดระดับได้) | สูง (สำหรับปริมาณงาน) |
| อินเทอร์เฟซ | แบบซิงโครนัส | แบบซิงโครนัส | แบบซิงโครนัส | แบบอะซิงโครนัส |
สิทธิประโยชน์ที่สำคัญ
- เวลาในการตอบสนองต่ำ: ออกแบบมาให้ใช้เวลาตอบสนองเป็นวินาทีสำหรับเครื่องมือ AI แบบอินเทอร์แอกทีฟที่ ผู้ใช้ใช้งาน
- ความน่าเชื่อถือสูง: ระบบจะถือว่าการเข้าชมมีความสำคัญสูงสุดและไม่สามารถลดระดับได้
- การลดระดับอย่างค่อยเป็นค่อยไป: ระบบจะลดระดับการเข้าชมที่เพิ่มขึ้นซึ่งเกินขีดจำกัดแบบไดนามิกเป็นระดับมาตรฐานโดยอัตโนมัติเพื่อทำการประมวลผลแทนที่จะทำให้คำขอไม่สำเร็จ ซึ่งจะช่วยป้องกันการหยุดทำงานของบริการ
- ความซับซ้อนต่ำ: ใช้เมธอดแบบซิงโครนัส
createเดียวกับระดับ มาตรฐานและระดับ Flex
กรณีการใช้งาน
การประมวลผลแบบลำดับความสำคัญเหมาะอย่างยิ่งสำหรับเวิร์กโฟลว์ที่สำคัญต่อธุรกิจ ซึ่งประสิทธิภาพและความน่าเชื่อถือมีความสำคัญสูงสุด
- แอปพลิเคชัน AI แบบอินเทอร์แอกทีฟ: แชทบ็อตและผู้ช่วยเสมือนสำหรับฝ่ายบริการลูกค้าที่ ผู้ใช้จ่ายเงินในราคาพรีเมียมและคาดหวังการตอบสนองที่รวดเร็วและสม่ำเสมอ
- กลไกการตัดสินใจแบบเรียลไทม์: ระบบที่ต้องใช้ผลลัพธ์ที่มีความน่าเชื่อถือสูงและเวลาในการตอบสนองต่ำ เช่น การจัดลำดับความสำคัญของตั๋วแบบเรียลไทม์หรือการตรวจจับการฉ้อโกง
- ฟีเจอร์สำหรับลูกค้าพรีเมียม: นักพัฒนาแอปที่ต้องรับประกันวัตถุประสงค์ระดับการให้บริการ ที่สูงขึ้นสำหรับลูกค้าที่ชำระเงิน
ขีดจำกัดอัตรา
การใช้งานระดับพรีเมียมจะมีขีดจำกัดอัตราของตัวเอง แม้ว่าระบบจะนับการใช้งานรวมกับ ขีดจำกัดอัตราการเข้าชมแบบอินเทอร์แอกทีฟโดยรวมก็ตาม ขีดจำกัดอัตราเริ่มต้นสำหรับการอนุมานแบบลำดับความสำคัญคือ 0.3 เท่าของขีดจำกัดอัตรามาตรฐานสำหรับโมเดล / ระดับ
ตรรกะการลดระดับอย่างค่อยเป็นค่อยไป
หากมีการใช้งานเกินขีดจำกัดระดับ Priority เนื่องจากความหนาแน่น ระบบจะ ลดระดับ คำขอที่ล้นออกมาเป็นการประมวลผลระดับ Standard แทนที่จะ ทำให้คำขอไม่สำเร็จด้วยข้อผิดพลาด 503 หรือ 429 ระบบจะเรียกเก็บเงินคำขอที่ลดระดับในอัตรามาตรฐาน ไม่ใช่อัตราพรีเมียมของระดับพรีเมียม
ความรับผิดชอบของไคลเอ็นต์
- การตรวจสอบการตอบสนอง: นักพัฒนาแอปควรตรวจสอบ
x-gemini-service-tierส่วนหัวในการตอบสนองของ API เพื่อตรวจหาว่าระบบลดระดับคำขอเป็นstandardบ่อยหรือไม่ - การลองใหม่: ไคลเอ็นต์ต้องใช้ตรรกะการลองใหม่/Exponential Backoff สำหรับ
ข้อผิดพลาดมาตรฐาน เช่น
DEADLINE_EXCEEDED
การกำหนดราคา
การอนุมานแบบลำดับความสำคัญมีราคาสูงกว่า API มาตรฐาน 75-100% และเรียกเก็บเงินต่อโทเค็น
โมเดลที่รองรับ
โมเดลต่อไปนี้รองรับการอนุมานแบบลำดับความสำคัญ
| โมเดล | การอนุมานแบบลำดับความสำคัญ |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Flash-Lite (เวอร์ชันตัวอย่าง) | ✔️ |
| Gemini 3.1 Pro (เวอร์ชันตัวอย่าง) | ✔️ |
| Gemini 3 Flash (เวอร์ชันตัวอย่าง) | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
ขั้นตอนถัดไป
- การอนุมานแบบ Flex เพื่อลดต้นทุน
- โทเค็น: ทำความเข้าใจโทเค็น