การอนุมานตามลำดับความสำคัญ

คำอธิบาย: ดูวิธีเพิ่มประสิทธิภาพเวลาในการตอบสนองด้วยระดับการอนุมานแบบลำดับความสำคัญใน Interactions API

Gemini Priority API เป็นระดับการอนุมานแบบพรีเมียมที่ออกแบบมาสำหรับภาระงานที่สำคัญต่อธุรกิจ ซึ่งต้องใช้เวลาในการตอบสนองที่ต่ำกว่าและความน่าเชื่อถือสูงสุดในราคาพรีเมียม ระบบจะให้ความสำคัญกับการเข้าชมระดับลำดับความสำคัญมากกว่าการเข้าชม API มาตรฐานและการเข้าชมระดับพับ

การอนุมานแบบลำดับความสำคัญพร้อมให้บริการในปลายทาง Interactions API ทั้งหมด

วิธีใช้รายการสำคัญ

หากต้องการใช้ระดับลำดับความสำคัญ ให้ตั้งค่าฟิลด์ service_tier ในคำขอเป็น priority ระดับเริ่มต้นคือระดับมาตรฐานหากละเว้นฟิลด์นี้

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Triage this critical customer support ticket immediately.",
    service_tier='priority'
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
    const interaction = await ai.interactions.create({
        model: "gemini-3.5-flash",
        input: "Triage this critical customer support ticket immediately.",
        service_tier: "priority"
    });
    console.log(interaction.output_text);
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

วิธีการทำงานของการอนุมานแบบลำดับความสำคัญ

การอนุมานแบบลำดับความสำคัญจะกำหนดเส้นทางคำขอไปยังคิวการประมวลผลที่มีความสำคัญสูง ซึ่งให้ประสิทธิภาพที่รวดเร็วและคาดการณ์ได้สำหรับแอปพลิเคชันที่ผู้ใช้มองเห็น กลไกหลักคือการลดระดับฝั่งเซิร์ฟเวอร์อย่างค่อยเป็นค่อยไปเป็นการประมวลผลมาตรฐานสำหรับการเข้าชมที่เกินขีดจำกัดแบบไดนามิก เพื่อให้มั่นใจถึงความเสถียรของแอปพลิเคชันแทนที่จะทำให้คำขอไม่สำเร็จ

ฟีเจอร์ รายการสำคัญ มาตรฐาน พับ กลุ่ม
การกำหนดราคา สูงกว่าระดับมาตรฐาน 75-100% ราคาเต็ม ส่วนลด 50% ส่วนลด 50%
เวลาในการตอบสนอง วินาที วินาทีถึงนาที นาที (เป้าหมาย 1-15 นาที) สูงสุด 24 ชั่วโมง
ความน่าเชื่อถือ สูง (ไม่สามารถลดระดับได้) สูง / สูงปานกลาง อย่างเต็มที่ (สามารถลดระดับได้) สูง (สำหรับปริมาณงาน)
อินเทอร์เฟซ แบบซิงโครนัส แบบซิงโครนัส แบบซิงโครนัส แบบอะซิงโครนัส

สิทธิประโยชน์ที่สำคัญ

  • เวลาในการตอบสนองต่ำ: ออกแบบมาให้ใช้เวลาตอบสนองเป็นวินาทีสำหรับเครื่องมือ AI แบบอินเทอร์แอกทีฟที่ผู้ใช้มองเห็น
  • ความน่าเชื่อถือสูง: ระบบจะจัดการการเข้าชมด้วยความสำคัญสูงสุดและ ไม่สามารถลดระดับได้
  • การลดลงอย่างค่อยเป็นค่อยไป: ระบบจะลดระดับการเข้าชมที่เพิ่มขึ้นซึ่งเกินขีดจำกัดแบบไดนามิกเป็นระดับมาตรฐานเพื่อทำการประมวลผลแทนที่จะทำให้คำขอไม่สำเร็จ ซึ่งจะช่วยป้องกันการหยุดทำงานของบริการ
  • ความยุ่งยากต่ำ: ใช้วิธี create แบบซิงโครนัสแบบเดียวกับระดับ มาตรฐานและระดับพับ

กรณีการใช้งาน

การประมวลผลแบบลำดับความสำคัญเหมาะอย่างยิ่งสำหรับเวิร์กโฟลว์ที่สำคัญต่อธุรกิจ ซึ่งประสิทธิภาพและความน่าเชื่อถือมีความสำคัญสูงสุด

  • แอปพลิเคชัน AI แบบอินเทอร์แอกทีฟ: แชทบ็อตและผู้ช่วยเสมือนสำหรับฝ่ายบริการลูกค้าที่ ผู้ใช้จ่ายเงินในราคาพรีเมียมและคาดหวังการตอบสนองที่รวดเร็วและสม่ำเสมอ
  • กลไกการตัดสินใจแบบเรียลไทม์: ระบบที่ต้องใช้ผลลัพธ์ที่น่าเชื่อถือสูงและมีเวลาในการตอบสนองต่ำ เช่น การจัดลำดับความสำคัญของตั๋วแบบสดหรือการตรวจจับการฉ้อโกง
  • ฟีเจอร์สำหรับลูกค้าพรีเมียม: นักพัฒนาแอปที่ต้องรับประกันวัตถุประสงค์ระดับการให้บริการ ที่สูงขึ้นสำหรับลูกค้าที่ชำระเงิน

ขีดจำกัดอัตรา

การใช้งานระดับลำดับความสำคัญจะมีขีดจำกัดอัตราของตัวเอง แม้ว่าระบบจะนับการใช้งานรวมกับขีดจำกัดอัตราการเข้าชมแบบอินเทอร์แอกทีฟโดยรวมก็ตาม ขีดจำกัดอัตราเริ่มต้นสำหรับการอนุมานแบบลำดับความสำคัญคือ 0.3 เท่าของขีดจำกัดอัตรามาตรฐานสำหรับโมเดล / ระดับ

ตรรกะการลดระดับอย่างค่อยเป็นค่อยไป

หากการใช้งานเกินขีดจำกัดของระดับลำดับความสำคัญเนื่องจากความหนาแน่น ระบบจะลดระดับ คำขอที่ล้นออกมาเป็นการประมวลผลมาตรฐาน โดยอัตโนมัติและอย่างค่อยเป็นค่อยไป แทนที่จะทำให้คำขอไม่สำเร็จด้วยข้อผิดพลาด 503 หรือ 429 ระบบจะเรียกเก็บเงินคำขอที่ลดระดับในอัตรามาตรฐาน ไม่ใช่อัตราพรีเมียมของระดับลำดับความสำคัญ

ความรับผิดชอบของไคลเอ็นต์

  • การตรวจสอบการตอบสนอง: นักพัฒนาแอปควรตรวจสอบx-gemini-service-tier ส่วนหัวในการตอบสนองของ API เพื่อตรวจหาว่าระบบลดระดับคำขอเป็น standardบ่อยหรือไม่
  • การลองใหม่: ไคลเอ็นต์ต้องใช้ตรรกะการลองใหม่/Exponential Backoff สำหรับ ข้อผิดพลาดมาตรฐาน เช่น DEADLINE_EXCEEDED

การกำหนดราคา

การอนุมานแบบลำดับความสำคัญมีราคาสูงกว่า API มาตรฐาน 75-100% และระบบจะเรียกเก็บเงินตามโทเค็น

โมเดลที่รองรับ

โมเดลต่อไปนี้รองรับการอนุมานแบบลำดับความสำคัญ

โมเดล การอนุมานแบบลำดับความสำคัญ
Gemini 3.5 Flash ✔️
Gemini 3.1 Flash-Lite ✔️
Gemini 3.1 Pro เวอร์ชันเบต้า ✔️
Gemini 3 Flash เวอร์ชันเบต้า ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash-Lite ✔️

ขั้นตอนถัดไป