การอนุมานตามลำดับความสำคัญ

Gemini Priority API เป็นระดับการอนุมานแบบพรีเมียมที่ออกแบบมาสำหรับ ภาระงานที่สำคัญต่อธุรกิจซึ่งต้องมีเวลาในการตอบสนองที่ต่ำกว่าและความน่าเชื่อถือสูงสุด ในราคาพรีเมียม การเข้าชมระดับความสำคัญจะมีความสำคัญเหนือกว่า การเข้าชม API มาตรฐานและการเข้าชมระดับ Flex

การอนุมานตามลำดับความสำคัญพร้อมใช้งานในปลายทาง Interactions API

วิธีใช้รายการสำคัญ

หากต้องการใช้ระดับลำดับความสำคัญ ให้ตั้งค่าฟิลด์ service_tier ในคำขอเป็น priority ระดับเริ่มต้นคือมาตรฐานหากไม่ระบุฟิลด์

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3.5-flash",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    print(interaction.output_text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      console.log(interaction.output_text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

วิธีการทำงานของการอนุมานตามลำดับความสำคัญ

เส้นทางการอนุมานที่มีลำดับความสำคัญจะกำหนดเส้นทางคำขอไปยังคิวการประมวลผลที่มีความสำคัญสูง ซึ่งให้ประสิทธิภาพที่รวดเร็วและคาดการณ์ได้สำหรับแอปพลิเคชันที่แสดงต่อผู้ใช้ กลไกหลักของฟีเจอร์นี้คือการลดระดับฝั่งเซิร์ฟเวอร์อย่างเหมาะสมเป็นการประมวลผลมาตรฐานสำหรับการเข้าชมที่เกินขีดจำกัดแบบไดนามิก เพื่อให้มั่นใจว่าแอปพลิเคชันจะเสถียรแทนที่จะทำให้คำขอล้มเหลว

ฟีเจอร์ ลำดับความสำคัญ มาตรฐาน พับ กลุ่ม
การกำหนดราคา มากกว่ารุ่น Standard 75-100% ตั๋วราคาเต็ม ส่วนลด 50% ส่วนลด 50%
เวลาในการตอบสนอง วินาที วินาทีถึงนาที นาที (เป้าหมาย 1-15 นาที) สูงสุด 24 ชั่วโมง
ความน่าเชื่อถือ สูง (ไม่หลุดร่วง) สูง / สูงปานกลาง ดีที่สุดเท่าที่ทำได้ (ลดภาระได้) สูง (สำหรับปริมาณงาน)
อินเทอร์เฟซ ซิงโครนัส ซิงโครนัส ซิงโครนัส แบบอะซิงโครนัส

ประโยชน์สำคัญ

  • เวลาในการตอบสนองต่ำ: ออกแบบมาเพื่อเวลาในการตอบสนองระดับวินาทีสำหรับเครื่องมือ AI แบบอินเทอร์แอกทีฟที่ผู้ใช้มองเห็น
  • ความน่าเชื่อถือสูง: ระบบจะจัดการการเข้าชมโดยให้ความสำคัญสูงสุดและ ไม่สามารถลดการเข้าชมได้
  • การลดลงอย่างค่อยเป็นค่อยไป: การรับส่งข้อมูลที่เพิ่มขึ้นเกินขีดจำกัดแบบไดนามิกจะลดระดับเป็นระดับ Standard โดยอัตโนมัติเพื่อประมวลผลแทนที่จะล้มเหลว ซึ่งจะป้องกันไม่ให้เกิดการหยุดทำงานของบริการ
  • ราบรื่น: ใช้วิธีการ create แบบซิงโครนัสเดียวกันกับ แพ็กเกจมาตรฐานและแพ็กเกจ Flex

กรณีการใช้งาน

การประมวลผลที่มีลำดับความสำคัญเหมาะสำหรับเวิร์กโฟลว์ที่สำคัญต่อธุรกิจซึ่งประสิทธิภาพ และความน่าเชื่อถือเป็นสิ่งสำคัญที่สุด

  • แอปพลิเคชัน AI แบบอินเทอร์แอกทีฟ: แชทบ็อตและโคไพลอตฝ่ายบริการลูกค้าที่ผู้ใช้ จ่ายเงินในราคาพรีเมียมและคาดหวังการตอบกลับที่รวดเร็วและสม่ำเสมอ
  • เครื่องมือตัดสินใจแบบเรียลไทม์: ระบบที่ต้องการผลลัพธ์ที่มีความน่าเชื่อถือสูงและมีความหน่วงต่ำ เช่น การจัดลำดับความสำคัญของคำขอแจ้งปัญหาแบบเรียลไทม์หรือการตรวจจับการประพฤติมิชอบ
  • ฟีเจอร์สำหรับลูกค้าพรีเมียม: นักพัฒนาแอปที่ต้องการรับประกันเป้าหมายระดับการให้บริการ (SLO) ที่สูงขึ้นสำหรับลูกค้าที่ชำระเงิน

ขีดจำกัดอัตรา

การใช้งานที่มีลำดับความสำคัญจะมีขีดจำกัดอัตราของตัวเอง แม้ว่าระบบจะนับการใช้งานรวมกับขีดจำกัดอัตราของการเข้าชมแบบอินเทอร์แอกทีฟโดยรวมก็ตาม ขีดจำกัดอัตราเริ่มต้นสำหรับการอนุมานตามลำดับความสำคัญคือขีดจำกัดอัตรามาตรฐาน 0.3 เท่าสำหรับโมเดล / ระดับ

ตรรกะการดาวน์เกรดอย่างค่อยเป็นค่อยไป

หากคำขอเกินขีดจำกัดของลำดับความสำคัญเนื่องจากมีการใช้งานหนาแน่น ระบบจะลดระดับคำขอที่เกินมาเป็นระดับมาตรฐานโดยอัตโนมัติและราบรื่นแทนที่จะแสดงข้อผิดพลาด 503 หรือ 429 ระบบจะเรียกเก็บเงินสำหรับคำขอที่ลดระดับในอัตรามาตรฐาน ไม่ใช่ในอัตราพรีเมียมแบบมีลำดับความสำคัญ

ความรับผิดชอบของลูกค้า

  • การตรวจสอบการตอบกลับ: นักพัฒนาซอฟต์แวร์ควรตรวจสอบx-gemini-service-tierส่วนหัวstandardในการตอบกลับ API เพื่อตรวจหาว่ามีการลดระดับคำขอเป็น standardบ่อยหรือไม่
  • การลองใหม่: ไคลเอ็นต์ต้องใช้ตรรกะการลองใหม่/Exponential Backoff สำหรับ ข้อผิดพลาดมาตรฐาน เช่น DEADLINE_EXCEEDED

ราคา

การอนุมานที่มีลำดับความสำคัญมีราคาแพงกว่า API มาตรฐาน 75-100% และจะเรียกเก็บเงินต่อโทเค็น

โมเดลที่รองรับ

โมเดลต่อไปนี้รองรับการอนุมานที่มีลำดับความสำคัญ

รุ่น การอนุมานตามลำดับความสำคัญ
Gemini 3.5 Flash ✔️
Gemini 3.1 Flash-Lite ✔️
ตัวอย่าง Gemini 3.1 Pro ✔️
ตัวอย่าง Gemini 3 Flash ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash-Lite ✔️

ขั้นตอนถัดไป