การอนุมานตามลำดับความสำคัญ

Gemini Priority API เป็นระดับการอนุมานแบบพรีเมียมที่ออกแบบมาสำหรับภาระงานที่สำคัญต่อธุรกิจ ซึ่งต้องใช้เวลาในการตอบสนองที่ต่ำกว่าและความน่าเชื่อถือสูงสุดในราคาพรีเมียม ระบบจะให้ความสำคัญกับการเข้าชมระดับ Priority มากกว่าการเข้าชมระดับ Standard API และระดับ Flex

การอนุมานระดับ Priority พร้อมให้บริการแก่ผู้ใช้ระดับที่ 2 และระดับที่ 3 ในปลายทาง GenerateContent API และ Interactions API

วิธีใช้ระดับ Priority

หากต้องการใช้ระดับ Priority ให้ตั้งค่าฟิลด์ service_tier ในเนื้อหาของคำขอเป็น priority ระดับเริ่มต้นคือ Standard หากละเว้นฟิลด์นี้

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

วิธีการทำงานของการอนุมานระดับ Priority

การอนุมานระดับ Priority จะกำหนดเส้นทางคำขอไปยังคิวการประมวลผลที่มีความสำคัญสูง ซึ่งให้ประสิทธิภาพที่รวดเร็วและคาดการณ์ได้สำหรับแอปพลิเคชันที่ผู้ใช้มองเห็น กลไกหลักคือการลดระดับฝั่งเซิร์ฟเวอร์อย่างค่อยเป็นค่อยไปเป็นการประมวลผลแบบมาตรฐานสำหรับการเข้าชมที่เกินขีดจำกัดแบบไดนามิก เพื่อให้มั่นใจถึงความเสถียรของแอปพลิเคชันแทนที่จะทำให้คำขอไม่สำเร็จ

ฟีเจอร์ Priority Standard Flex กลุ่ม
การกำหนดราคา มากกว่า Standard 75-100% ราคาเต็ม ส่วนลด 50% ส่วนลด 50%
เวลาในการตอบสนอง วินาที วินาทีถึงนาที นาที (เป้าหมาย 1-15 นาที) สูงสุด 24 ชั่วโมง
ความน่าเชื่อถือ สูง (ไม่สามารถลดระดับได้) สูง / สูงปานกลาง อย่างเต็มที่ (ลดระดับได้) สูง (สำหรับปริมาณงาน)
อินเทอร์เฟซ แบบซิงโครนัส แบบซิงโครนัส แบบซิงโครนัส แบบอะซิงโครนัส

สิทธิประโยชน์ที่สำคัญ

  • เวลาในการตอบสนองต่ำ: ออกแบบมาให้ใช้เวลาตอบสนองเป็นวินาทีสำหรับเครื่องมือ AI แบบอินเทอร์แอกทีฟที่ผู้ใช้มองเห็น
  • ความน่าเชื่อถือสูง: ระบบจะจัดการการเข้าชมด้วยความสำคัญสูงสุดและ ไม่สามารถลดระดับได้
  • การลดลงอย่างค่อยเป็นค่อยไป: ระบบจะลดระดับการเข้าชมที่เพิ่มขึ้นซึ่งเกินขีดจำกัดแบบไดนามิกเป็นระดับ Standard โดยอัตโนมัติเพื่อทำการประมวลผลแทนที่จะทำให้คำขอไม่สำเร็จ ซึ่งจะช่วยป้องกันการหยุดทำงานของบริการ
  • ความยุ่งยากต่ำ: ใช้เมธอด generateContent แบบซิงโครนัสเดียวกันกับระดับ Standard และ Flex

กรณีการใช้งาน

การประมวลผลระดับ Priority เหมาะอย่างยิ่งสำหรับเวิร์กโฟลว์ที่สำคัญต่อธุรกิจ ซึ่งประสิทธิภาพและความน่าเชื่อถือมีความสำคัญสูงสุด

  • แอปพลิเคชัน AI แบบอินเทอร์แอกทีฟ: แชทบ็อตและผู้ช่วยเสมือนสำหรับฝ่ายบริการลูกค้าที่ ผู้ใช้จ่ายเงินในราคาพรีเมียมและคาดหวังการตอบสนองที่รวดเร็วและสม่ำเสมอ
  • กลไกการตัดสินใจแบบเรียลไทม์: ระบบที่ต้องใช้ผลลัพธ์ที่เชื่อถือได้สูงและมีเวลาในการตอบสนองต่ำ เช่น การจัดลำดับความสำคัญของตั๋วแบบเรียลไทม์หรือการตรวจจับการฉ้อโกง
  • ฟีเจอร์สำหรับลูกค้าพรีเมียม: นักพัฒนาแอปที่ต้องรับประกันวัตถุประสงค์ระดับการให้บริการ ที่สูงขึ้นสำหรับลูกค้าที่ชำระเงิน

ขีดจำกัดอัตรา

การใช้งานระดับ Priority จะมีขีดจำกัดอัตราของตัวเอง แม้ว่าระบบจะนับการใช้งานรวมกับขีดจำกัดอัตราการเข้าชมแบบอินเทอร์แอกทีฟโดยรวมก็ตาม ขีดจำกัดอัตราเริ่มต้นสำหรับการอนุมานระดับ Priority คือ 0.3 เท่าของขีดจำกัดอัตรามาตรฐานสำหรับโมเดล / ระดับ

ตรรกะการลดระดับอย่างค่อยเป็นค่อยไป

หากมีการใช้งานเกินขีดจำกัดระดับ Priority เนื่องจากความหนาแน่น ระบบจะ ดาวน์เกรด คำขอที่ล้นออกมาเป็นการประมวลผลแบบ Standard แทนที่จะ ทำให้คำขอไม่สำเร็จด้วยข้อผิดพลาด 503 หรือ 429 ระบบจะเรียกเก็บเงินคำขอที่ลดระดับในอัตรามาตรฐาน ไม่ใช่อัตราพรีเมียมระดับ Priority

ความรับผิดชอบของไคลเอ็นต์

  • การตรวจสอบการตอบสนอง: นักพัฒนาแอปควรตรวจสอบx-gemini-service-tier ส่วนหัวในการตอบสนองของ API เพื่อตรวจหาว่าระบบลดระดับคำขอเป็น standardบ่อยหรือไม่
  • การลองใหม่: ไคลเอ็นต์ต้องใช้ตรรกะการลองใหม่/Exponential Backoff สำหรับ ข้อผิดพลาดมาตรฐาน เช่น DEADLINE_EXCEEDED

การกำหนดราคา

การอนุมานระดับ Priority มีราคามากกว่า Standard API 75-100% และเรียกเก็บเงินต่อโทเค็น

โมเดลที่รองรับ

โมเดลต่อไปนี้รองรับการอนุมานระดับ Priority

โมเดล การอนุมานระดับ Priority
Gemini 3.1 Flash-Lite ✔️
Gemini 3.1 Flash-Lite (เวอร์ชันตัวอย่าง) ✔️
Gemini 3.1 Pro (เวอร์ชันตัวอย่าง) ✔️
Gemini 3 Flash (เวอร์ชันตัวอย่าง) ✔️
Gemini 3 Pro Image (เวอร์ชันตัวอย่าง) ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Image ✔️
Gemini 2.5 Flash-Lite ✔️

ขั้นตอนถัดไป

อ่านเกี่ยวกับตัวเลือกการอนุมานและการเพิ่มประสิทธิภาพอื่นๆ ของ Gemini ได้ที่