การอนุมานตามลำดับความสำคัญ

Gemini Priority API เป็นระดับการอนุมานแบบพรีเมียมที่ออกแบบมาสำหรับ ภาระงานที่สำคัญต่อธุรกิจซึ่งต้องมีเวลาในการตอบสนองที่ต่ำกว่าและความน่าเชื่อถือสูงสุด ในราคาพรีเมียม การเข้าชมระดับ Priority จะมีความสำคัญมากกว่าการเข้าชม API มาตรฐานและการเข้าชมระดับ Flex

การอนุมานตามลำดับความสำคัญพร้อมให้บริการแก่ผู้ใช้ระดับ 2 และระดับ 3 ในปลายทาง GenerateContent API และ Interactions API

วิธีใช้รายการสำคัญ

หากต้องการใช้ระดับลำดับความสำคัญ ให้ตั้งค่าฟิลด์ service_tier ในส่วนเนื้อหาของคำขอเป็น SERVICE_TIER_PRIORITY ระดับเริ่มต้นคือมาตรฐานหากไม่ระบุฟิลด์

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={'service_tier': 'SERVICE_TIER_PRIORITY'},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

ใน JavaScript ไลบรารีของไคลเอ็นต์จะจัดการการดาวน์เกรดโดยอัตโนมัติ หากความจุเกิน ระบบจะแสดงข้อผิดพลาดหรือประมวลผลที่ระดับมาตรฐาน ออบเจ็กต์การตอบกลับไม่ได้แสดงส่วนหัวโดยตรงเพื่อตรวจสอบการลดรุ่น

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

ใน Go ไลบรารีของไคลเอ็นต์จะจัดการการดาวน์เกรดโดยอัตโนมัติ หากความจุเกิน ระบบจะแสดงข้อผิดพลาดหรือประมวลผลที่ระดับมาตรฐาน ออบเจ็กต์การตอบกลับไม่ได้แสดงส่วนหัวโดยตรงเพื่อตรวจสอบการดาวน์เกรด

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "serviceTier": "PRIORITY"
}'

วิธีการทำงานของการอนุมานตามลำดับความสำคัญ

เส้นทางการอนุมานที่มีลำดับความสำคัญจะส่งคำขอไปยังคิวการประมวลผลที่มีความสำคัญสูง ซึ่งให้ประสิทธิภาพที่รวดเร็วและคาดการณ์ได้สำหรับแอปพลิเคชันที่แสดงต่อผู้ใช้ กลไกหลักของฟีเจอร์นี้คือการลดระดับฝั่งเซิร์ฟเวอร์อย่างเหมาะสมเป็นการประมวลผลมาตรฐานสำหรับการเข้าชมที่เกินขีดจำกัดแบบไดนามิก เพื่อให้มั่นใจว่าแอปพลิเคชันจะมีความเสถียรแทนที่จะทำให้คำขอไม่สำเร็จ

ฟีเจอร์ ลำดับความสำคัญ มาตรฐาน พับ กลุ่ม
การกำหนดราคา มากกว่ารุ่น Standard 75-100% ตั๋วราคาเต็ม ส่วนลด 50% ส่วนลด 50%
เวลาในการตอบสนอง ต่ำ (วินาที) วินาทีถึงนาที นาที (เป้าหมาย 1-15 นาที) สูงสุด 24 ชั่วโมง
ความน่าเชื่อถือ สูง (ไม่หลุดร่วง) สูง / สูงปานกลาง ดีที่สุดเท่าที่ทำได้ (ลดภาระได้) สูง (สำหรับอัตราการส่งข้อมูล)
อินเทอร์เฟซ พร้อมกัน พร้อมกัน พร้อมกัน อะซิงโครนัส

ประโยชน์สำคัญ

  • เวลาในการตอบสนองต่ำ: ออกแบบมาเพื่อเวลาในการตอบสนองระดับมิลลิวินาทีสำหรับเครื่องมือ AI แบบอินเทอร์แอกทีฟที่ผู้ใช้ใช้งาน
  • ความน่าเชื่อถือสูง: ระบบจะจัดการการเข้าชมโดยให้ความสำคัญสูงสุดและ ไม่สามารถลดการเข้าชมได้
  • การลดลงอย่างค่อยเป็นค่อยไป: การรับส่งข้อมูลที่เพิ่มขึ้นเกินขีดจำกัดแบบไดนามิกจะลดระดับเป็นระดับ Standard โดยอัตโนมัติเพื่อประมวลผลแทนที่จะล้มเหลว เพื่อป้องกันไม่ให้บริการหยุดทำงาน
  • ใช้งานง่าย: ใช้เมธอด generateContent แบบซิงโครนัสเดียวกันกับ ระดับมาตรฐานและระดับ Flex

กรณีการใช้งาน

การประมวลผลที่มีลำดับความสำคัญเหมาะสำหรับเวิร์กโฟลว์ที่สำคัญต่อธุรกิจซึ่งประสิทธิภาพ และความน่าเชื่อถือเป็นสิ่งสำคัญที่สุด

  • แอปพลิเคชัน AI แบบอินเทอร์แอกทีฟ: แชทบ็อตและโคไพลอทฝ่ายบริการลูกค้าที่ผู้ใช้ จ่ายเงินในราคาพรีเมียมและคาดหวังว่าจะได้รับคำตอบที่รวดเร็วและสม่ำเสมอ
  • เครื่องมือตัดสินใจแบบเรียลไทม์: ระบบที่ต้องการผลลัพธ์ที่มีความน่าเชื่อถือสูงและมีความหน่วงต่ำ เช่น การคัดกรองคำขอแจ้งปัญหาแบบเรียลไทม์หรือการตรวจจับการประพฤติมิชอบ
  • ฟีเจอร์สำหรับลูกค้าพรีเมียม: นักพัฒนาแอปที่ต้องการรับประกันเป้าหมายระดับการให้บริการ (SLO) ที่สูงขึ้นสำหรับลูกค้าที่ชำระเงิน

ขีดจำกัดอัตรา

การใช้ทรัพยากรที่มีลำดับความสำคัญจะมีขีดจำกัดอัตราของตัวเองแม้ว่าระบบจะนับการใช้งานรวมกับขีดจำกัดอัตราการรับส่งข้อมูลแบบอินเทอร์แอกทีฟโดยรวมก็ตาม ขีดจำกัดอัตราเริ่มต้นสำหรับการอนุมานตามลำดับความสำคัญคือขีดจำกัดอัตรามาตรฐาน 0.3 เท่าสำหรับโมเดล / ระดับ

ตรรกะการดาวน์เกรดอย่างค่อยเป็นค่อยไป

หากคำขอเกินขีดจำกัดของลำดับความสำคัญเนื่องจากความหนาแน่น คำขอที่เกินจะลดระดับโดยอัตโนมัติและราบรื่นเป็นการประมวลผลแบบมาตรฐานแทนที่จะล้มเหลวพร้อมข้อผิดพลาด 503 หรือ 429 ระบบจะเรียกเก็บเงินสำหรับคำขอที่ลดระดับในอัตรามาตรฐาน ไม่ใช่ในอัตราพรีเมียมแบบมีลำดับความสำคัญ

ความรับผิดชอบของลูกค้า

  • การตรวจสอบการตอบกลับ: นักพัฒนาซอฟต์แวร์ควรตรวจสอบค่า service_tier ในเนื้อหาการตอบกลับของ API เพื่อตรวจหาว่ามีการลดระดับคำขอเป็น standard บ่อยหรือไม่
  • การลองใหม่: ไคลเอ็นต์ต้องใช้ตรรกะการลองใหม่/Exponential Backoff สำหรับ ข้อผิดพลาดมาตรฐาน เช่น DEADLINE_EXCEEDED

ราคา

การอนุมานที่มีลำดับความสำคัญมีราคาแพงกว่า API มาตรฐาน 75-100% และจะเรียกเก็บเงินต่อโทเค็น

โมเดลที่รองรับ

โมเดลต่อไปนี้รองรับการอนุมานแบบมีลำดับความสำคัญ

รุ่น การอนุมานตามลำดับความสำคัญ
Gemini 3.1 Flash-Lite (เวอร์ชันตัวอย่าง) ✔️
ตัวอย่าง Gemini 3.1 Pro ✔️
ตัวอย่าง Gemini 3 Flash ✔️
ตัวอย่างรูปภาพ Gemini 3 Pro ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
รูปภาพ Gemini 2.5 Flash ✔️
Gemini 2.5 Flash-Lite ✔️

ขั้นตอนถัดไป

อ่านเกี่ยวกับตัวเลือกการอนุมานและการเพิ่มประสิทธิภาพอื่นๆ ของ Gemini