Gemini Deep Research พร้อมให้บริการในเวอร์ชันพรีวิวแล้วตอนนี้ โดยมีฟีเจอร์การวางแผนร่วมกัน การแสดงภาพข้อมูล การรองรับ MCP และอื่นๆ

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

การอนุมานตามลำดับความสำคัญ

Gemini Priority API เป็นระดับการอนุมานแบบพรีเมียมที่ออกแบบมาสำหรับภาระงานที่สำคัญต่อธุรกิจ ซึ่งต้องใช้เวลาในการตอบสนองที่ต่ำกว่าและความน่าเชื่อถือสูงสุดในราคาพรีเมียม การเข้าชมระดับพรีเมียมจะได้รับความสำคัญเหนือการเข้าชม API มาตรฐานและการเข้าชมระดับ Flex

การอนุมานแบบลำดับความสำคัญพร้อมให้บริการแก่ผู้ใช้ระดับที่ 2 และระดับที่ 3 ในปลายทาง GenerateContent API และ Interactions API

วิธีใช้รายการสำคัญ

หากต้องการใช้ระดับ Priority ให้ตั้งค่าฟิลด์ service_tier ในเนื้อหาคำขอเป็น priority ระดับเริ่มต้นคือระดับมาตรฐานหากละเว้นฟิลด์นี้

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3.5-flash",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3.5-flash",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

วิธีการทำงานของการอนุมานแบบพรีเมียม

การอนุมานแบบลำดับความสำคัญจะกำหนดเส้นทางคำขอไปยังคิวการประมวลผลที่มีความสำคัญสูง ซึ่งให้ประสิทธิภาพที่รวดเร็วและคาดการณ์ได้สำหรับแอปพลิเคชันที่แสดงต่อผู้ใช้ กลไกหลักคือการลดระดับฝั่งเซิร์ฟเวอร์อย่างค่อยเป็นค่อยไปเป็นการประมวลผลมาตรฐานสำหรับการเข้าชมที่เกินขีดจำกัดแบบไดนามิก ซึ่งช่วยให้แอปพลิเคชันมีความเสถียรแทนที่จะทำให้คำขอไม่สำเร็จ

ฟีเจอร์	รายการสำคัญ	มาตรฐาน	Flex	กลุ่ม
การกำหนดราคา	มากกว่าระดับมาตรฐาน 75-100%	ราคาเต็ม	ส่วนลด 50%	ส่วนลด 50%
เวลาในการตอบสนอง	วินาที	วินาทีถึงนาที	นาที (เป้าหมาย 1-15 นาที)	สูงสุด 24 ชั่วโมง
ความน่าเชื่อถือ	สูง (ไม่สามารถลดระดับได้)	สูง / สูงปานกลาง	อย่างเต็มที่ (สามารถลดระดับได้)	สูง (สำหรับอัตราการส่งข้อมูล)
อินเทอร์เฟซ	แบบซิงโครนัส	แบบซิงโครนัส	แบบซิงโครนัส	แบบอะซิงโครนัส

สิทธิประโยชน์ที่สำคัญ

เวลาในการตอบสนองต่ำ: ออกแบบมาให้ใช้เวลาตอบสนองเป็นวินาทีสำหรับเครื่องมือ AI แบบอินเทอร์แอกทีฟที่ผู้ใช้มองเห็น
ความน่าเชื่อถือสูง: การเข้าชมจะได้รับการปฏิบัติด้วยความสำคัญสูงสุดและ ไม่สามารถลดระดับได้
การลดลงอย่างค่อยเป็นค่อยไป: การเข้าชมที่เพิ่มขึ้นซึ่งเกินขีดจำกัดแบบไดนามิกจะ ลดระดับลงเป็นระดับมาตรฐานโดยอัตโนมัติเพื่อทำการประมวลผลแทนที่จะทำให้คำขอไม่สำเร็จ ซึ่งจะช่วยป้องกันไม่ให้เกิดการหยุดทำงานของบริการ
ความยุ่งยากต่ำ: ใช้วิธี generateContent แบบซิงโครนัสแบบเดียวกับระดับ มาตรฐานและระดับ Flex

กรณีการใช้งาน

การประมวลผลแบบพรีเมียมเหมาะอย่างยิ่งสำหรับเวิร์กโฟลว์ที่สำคัญต่อธุรกิจ ซึ่งประสิทธิภาพและความน่าเชื่อถือมีความสำคัญสูงสุด

แอปพลิเคชัน AI แบบอินเทอร์แอกทีฟ: แชทบ็อตและผู้ช่วยเสมือนสำหรับฝ่ายบริการลูกค้าที่ ผู้ใช้จ่ายเงินในราคาพรีเมียมและคาดหวังการตอบสนองที่รวดเร็วและสม่ำเสมอ
กลไกการตัดสินใจแบบเรียลไทม์: ระบบที่ต้องใช้ผลลัพธ์ที่น่าเชื่อถือสูงและมีเวลาในการตอบสนองต่ำ เช่น การจัดลำดับความสำคัญของตั๋วแบบสดหรือการตรวจจับการฉ้อโกง
ฟีเจอร์สำหรับลูกค้าพรีเมียม: นักพัฒนาแอปที่ต้องรับประกันวัตถุประสงค์ระดับการให้บริการ ที่สูงขึ้นสำหรับลูกค้าที่ชำระเงิน

ขีดจำกัดอัตรา

การใช้งานระดับพรีเมียมจะมีขีดจำกัดอัตราของตัวเอง แม้ว่าการใช้งานจะนับรวมใน ขีดจำกัดอัตราการรับส่งข้อมูลแบบอินเทอร์แอกทีฟโดยรวมก็ตาม ขีดจำกัดอัตราเริ่มต้นสำหรับการอนุมานแบบพรีเมียมคือขีดจำกัดอัตรามาตรฐาน 0.3 เท่าสำหรับโมเดล / ระดับ

ตรรกะการลดระดับอย่างค่อยเป็นค่อยไป

หากมีการใช้งานเกินขีดจำกัดระดับ Priority เนื่องจากความหนาแน่น คำขอที่ล้นจะลดระดับลงเป็นการประมวลผล Standard โดยอัตโนมัติและอย่างค่อยเป็นค่อยไป แทนที่จะทำให้คำขอไม่สำเร็จด้วยข้อผิดพลาด 503 หรือ 429 ระบบจะเรียกเก็บเงินสำหรับคำขอที่ลดระดับลงในอัตรามาตรฐาน ไม่ใช่อัตราพรีเมียมของระดับพรีเมียม

ความรับผิดชอบของไคลเอ็นต์

การตรวจสอบการตอบสนอง: นักพัฒนาแอปควรตรวจสอบส่วนหัว x-gemini-service-tier ในการตอบสนองของ API เพื่อตรวจหาว่าคำขอถูกลดระดับลงเป็น standard บ่อยหรือไม่
การลองใหม่: ไคลเอ็นต์ต้องใช้ตรรกะการลองใหม่/Exponential Backoff สำหรับ ข้อผิดพลาดมาตรฐาน เช่น DEADLINE_EXCEEDED

การกำหนดราคา

การอนุมานแบบพรีเมียมมีราคามากกว่า API มาตรฐาน 75-100% และเรียกเก็บเงินต่อโทเค็น

โมเดลที่รองรับ

โมเดลต่อไปนี้รองรับการอนุมานแบบลำดับความสำคัญ

โมเดล	การอนุมานแบบลำดับความสำคัญ
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Pro เวอร์ชันตัวอย่าง	✔️
Gemini 3 Flash เวอร์ชันตัวอย่าง	✔️
Gemini 3 Pro เวอร์ชันตัวอย่างรูปภาพ	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
รูปภาพ Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

ขั้นตอนถัดไป

อ่านเกี่ยวกับตัวเลือกการอนุมานและการเพิ่มประสิทธิภาพอื่นๆ ของ Gemini ได้ที่

การอนุมานแบบ Flex เพื่อลดต้นทุน 50%
Batch API สำหรับการประมวลผลแบบอะซิงโครนัสภายใน 24 ชั่วโมง
การแคชบริบท เพื่อลดต้นทุนโทเค็นอินพุต