Gemini Deep Research พร้อมให้บริการในเวอร์ชันพรีวิวแล้วตอนนี้ โดยมีฟีเจอร์การวางแผนร่วมกัน การแสดงภาพข้อมูล การรองรับ MCP และอื่นๆ

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

การอนุมานตามลำดับความสำคัญ

หมายเหตุ: หน้านี้เวอร์ชันนี้ครอบคลุม Interactions API ใหม่ ซึ่งปัจจุบันอยู่ในเวอร์ชันเบต้า
สำหรับการติดตั้งใช้งานจริงที่เสถียร เราขอแนะนำให้คุณใช้ generateContent API ต่อไป คุณใช้ปุ่มเปิด/ปิดในหน้านี้เพื่อสลับระหว่างเวอร์ชันได้

Gemini Priority API เป็นระดับการอนุมานแบบพรีเมียมที่ออกแบบมาสำหรับ ภาระงานที่สำคัญต่อธุรกิจซึ่งต้องมีเวลาในการตอบสนองที่ต่ำกว่าและความน่าเชื่อถือสูงสุด ในราคาพรีเมียม การเข้าชมระดับความสำคัญจะมีความสำคัญเหนือกว่า การเข้าชม API มาตรฐานและการเข้าชมระดับ Flex

การอนุมานตามลำดับความสำคัญพร้อมใช้งานในปลายทาง Interactions API

วิธีใช้รายการสำคัญ

หากต้องการใช้ระดับลำดับความสำคัญ ให้ตั้งค่าฟิลด์ service_tier ในคำขอเป็น priority ระดับเริ่มต้นคือมาตรฐานหากไม่ระบุฟิลด์

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3.5-flash",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    print(interaction.output_text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      console.log(interaction.output_text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

วิธีการทำงานของการอนุมานตามลำดับความสำคัญ

เส้นทางการอนุมานที่มีลำดับความสำคัญจะกำหนดเส้นทางคำขอไปยังคิวการประมวลผลที่มีความสำคัญสูง ซึ่งให้ประสิทธิภาพที่รวดเร็วและคาดการณ์ได้สำหรับแอปพลิเคชันที่แสดงต่อผู้ใช้ กลไกหลักของฟีเจอร์นี้คือการลดระดับฝั่งเซิร์ฟเวอร์อย่างเหมาะสมเป็นการประมวลผลมาตรฐานสำหรับการเข้าชมที่เกินขีดจำกัดแบบไดนามิก เพื่อให้มั่นใจว่าแอปพลิเคชันจะเสถียรแทนที่จะทำให้คำขอล้มเหลว

ฟีเจอร์	ลำดับความสำคัญ	มาตรฐาน	พับ	กลุ่ม
การกำหนดราคา	มากกว่ารุ่น Standard 75-100%	ตั๋วราคาเต็ม	ส่วนลด 50%	ส่วนลด 50%
เวลาในการตอบสนอง	วินาที	วินาทีถึงนาที	นาที (เป้าหมาย 1-15 นาที)	สูงสุด 24 ชั่วโมง
ความน่าเชื่อถือ	สูง (ไม่หลุดร่วง)	สูง / สูงปานกลาง	ดีที่สุดเท่าที่ทำได้ (ลดภาระได้)	สูง (สำหรับปริมาณงาน)
อินเทอร์เฟซ	ซิงโครนัส	ซิงโครนัส	ซิงโครนัส	แบบอะซิงโครนัส

ประโยชน์สำคัญ

เวลาในการตอบสนองต่ำ: ออกแบบมาเพื่อเวลาในการตอบสนองระดับวินาทีสำหรับเครื่องมือ AI แบบอินเทอร์แอกทีฟที่ผู้ใช้มองเห็น
ความน่าเชื่อถือสูง: ระบบจะจัดการการเข้าชมโดยให้ความสำคัญสูงสุดและ ไม่สามารถลดการเข้าชมได้
การลดลงอย่างค่อยเป็นค่อยไป: การรับส่งข้อมูลที่เพิ่มขึ้นเกินขีดจำกัดแบบไดนามิกจะลดระดับเป็นระดับ Standard โดยอัตโนมัติเพื่อประมวลผลแทนที่จะล้มเหลว ซึ่งจะป้องกันไม่ให้เกิดการหยุดทำงานของบริการ
ราบรื่น: ใช้วิธีการ create แบบซิงโครนัสเดียวกันกับ แพ็กเกจมาตรฐานและแพ็กเกจ Flex

กรณีการใช้งาน

การประมวลผลที่มีลำดับความสำคัญเหมาะสำหรับเวิร์กโฟลว์ที่สำคัญต่อธุรกิจซึ่งประสิทธิภาพ และความน่าเชื่อถือเป็นสิ่งสำคัญที่สุด

แอปพลิเคชัน AI แบบอินเทอร์แอกทีฟ: แชทบ็อตและโคไพลอตฝ่ายบริการลูกค้าที่ผู้ใช้ จ่ายเงินในราคาพรีเมียมและคาดหวังการตอบกลับที่รวดเร็วและสม่ำเสมอ
เครื่องมือตัดสินใจแบบเรียลไทม์: ระบบที่ต้องการผลลัพธ์ที่มีความน่าเชื่อถือสูงและมีความหน่วงต่ำ เช่น การจัดลำดับความสำคัญของคำขอแจ้งปัญหาแบบเรียลไทม์หรือการตรวจจับการประพฤติมิชอบ
ฟีเจอร์สำหรับลูกค้าพรีเมียม: นักพัฒนาแอปที่ต้องการรับประกันเป้าหมายระดับการให้บริการ (SLO) ที่สูงขึ้นสำหรับลูกค้าที่ชำระเงิน

ขีดจำกัดอัตรา

การใช้งานที่มีลำดับความสำคัญจะมีขีดจำกัดอัตราของตัวเอง แม้ว่าระบบจะนับการใช้งานรวมกับขีดจำกัดอัตราของการเข้าชมแบบอินเทอร์แอกทีฟโดยรวมก็ตาม ขีดจำกัดอัตราเริ่มต้นสำหรับการอนุมานตามลำดับความสำคัญคือขีดจำกัดอัตรามาตรฐาน 0.3 เท่าสำหรับโมเดล / ระดับ

ตรรกะการดาวน์เกรดอย่างค่อยเป็นค่อยไป

หากคำขอเกินขีดจำกัดของลำดับความสำคัญเนื่องจากมีการใช้งานหนาแน่น ระบบจะลดระดับคำขอที่เกินมาเป็นระดับมาตรฐานโดยอัตโนมัติและราบรื่นแทนที่จะแสดงข้อผิดพลาด 503 หรือ 429 ระบบจะเรียกเก็บเงินสำหรับคำขอที่ลดระดับในอัตรามาตรฐาน ไม่ใช่ในอัตราพรีเมียมแบบมีลำดับความสำคัญ

ความรับผิดชอบของลูกค้า

การตรวจสอบการตอบกลับ: นักพัฒนาซอฟต์แวร์ควรตรวจสอบx-gemini-service-tierส่วนหัวstandardในการตอบกลับ API เพื่อตรวจหาว่ามีการลดระดับคำขอเป็น standardบ่อยหรือไม่
การลองใหม่: ไคลเอ็นต์ต้องใช้ตรรกะการลองใหม่/Exponential Backoff สำหรับ ข้อผิดพลาดมาตรฐาน เช่น DEADLINE_EXCEEDED

ราคา

การอนุมานที่มีลำดับความสำคัญมีราคาแพงกว่า API มาตรฐาน 75-100% และจะเรียกเก็บเงินต่อโทเค็น

โมเดลที่รองรับ

โมเดลต่อไปนี้รองรับการอนุมานที่มีลำดับความสำคัญ

รุ่น	การอนุมานตามลำดับความสำคัญ
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
ตัวอย่าง Gemini 3.1 Pro	✔️
ตัวอย่าง Gemini 3 Flash	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

ขั้นตอนถัดไป

การอนุมานแบบยืดหยุ่นเพื่อลดต้นทุน
โทเค็น: ทำความเข้าใจโทเค็น