Gemini Deep Research พร้อมให้บริการในเวอร์ชันพรีวิวแล้วตอนนี้ โดยมีฟีเจอร์การวางแผนร่วมกัน การแสดงภาพข้อมูล การรองรับ MCP และอื่นๆ

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

การอนุมานแบบลำดับความสำคัญ

หมายเหตุ: หน้านี้ครอบคลุม Interactions API ใหม่ ซึ่งปัจจุบันอยู่ในเวอร์ชันเบต้า
สำหรับการติดตั้งใช้งานจริงที่เสถียร เราขอแนะนำให้คุณใช้ generateContent API ต่อไป คุณสามารถใช้ปุ่มเปิด/ปิดในหน้านี้เพื่อสลับระหว่างเวอร์ชันต่างๆ ได้

Gemini Priority API เป็นระดับการอนุมานแบบพรีเมียมที่ออกแบบมาสำหรับภาระงานที่สำคัญต่อธุรกิจ ซึ่งต้องใช้เวลาในการตอบสนองที่ต่ำกว่าและความน่าเชื่อถือสูงสุดในราคาพรีเมียม ระบบจะให้ความสำคัญกับการเข้าชมระดับพรีเมียมเหนือการเข้าชม API มาตรฐานและการเข้าชมระดับ Flex

การอนุมานแบบลำดับความสำคัญพร้อมให้บริการในปลายทาง Interactions API

วิธีใช้รายการสำคัญ

หากต้องการใช้ระดับ Priority ให้ตั้งค่าฟิลด์ service_tier ในคำขอเป็น priority ระดับเริ่มต้นคือระดับมาตรฐานหากละเว้นฟิลด์นี้

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3.5-flash",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    print(interaction.output_text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      console.log(interaction.output_text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

วิธีการทำงานของการอนุมานแบบลำดับความสำคัญ

การอนุมานแบบลำดับความสำคัญจะกำหนดเส้นทางคำขอไปยังคิวการประมวลผลที่มีความสำคัญสูง ซึ่งให้ประสิทธิภาพที่รวดเร็วและคาดการณ์ได้สำหรับแอปพลิเคชันที่ผู้ใช้ใช้งาน กลไกหลักคือการลดระดับฝั่งเซิร์ฟเวอร์อย่างค่อยเป็นค่อยไปเป็นการประมวลผลมาตรฐานสำหรับการเข้าชมที่เกินขีดจำกัดแบบไดนามิก ซึ่งช่วยให้แอปพลิเคชันมีความเสถียรแทนที่จะทำให้คำขอไม่สำเร็จ

ฟีเจอร์	รายการสำคัญ	ระดับมาตรฐาน	ระดับ Flex	ระดับกลุ่ม
การกำหนดราคา	มากกว่าระดับมาตรฐาน 75-100%	ราคาเต็ม	ส่วนลด 50%	ส่วนลด 50%
เวลาในการตอบสนอง	วินาที	วินาทีถึงนาที	นาที (เป้าหมาย 1-15 นาที)	สูงสุด 24 ชั่วโมง
ความน่าเชื่อถือ	สูง (ไม่สามารถลดระดับได้)	สูง / สูงปานกลาง	อย่างเต็มที่ (สามารถลดระดับได้)	สูง (สำหรับปริมาณงาน)
อินเทอร์เฟซ	แบบซิงโครนัส	แบบซิงโครนัส	แบบซิงโครนัส	แบบอะซิงโครนัส

สิทธิประโยชน์ที่สำคัญ

เวลาในการตอบสนองต่ำ: ออกแบบมาให้ใช้เวลาตอบสนองเป็นวินาทีสำหรับเครื่องมือ AI แบบอินเทอร์แอกทีฟที่ ผู้ใช้ใช้งาน
ความน่าเชื่อถือสูง: ระบบจะถือว่าการเข้าชมมีความสำคัญสูงสุดและไม่สามารถลดระดับได้
การลดระดับอย่างค่อยเป็นค่อยไป: ระบบจะลดระดับการเข้าชมที่เพิ่มขึ้นซึ่งเกินขีดจำกัดแบบไดนามิกเป็นระดับมาตรฐานโดยอัตโนมัติเพื่อทำการประมวลผลแทนที่จะทำให้คำขอไม่สำเร็จ ซึ่งจะช่วยป้องกันการหยุดทำงานของบริการ
ความซับซ้อนต่ำ: ใช้เมธอดแบบซิงโครนัส create เดียวกับระดับ มาตรฐานและระดับ Flex

กรณีการใช้งาน

การประมวลผลแบบลำดับความสำคัญเหมาะอย่างยิ่งสำหรับเวิร์กโฟลว์ที่สำคัญต่อธุรกิจ ซึ่งประสิทธิภาพและความน่าเชื่อถือมีความสำคัญสูงสุด

แอปพลิเคชัน AI แบบอินเทอร์แอกทีฟ: แชทบ็อตและผู้ช่วยเสมือนสำหรับฝ่ายบริการลูกค้าที่ ผู้ใช้จ่ายเงินในราคาพรีเมียมและคาดหวังการตอบสนองที่รวดเร็วและสม่ำเสมอ
กลไกการตัดสินใจแบบเรียลไทม์: ระบบที่ต้องใช้ผลลัพธ์ที่มีความน่าเชื่อถือสูงและเวลาในการตอบสนองต่ำ เช่น การจัดลำดับความสำคัญของตั๋วแบบเรียลไทม์หรือการตรวจจับการฉ้อโกง
ฟีเจอร์สำหรับลูกค้าพรีเมียม: นักพัฒนาแอปที่ต้องรับประกันวัตถุประสงค์ระดับการให้บริการ ที่สูงขึ้นสำหรับลูกค้าที่ชำระเงิน

ขีดจำกัดอัตรา

การใช้งานระดับพรีเมียมจะมีขีดจำกัดอัตราของตัวเอง แม้ว่าระบบจะนับการใช้งานรวมกับ ขีดจำกัดอัตราการเข้าชมแบบอินเทอร์แอกทีฟโดยรวมก็ตาม ขีดจำกัดอัตราเริ่มต้นสำหรับการอนุมานแบบลำดับความสำคัญคือ 0.3 เท่าของขีดจำกัดอัตรามาตรฐานสำหรับโมเดล / ระดับ

ตรรกะการลดระดับอย่างค่อยเป็นค่อยไป

หากมีการใช้งานเกินขีดจำกัดระดับ Priority เนื่องจากความหนาแน่น ระบบจะ ลดระดับ คำขอที่ล้นออกมาเป็นการประมวลผลระดับ Standard แทนที่จะ ทำให้คำขอไม่สำเร็จด้วยข้อผิดพลาด 503 หรือ 429 ระบบจะเรียกเก็บเงินคำขอที่ลดระดับในอัตรามาตรฐาน ไม่ใช่อัตราพรีเมียมของระดับพรีเมียม

ความรับผิดชอบของไคลเอ็นต์

การตรวจสอบการตอบสนอง: นักพัฒนาแอปควรตรวจสอบx-gemini-service-tier ส่วนหัวในการตอบสนองของ API เพื่อตรวจหาว่าระบบลดระดับคำขอเป็น standardบ่อยหรือไม่
การลองใหม่: ไคลเอ็นต์ต้องใช้ตรรกะการลองใหม่/Exponential Backoff สำหรับ ข้อผิดพลาดมาตรฐาน เช่น DEADLINE_EXCEEDED

การกำหนดราคา

การอนุมานแบบลำดับความสำคัญมีราคาสูงกว่า API มาตรฐาน 75-100% และเรียกเก็บเงินต่อโทเค็น

โมเดลที่รองรับ

โมเดลต่อไปนี้รองรับการอนุมานแบบลำดับความสำคัญ

โมเดล	การอนุมานแบบลำดับความสำคัญ
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Flash-Lite (เวอร์ชันตัวอย่าง)	✔️
Gemini 3.1 Pro (เวอร์ชันตัวอย่าง)	✔️
Gemini 3 Flash (เวอร์ชันตัวอย่าง)	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

ขั้นตอนถัดไป

การอนุมานแบบ Flex เพื่อลดต้นทุน
โทเค็น: ทำความเข้าใจโทเค็น