Përfundimi i përparësisë

API-ja Gemini Priority është një nivel inference premium i projektuar për ngarkesa pune kritike për biznesin që kërkojnë vonesë më të ulët dhe besueshmëri më të lartë në një çmim premium. Trafiku i nivelit prioritar ka përparësi mbi trafikun e API-t standard dhe atij Flex.

Përfundimi i përparësisë është i disponueshëm për përdoruesit e Nivelit 2 dhe Nivelit 3 në të gjitha pikat fundore të GenerateContent API dhe Interactions API.

Si të përdorni Prioritetin

Për të përdorur nivelin e përparësisë, caktoni fushën service_tier në trupin e kërkesës në priority . Niveli i parazgjedhur është standard nëse fusha lihet jashtë.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={'service_tier': 'priority'},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Shko

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

PUSHTIM

curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "serviceTier": "PRIORITY"
}'

Si funksionon përfundimi i përparësisë

Përfundimi i përparësisë i drejton kërkesat në radhë llogaritëse me kritikë të lartë, duke ofruar performancë të parashikueshme dhe të shpejtë për aplikacionet që përballen me përdoruesin. Mekanizmi i tij kryesor është një ulje e hijshme nga ana e serverit në përpunim standard për trafikun që tejkalon kufijtë dinamikë, duke siguruar stabilitetin e aplikacionit në vend që të dështojë kërkesa.

Karakteristikë Prioritet Standard Përkul Grumbull
Çmimet 75-100% më shumë se Standardi Çmimi i plotë 50% zbritje 50% zbritje
Latencia I ulët (Sekonda) Sekonda në minuta Minuta (objektivi 1–15 minuta) Deri në 24 orë
Besueshmëria I lartë (nuk mund të ndahet) I lartë / Mesatar-i lartë Përpjekja më e mirë (e shpërndarshme) I lartë (për rendiment)
Ndërfaqja Sinkron Sinkron Sinkron Asinkron

Përfitimet kryesore

  • Latenci e ulët : I projektuar për kohë reagimi ms-sekondë për mjete interaktive të inteligjencës artificiale që drejtohen nga përdoruesi.
  • Besueshmëri e lartë : Trafiku trajtohet me kritikalitetin më të lartë dhe është rreptësisht i pandashëm nga njëri-tjetri.
  • Degradim i hijshëm : Rritja e trafikut që tejkalon kufijtë dinamikë degradohet automatikisht në nivelin Standard për përpunim në vend që të dështojë, duke parandaluar ndërprerjet e shërbimit.
  • Fërkim i ulët : Përdor të njëjtën metodë sinkrone generateContent si nivelet standarde dhe Flex.

Rastet e përdorimit

Përpunimi me përparësi është ideal për rrjedhat e punës kritike për biznesin, ku performanca dhe besueshmëria janë parësore.

  • Aplikacione interaktive të IA-së : Chatbot-e dhe bashkëpilotë të shërbimit ndaj klientit ku përdoruesit paguajnë një çmim më të lartë dhe presin përgjigje të shpejta dhe të qëndrueshme.
  • Motorë vendimmarrjeje në kohë reale : Sisteme që kërkojnë rezultate shumë të besueshme dhe me latencë të ulët, të tilla si triagimi i biletave të drejtpërdrejta ose zbulimi i mashtrimeve.
  • Karakteristikat premium të klientit : Zhvilluesit që duhet të garantojnë objektiva më të larta të nivelit të shërbimit (SLO) për klientët që paguajnë.

Limitet e tarifave

Konsumi prioritar mban kufijtë e vet të normës edhe pse konsumi llogaritet në kufijtë e përgjithshëm të normës së trafikut interaktiv . Kufijtë e normës së parazgjedhur për nxjerrjen e Prioritetit janë 0.3x kufiri standard i normës për Modelin / Nivelin.

Logjikë e këndshme e uljes së nivelit

Nëse limitet e Prioritetit tejkalohen për shkak të mbingarkesës, kërkesat e tejmbushjes automatikisht dhe me elegancë degradohen në përpunim standard në vend që të dështojnë me një gabim 503 ose 429. Kërkesat e ulura faturohen me tarifën standarde, jo me tarifën premium të Prioritetit.

Përgjegjësia e klientit

  • Monitorimi i përgjigjes : Zhvilluesit duhet të monitorojnë vlerën service_tier në trupin e përgjigjes së API-t për të zbuluar nëse kërkesat po ulen shpesh në standard .
  • Ripërpjekjet : Klientët duhet të zbatojnë logjikën e ripërpjekjes/mbrapsjen eksponenciale për gabimet standarde, siç është DEADLINE_EXCEEDED .

Çmimet

Përfundimi i përparësisë ka një çmim 75-100% më të lartë se API-ja standarde dhe faturohet për token.

Modelet e mbështetura

Modelet e mëposhtme mbështesin përfundimin e përparësisë:

Model Përfundimi i përparësisë
Pamje paraprake e Gemini 3.1 Flash-Lite ✔️
Pamje paraprake e Gemini 3.1 Pro ✔️
Pamje paraprake e shpejtë e Gemini 3 ✔️
Pamje paraprake e imazhit të Gemini 3 Pro ✔️
Gemini 2.5 Pro ✔️
Binjakët 2.5 Flash ✔️
Imazh Flash i Gemini 2.5 ✔️
Gemini 2.5 Flash-Lite ✔️

Çfarë vjen më pas

Lexoni rreth opsioneve të tjera të përfundimit dhe optimizimit të Gemini: