Përfundimi i përparësisë

API-ja Gemini Priority është një nivel inference premium i projektuar për ngarkesa pune kritike për biznesin që kërkojnë vonesë më të ulët dhe besueshmëri më të lartë në një çmim premium. Trafiku i nivelit prioritar ka përparësi mbi trafikun e API-t standard dhe atij Flex.

Përfundimi i përparësisë është i disponueshëm në të gjitha pikat fundore të Interactions API.

Si të përdorni Prioritetin

Për të përdorur nivelin Priority (Priority level), caktoni fushën service_tier në kërkesën tuaj në priority (priority). Niveli i parazgjedhur është standard nëse fusha lihet jashtë.

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          serviceTier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

PUSHTIM

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Si funksionon përfundimi i përparësisë

Përfundimi i përparësisë i drejton kërkesat në radhë llogaritëse me kritikë të lartë, duke ofruar performancë të parashikueshme dhe të shpejtë për aplikacionet që përballen me përdoruesin. Mekanizmi i tij kryesor është një ulje e hijshme nga ana e serverit në përpunim standard për trafikun që tejkalon kufijtë dinamikë, duke siguruar stabilitetin e aplikacionit në vend që të dështojë kërkesa.

Karakteristikë Prioritet Standard Përkul Grumbull
Çmimet 75-100% më shumë se Standardi Çmimi i plotë 50% zbritje 50% zbritje
Latencia Sekonda Sekonda në minuta Minuta (objektivi 1–15 minuta) Deri në 24 orë
Besueshmëria I lartë (i pathyeshëm) I lartë / Mesatar-i lartë Përpjekja më e mirë (e shpërndarshme) I lartë (për rendiment)
Ndërfaqja Sinkron Sinkron Sinkron Asinkron

Përfitimet kryesore

  • Latenci e ulët : I projektuar për kohë të dyta përgjigjeje për mjete IA interaktive, të fokusuara te përdoruesi.
  • Besueshmëri e lartë : Trafiku trajtohet me kritikalitetin më të lartë dhe është rreptësisht i pandashëm nga njëri-tjetri.
  • Degradim i hijshëm : Rritja e trafikut që tejkalon kufijtë dinamikë degradohet automatikisht në nivelin Standard për përpunim në vend që të dështojë, duke parandaluar ndërprerjet e shërbimit.
  • Fërkim i ulët : Përdor të njëjtën metodë create sinkron si nivelet standarde dhe Flex.

Rastet e përdorimit

Përpunimi me përparësi është ideal për rrjedhat e punës kritike për biznesin, ku performanca dhe besueshmëria janë parësore.

  • Aplikacione interaktive të IA-së : Chatbot-e dhe bashkëpilotë të shërbimit ndaj klientit ku përdoruesit paguajnë një çmim më të lartë dhe presin përgjigje të shpejta dhe të qëndrueshme.
  • Motorë vendimmarrjeje në kohë reale : Sisteme që kërkojnë rezultate shumë të besueshme dhe me latencë të ulët, të tilla si triagimi i biletave të drejtpërdrejta ose zbulimi i mashtrimeve.
  • Karakteristikat premium të klientit : Zhvilluesit që duhet të garantojnë objektiva më të larta të nivelit të shërbimit (SLO) për klientët që paguajnë.

Limitet e tarifave

Konsumi prioritar mban kufijtë e vet të normës edhe pse konsumi llogaritet në kufijtë e përgjithshëm të normës së trafikut interaktiv . Kufijtë e normës së parazgjedhur për nxjerrjen e Prioritetit janë 0.3x kufiri standard i normës për Modelin / Nivelin.

Logjikë e këndshme e uljes së nivelit

Nëse limitet e Prioritetit tejkalohen për shkak të mbingarkesës, kërkesat e tejmbushjes automatikisht dhe me elegancë degradohen në përpunim standard në vend që të dështojnë me një gabim 503 ose 429. Kërkesat e ulura faturohen me tarifën standarde, jo me tarifën premium të Prioritetit.

Përgjegjësia e klientit

  • Monitorimi i përgjigjes : Zhvilluesit duhet të monitorojnë kokën x-gemini-service-tier në përgjigjen e API-t për të zbuluar nëse kërkesat po ulen shpesh në standard .
  • Ripërpjekjet : Klientët duhet të zbatojnë logjikën e ripërpjekjes/mbrapsjen eksponenciale për gabimet standarde, siç është DEADLINE_EXCEEDED .

Çmimet

Përfundimi i përparësisë ka një çmim 75-100% më të lartë se API-ja standarde dhe faturohet për token.

Modelet e mbështetura

Modelet e mëposhtme mbështesin përfundimin e përparësisë:

Model Përfundimi i përparësisë
Gemini 3.1 Flash-Lite ✔️
Pamje paraprake e Gemini 3.1 Flash-Lite ✔️
Pamje paraprake e Gemini 3.1 Pro ✔️
Pamje paraprake e shpejtë e Gemini 3 ✔️
Gemini 2.5 Pro ✔️
Binjakët 2.5 Flash ✔️
Gemini 2.5 Flash-Lite ✔️

Çfarë vjen më pas