API-ja e Ndërveprimeve tani është përgjithësisht e disponueshme. Ne rekomandojmë përdorimin e kësaj API-je për qasje në të gjitha veçoritë dhe modelet më të fundit.

Kjo faqe është përkthyer nga Cloud Translation API.

Përfundim fleksibël

API-ja Gemini Flex është një nivel nxjerrjeje përfundimesh që ofron një ulje të kostos prej 50% krahasuar me tarifat standarde, në këmbim të latencës së ndryshueshme dhe disponueshmërisë së përpjekjes më të mirë. Është projektuar për ngarkesa pune tolerante ndaj latencës që kërkojnë përpunim sinkron, por nuk kanë nevojë për performancën në kohë reale të API-së standarde.

Si të përdorni Flex

Për të përdorur nivelin Flex, specifikoni service_tier si flex në kërkesën tuaj. Si parazgjedhje, kërkesat përdorin nivelin standard nëse kjo fushë lihet jashtë.

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Analyze this dataset for trends...",
    service_tier='flex'
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const client = new GoogleGenAI({});

async function main() {
    const interaction = await client.interactions.create({
        model: 'gemini-3.5-flash',
        input: 'Analyze this dataset for trends...',
        service_tier: 'flex'
    });
    console.log(interaction.output_text);
}
await main();

PUSHTIM

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
      "model": "gemini-3.5-flash",
      "input": "Analyze this dataset for trends...",
      "service_tier": "flex"
  }'

Si funksionon përfundimi fleksibël

Inferenca Gemini Flex mbush hendekun midis API-t standard dhe përpunimin brenda 24 orëve të API-t Batch . Ai përdor kapacitetin llogaritës jashtë orarit të pikut, "të shpërdorueshëm", për të ofruar një zgjidhje me kosto efektive për detyrat në sfond dhe rrjedhat e punës sekuenciale.

Karakteristikë	Përkul	Prioritet	Standard	Grumbull
Çmimet	50% zbritje	75-100% më shumë se Standardi	Çmimi i plotë	50% zbritje
Latencia	Minuta (objektivi 1–15 minuta)	I ulët (Sekonda)	Sekonda në minuta	Deri në 24 orë
Besueshmëria	Përpjekja më e mirë (e shpërndarshme)	I lartë (i pathyeshëm)	I lartë / Mesatar-i lartë	I lartë (për rendiment)
Ndërfaqja	Sinkron	Sinkron	Sinkron	Asinkron

Përfitimet kryesore

Efikasitet kostoje : Kursime të konsiderueshme për vlerësime jo-prodhuese, agjentë sfondi dhe pasurim të të dhënave.
Fërkim i ulët : Thjesht shtoni një parametër të vetëm në kërkesat tuaja ekzistuese.
Rrjedhat e punës sinkrone : Ideale për zinxhirët API të njëpasnjëshëm ku kërkesa tjetër varet nga rezultati i asaj të mëparshmes, duke e bërë atë më fleksibël sesa Batch për rrjedhat e punës agjentike.

Rastet e përdorimit

Vlerësime jashtë linje : Ekzekutimi i testeve të regresionit ose tabelave të renditjes "LLM-as-a-judge".
Agjentë në sfond : Detyra të njëpasnjëshme si përditësimet e CRM-së, ndërtimi i profileve ose moderimi i përmbajtjes ku minutat e vonesës janë të pranueshme.
Hulumtim me buxhet të kufizuar : Eksperimente akademike që kërkojnë vëllim të lartë tokenësh me një buxhet të kufizuar.

Limitet e tarifave

Trafiku i përfundimit fleksibël llogaritet në kufijtë tuaj të përgjithshëm të normës ; ai nuk ofron kufij të zgjatur të normës si Batch API .

Kapacitet i shpërdorueshëm

Trafiku fleksibël trajtohet me përparësi më të ulët. Nëse ka një rritje të trafikut standard, kërkesat fleksibël mund të parandalohen ose të nxirren jashtë funksionit për të siguruar kapacitetin për përdoruesit me përparësi të lartë. Nëse po kërkoni përfundim me përparësi të lartë, kontrolloni përfundimin e përparësisë.

Kodet e gabimit

Kur kapaciteti Flex nuk është i disponueshëm ose sistemi është i mbingarkuar, API do të kthejë kodet standarde të gabimit:

Shërbimi 503 i Padisponueshëm : Sistemi është aktualisht i mbingarkuar.
429 Shumë kërkesa : Kufizime shpejtësie ose shterim i burimeve.

Përgjegjësia e klientit

Pa mundësi rezervë nga ana e serverit : Për të parandaluar tarifa të papritura, sistemi nuk do ta përditësojë automatikisht një kërkesë Flex në nivelin Standard nëse kapaciteti Flex është i plotë.
Ripërpjekjet : Duhet të implementoni logjikën tuaj të ripërpjekjes në anën e klientit me tërheqje eksponenciale.
Afatet e pritjes : Meqenëse kërkesat Flex mund të qëndrojnë në radhë, ne rekomandojmë rritjen e afateve të pritjes në anën e klientit në 10 minuta ose më shumë për të shmangur mbylljen e parakohshme të lidhjes.

Rregullo dritaret e kohës së skadimit

Mund të konfiguroni kohëzgjatje për kërkesë për API-n REST dhe libraritë e klientit. Sigurohuni gjithmonë që kohëzgjatja e pritjes në anën e klientit të mbulojë dritaren e synuar të durimit të serverit (p.sh., 600 sekonda+ për radhë pritjeje fleksibël). SDK-të presin vlera të kohëzgjatjes në milisekonda.

Afatet kohore për kërkesë

Python

from google import genai

client = genai.Client(http_options={"timeout": 900000})

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="why is the sky blue?",
    service_tier="flex",
)

JavaScript

import { GoogleGenAI } from '@google/genai';

const client = new GoogleGenAI({});

async function main() {
    const interaction = await client.interactions.create({
        model: "gemini-3.5-flash",
        input: "why is the sky blue?",
        service_tier: "flex",
    }, {timeout: 900000});
}

await main();

Zbatoni ripërpjekjet

Meqenëse Flex është i shpërdorueshëm dhe dështon me gabime 503, ja një shembull i implementimit opsional të logjikës së riprovimit për të vazhduar me kërkesat e dështuara:

Python

import time
from google import genai

client = genai.Client()

def call_with_retry(max_retries=3, base_delay=5):
    for attempt in range(max_retries):
        try:
            return client.interactions.create(
                model="gemini-3.5-flash",
                input="Analyze this batch statement.",
                service_tier="flex",
            )
        except Exception as e:
            if attempt < max_retries - 1:
                delay = base_delay * (2 ** attempt) # Exponential Backoff
                print(f"Flex busy, retrying in {delay}s...")
                time.sleep(delay)
            else:
                print("Flex exhausted, falling back to Standard...")
                return client.interactions.create(
                    model="gemini-3.5-flash",
                    input="Analyze this batch statement."
                )

interaction = call_with_retry()
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function sleep(ms) {
  return new Promise(resolve => setTimeout(resolve, ms));
}

async function callWithRetry(maxRetries = 3, baseDelay = 5) {
  for (let attempt = 0; attempt < maxRetries; attempt++) {
    try {
      console.log(`Attempt ${attempt + 1}: Calling Flex tier...`);
      const interaction = await ai.interactions.create({
        model: "gemini-3.5-flash",
        input: "Analyze this batch statement.",
        service_tier: 'flex',
      });
      return interaction;
    } catch (e) {
      if (attempt < maxRetries - 1) {
        const delay = baseDelay * (2 ** attempt);
        console.log(`Flex busy, retrying in ${delay}s...`);
        await sleep(delay * 1000);
      } else {
        console.log("Flex exhausted, falling back to Standard...");
        return await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Analyze this batch statement.",
        });
      }
    }
  }
}

async function main() {
    const interaction = await callWithRetry();
    console.log(interaction.output_text);
}

await main();

Çmimet

Përfundimi Flex ka një çmim prej 50% të API-t standard dhe faturohet për token.

Modelet e mbështetura

Modelet e mëposhtme mbështesin përfundimin Flex:

Model	Përfundim fleksibël
Binjakët 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Pamje paraprake e Gemini 3.1 Pro	✔️
Pamje paraprake e shpejtë e Gemini 3	✔️
Gemini 2.5 Pro	✔️
Binjakët 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

Çfarë vjen më pas

Përfundimi i përparësisë për vonesën ultra të ulët.
Tokenat : Kuptoni tokenat.