Interactions API kini tersedia secara umum. Sebaiknya gunakan API ini untuk mengakses semua fitur dan model terbaru.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Inferensi fleksibel

Gemini Flex API adalah tingkat inferensi yang menawarkan pengurangan biaya sebesar 50% dibandingkan dengan tarif standar, sebagai imbalan atas latensi variabel dan ketersediaan upaya terbaik. API ini dirancang untuk beban kerja yang toleran terhadap latensi yang memerlukan pemrosesan sinkron, tetapi tidak memerlukan performa real-time dari API standar.

Cara menggunakan Flex

Untuk menggunakan tingkat Flex, tentukan service_tier sebagai flex dalam permintaan Anda. Secara default, permintaan menggunakan tingkat standar jika kolom ini tidak diisi.

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Analyze this dataset for trends...",
    service_tier='flex'
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const client = new GoogleGenAI({});

async function main() {
    const interaction = await client.interactions.create({
        model: 'gemini-3.5-flash',
        input: 'Analyze this dataset for trends...',
        service_tier: 'flex'
    });
    console.log(interaction.output_text);
}
await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
      "model": "gemini-3.5-flash",
      "input": "Analyze this dataset for trends...",
      "service_tier": "flex"
  }'

Cara kerja inferensi Flex

Inferensi Gemini Flex menjembatani kesenjangan antara API standar dan penyelesaian dalam waktu 24 jam dari Batch API. Layanan ini memanfaatkan kapasitas komputasi di luar jam sibuk yang dapat dihentikan untuk memberikan solusi hemat biaya bagi tugas latar belakang dan alur kerja berurutan.

Fitur	Lipat	Prioritas	Standar	Batch
Harga	Diskon 50%	75-100% lebih banyak daripada Standard	Harga penuh	Diskon 50%
Latensi	Menit (target 1–15 menit)	Rendah (Detik)	Detik ke menit	Hingga 24 jam
Keandalan	Upaya terbaik (Dapat Dihapus)	Tinggi (Tidak rontok)	Tinggi / Sedang-tinggi	Tinggi (untuk throughput)
Antarmuka	Sinkron	Sinkron	Sinkron	Asinkron

Manfaat utama

Efisiensi biaya: Penghematan yang signifikan untuk evaluasi non-produksi, agen latar belakang, dan pengayaan data.
Gesekan rendah: Cukup tambahkan satu parameter ke permintaan yang ada.
Alur kerja sinkron: Ideal untuk rangkaian API berurutan di mana permintaan berikutnya bergantung pada output permintaan sebelumnya, sehingga lebih fleksibel daripada Batch untuk alur kerja agentik.

Kasus penggunaan

Evaluasi offline: Menjalankan pengujian regresi atau papan peringkat "LLM sebagai juri".
Agen latar belakang: Tugas berurutan seperti pembaruan CRM, pembuatan profil, atau moderasi konten yang dapat ditunda beberapa menit.
Riset dengan anggaran terbatas: Eksperimen akademis yang memerlukan volume token tinggi dengan anggaran terbatas.

Batas kapasitas

Traffic inferensi fleksibel dihitung dalam batas kapasitas umum Anda; tidak menawarkan batas kapasitas yang diperluas seperti Batch API.

Kapasitas yang dapat dilepaskan

Traffic fleksibel diperlakukan dengan prioritas yang lebih rendah. Jika terjadi lonjakan traffic standar, permintaan Fleksibel dapat didahulukan atau dikeluarkan untuk memastikan kapasitas bagi pengguna prioritas tinggi. Jika Anda mencari inferensi prioritas tinggi, lihat Inferensi prioritas

Kode error

Jika kapasitas Flex tidak tersedia atau sistem mengalami kemacetan, API akan menampilkan kode error standar:

503 Layanan Tidak Tersedia: Saat ini, sistem telah mencapai batas kapasitas.
429 Too Many Requests: Batas kecepatan atau kehabisan resource.

Tanggung jawab klien

Tidak ada penggantian sisi server: Untuk mencegah tagihan yang tidak terduga, sistem tidak akan otomatis mengupgrade permintaan Flex ke tingkat Standar jika kapasitas Flex penuh.
Percobaan ulang: Anda harus menerapkan logika percobaan ulang sisi klien sendiri dengan backoff eksponensial.
Waktu tunggu: Karena permintaan Flex mungkin berada dalam antrean, sebaiknya tambah waktu tunggu sisi klien menjadi 10 menit atau lebih untuk menghindari penutupan koneksi sebelum waktunya.

Menyesuaikan periode tunggu

Anda dapat mengonfigurasi waktu tunggu per permintaan untuk REST API dan library klien. Selalu pastikan waktu tunggu sisi klien Anda mencakup periode waktu tunggu server yang diinginkan (misalnya, 600 detik+ untuk antrean tunggu Flex). SDK mengharapkan nilai waktu tunggu dalam milidetik.

Waktu tunggu per permintaan

Python

from google import genai

client = genai.Client(http_options={"timeout": 900000})

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="why is the sky blue?",
    service_tier="flex",
)

JavaScript

import { GoogleGenAI } from '@google/genai';

const client = new GoogleGenAI({});

async function main() {
    const interaction = await client.interactions.create({
        model: "gemini-3.5-flash",
        input: "why is the sky blue?",
        service_tier: "flex",
    }, {timeout: 900000});
}

await main();

Menerapkan percobaan ulang

Karena Flex dapat dilepas dan gagal dengan error 503, berikut contoh penerapan logika percobaan ulang secara opsional untuk melanjutkan permintaan yang gagal:

Python

import time
from google import genai

client = genai.Client()

def call_with_retry(max_retries=3, base_delay=5):
    for attempt in range(max_retries):
        try:
            return client.interactions.create(
                model="gemini-3.5-flash",
                input="Analyze this batch statement.",
                service_tier="flex",
            )
        except Exception as e:
            if attempt < max_retries - 1:
                delay = base_delay * (2 ** attempt) # Exponential Backoff
                print(f"Flex busy, retrying in {delay}s...")
                time.sleep(delay)
            else:
                print("Flex exhausted, falling back to Standard...")
                return client.interactions.create(
                    model="gemini-3.5-flash",
                    input="Analyze this batch statement."
                )

interaction = call_with_retry()
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function sleep(ms) {
  return new Promise(resolve => setTimeout(resolve, ms));
}

async function callWithRetry(maxRetries = 3, baseDelay = 5) {
  for (let attempt = 0; attempt < maxRetries; attempt++) {
    try {
      console.log(`Attempt ${attempt + 1}: Calling Flex tier...`);
      const interaction = await ai.interactions.create({
        model: "gemini-3.5-flash",
        input: "Analyze this batch statement.",
        service_tier: 'flex',
      });
      return interaction;
    } catch (e) {
      if (attempt < maxRetries - 1) {
        const delay = baseDelay * (2 ** attempt);
        console.log(`Flex busy, retrying in ${delay}s...`);
        await sleep(delay * 1000);
      } else {
        console.log("Flex exhausted, falling back to Standard...");
        return await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Analyze this batch statement.",
        });
      }
    }
  }
}

async function main() {
    const interaction = await callWithRetry();
    console.log(interaction.output_text);
}

await main();

Harga

Inferensi fleksibel dihargai 50% dari API standar dan ditagih per token.

Model yang didukung

Model berikut mendukung inferensi Flex:

Model	Inferensi fleksibel
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Pratinjau Gemini 3.1 Pro	✔️
Pratinjau Gemini 3 Flash	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

Langkah berikutnya

Inferensi prioritas untuk latensi ultra-rendah.
Token: Pahami token.