أصبحت Interactions API متاحة الآن للجميع. ننصحك باستخدام واجهة برمجة التطبيقات هذه للوصول إلى جميع أحدث الميزات والنماذج.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

الاستنتاج المرن

‫Gemini Flex API هو مستوى استنتاج يتيح خفض التكلفة بنسبة% 50 مقارنةً بالأسعار العادية، مقابل وقت استجابة متغيّر وتوفّر بأفضل جهد ممكن. وهي مصمَّمة لأحمال العمل التي يمكنها تحمّل وقت الاستجابة وتتطلّب معالجة متزامنة، ولكنّها لا تحتاج إلى الأداء في الوقت الفعلي الذي توفّره واجهة برمجة التطبيقات العادية.

كيفية استخدام Flex

لاستخدام فئة Flex، حدِّد service_tier على أنّه flex في طلبك. تستخدم الطلبات تلقائيًا الفئة العادية في حال حذف هذا الحقل.

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Analyze this dataset for trends...",
    service_tier='flex'
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const client = new GoogleGenAI({});

async function main() {
    const interaction = await client.interactions.create({
        model: 'gemini-3.5-flash',
        input: 'Analyze this dataset for trends...',
        service_tier: 'flex'
    });
    console.log(interaction.output_text);
}
await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
      "model": "gemini-3.5-flash",
      "input": "Analyze this dataset for trends...",
      "service_tier": "flex"
  }'

طريقة عمل الاستدلال المرن

تساعد Gemini Flex Inference في سد الفجوة بين واجهة برمجة التطبيقات العادية ومدة التنفيذ البالغة 24 ساعة في Batch API. تستفيد هذه الخدمة من سعة الحوسبة "القابلة للتخفيض" في أوقات خارج الذروة لتوفير حلّ فعّال من حيث التكلفة للمهام التي تعمل في الخلفية وسير العمل التسلسلي.

الميزة	التعبير	الأولوية	خطة "الرزمة العادية"	مجمّعة
الأسعار	خصم بنسبة% 50	أكثر من خطة Standard بنسبة تتراوح بين %75 و%100	السعر الكامل	خصم بنسبة% 50
وقت الاستجابة	دقائق (المدة المستهدَفة من دقيقة واحدة إلى 15 دقيقة)	منخفض (ثوانٍ)	من ثوانٍ إلى دقائق	ما يصل إلى 24 ساعة
الموثوقية	أفضل جهد (يمكن إيقافه)	عالية (غير قابلة للإزالة)	مرتفعة / مرتفعة إلى حدّ ما	عالية (لمعدّل نقل البيانات)
الواجهة	متزامن	متزامن	متزامن	غير متزامن

المزايا الرئيسية

فعالية التكلفة: تحقيق وفورات كبيرة في التكاليف عند إجراء عمليات التقييم غير الإنتاجية، واستخدام البرامج في الخلفية، وإثراء البيانات
سهولة الاستخدام: ما عليك سوى إضافة مَعلمة واحدة إلى طلباتك الحالية.
نماذج سير العمل المتزامنة: هي الأنسب لسلاسل واجهات برمجة التطبيقات المتسلسلة التي يعتمد فيها الطلب التالي على ناتج الطلب السابق، ما يجعلها أكثر مرونة من "المعالجة المجمّعة" لنماذج سير العمل المستندة إلى الوكيل.

حالات الاستخدام

التقييمات بلا إنترنت: إجراء اختبارات الانحدار أو قوائم الصدارة باستخدام "نماذج اللغة الكبيرة كحكم"
الوكلاء الذين يعملون في الخلفية: المهام المتسلسلة، مثل تعديلات نظام إدارة علاقات العملاء أو إنشاء الملفات الشخصية أو الإشراف على المحتوى، حيث يكون التأخير لبضع دقائق مقبولاً.
البحث المقيّد بالميزانية: تجارب أكاديمية تتطلّب عددًا كبيرًا من الرموز المميزة بميزانية محدودة.

حدود معدّل الاستخدام

يتم احتساب عدد الزيارات الناتجة عن استنتاج Flex ضمن حدود المعدّل العامة، ولا يوفّر حدود معدّل موسّعة مثل Batch API.

السعة القابلة للخفض

يتم التعامل مع الزيارات المرنة بأولوية أقل. في حال حدوث ارتفاع مفاجئ في عدد الزيارات العادية، قد يتم إيقاف طلبات Flex أو إزالتها لضمان توفّر سعة للمستخدمين ذوي الأولوية العالية. إذا كنت تبحث عن استنتاج ذي أولوية عالية، يمكنك الاطّلاع على الاستنتاج ذو الأولوية.

رموز الخطأ

عندما تكون السعة المرنة غير متاحة أو يكون النظام مزدحمًا، ستعرض واجهة برمجة التطبيقات رموز الخطأ العادية التالية:

‫503 الخدمة غير متاحة: يتلقّى النظام عدد طلبات كبير جدًا في الوقت الحالي.
429 Too Many Requests: تجاوز حدود المعدّل أو استنفاد الموارد

مسؤولية العميل

عدم توفّر خيار احتياطي من جهة الخادم: لمنع فرض رسوم غير متوقّعة، لن يرقّي النظام تلقائيًا طلبًا من فئة Flex إلى فئة Standard إذا كانت سعة فئة Flex ممتلئة.
عمليات إعادة المحاولة: يجب تنفيذ منطق إعادة المحاولة من جهة العميل باستخدام خوارزمية الرقود الأسي الثنائي.
مهلات: بما أنّ طلبات Flex قد تبقى في قائمة الانتظار، ننصحك بزيادة مهلات الجهة المضيفة إلى 10 دقائق أو أكثر لتجنُّب إغلاق الاتصال قبل الأوان.

تعديل فترات المهلة

يمكنك ضبط مهلات لكل طلب في واجهة REST API ومكتبات العميل. احرص دائمًا على أن يغطي المهلة الزمنية من جهة العميل فترة انتظار الخادم المقصودة (على سبيل المثال، 600 ثانية أو أكثر لقوائم انتظار Flex). تتوقّع حِزم SDK قيم المهلة بالملي ثانية.

انتهاء المهلة لكل طلب

Python

from google import genai

client = genai.Client(http_options={"timeout": 900000})

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="why is the sky blue?",
    service_tier="flex",
)

JavaScript

import { GoogleGenAI } from '@google/genai';

const client = new GoogleGenAI({});

async function main() {
    const interaction = await client.interactions.create({
        model: "gemini-3.5-flash",
        input: "why is the sky blue?",
        service_tier: "flex",
    }, {timeout: 900000});
}

await main();

تنفيذ عمليات إعادة المحاولة

بما أنّ Flex يمكن إيقافه مؤقتًا ويتعذّر تنفيذه بسبب أخطاء 503، إليك مثال على التنفيذ الاختياري لمنطق إعادة المحاولة لمواصلة الطلبات التي تعذّر تنفيذها:

Python

import time
from google import genai

client = genai.Client()

def call_with_retry(max_retries=3, base_delay=5):
    for attempt in range(max_retries):
        try:
            return client.interactions.create(
                model="gemini-3.5-flash",
                input="Analyze this batch statement.",
                service_tier="flex",
            )
        except Exception as e:
            if attempt < max_retries - 1:
                delay = base_delay * (2 ** attempt) # Exponential Backoff
                print(f"Flex busy, retrying in {delay}s...")
                time.sleep(delay)
            else:
                print("Flex exhausted, falling back to Standard...")
                return client.interactions.create(
                    model="gemini-3.5-flash",
                    input="Analyze this batch statement."
                )

interaction = call_with_retry()
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function sleep(ms) {
  return new Promise(resolve => setTimeout(resolve, ms));
}

async function callWithRetry(maxRetries = 3, baseDelay = 5) {
  for (let attempt = 0; attempt < maxRetries; attempt++) {
    try {
      console.log(`Attempt ${attempt + 1}: Calling Flex tier...`);
      const interaction = await ai.interactions.create({
        model: "gemini-3.5-flash",
        input: "Analyze this batch statement.",
        service_tier: 'flex',
      });
      return interaction;
    } catch (e) {
      if (attempt < maxRetries - 1) {
        const delay = baseDelay * (2 ** attempt);
        console.log(`Flex busy, retrying in ${delay}s...`);
        await sleep(delay * 1000);
      } else {
        console.log("Flex exhausted, falling back to Standard...");
        return await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Analyze this batch statement.",
        });
      }
    }
  }
}

async function main() {
    const interaction = await callWithRetry();
    console.log(interaction.output_text);
}

await main();

الأسعار

يتم تحديد سعر Flex inference بنسبة% 50 من سعر واجهة برمجة التطبيقات العادية ويتم تحصيل الرسوم لكل رمز مميز.

النماذج المتوافقة

تتيح الطُرز التالية استنتاج Flex:

الطراز	Flex inference
Gemini 3.5 Flash	✔️
‫Gemini 3.1 Flash-Lite	✔️
إصدار تجريبي من Gemini 3.1 Pro	✔️
معاينة Gemini 3 Flash	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

الخطوات التالية

استنتاج الأولوية لوقت الاستجابة الفائق السرعة
الرموز المميزة: فهم الرموز المميزة