الاستدلال حسب الأولوية

الوصف: تعرَّف على كيفية تحسين وقت الاستجابة باستخدام مستوى الاستنتاج "الأولوية" في Interactions API

‫Gemini Priority API هو مستوى استنتاج متميّز مصمّم لأحمال العمل الأساسية التي تتطلّب وقت استجابة أقل وموثوقية أعلى بسعر متميّز. تُمنح الأولوية لزيارات مستوى "الأولوية" على زيارات واجهة برمجة التطبيقات العادية ومستوى "المرونة".

يتوفّر الاستنتاج "الأولوية" في جميع نقاط نهاية Interactions API.

كيفية استخدام مستوى "الأولوية"

لاستخدام مستوى "الأولوية"، اضبط حقل service_tier في طلبك على priority. المستوى التلقائي هو "عادي" إذا تم حذف الحقل.

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Triage this critical customer support ticket immediately.",
    service_tier='priority'
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
    const interaction = await ai.interactions.create({
        model: "gemini-3.5-flash",
        input: "Triage this critical customer support ticket immediately.",
        service_tier: "priority"
    });
    console.log(interaction.output_text);
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

آلية عمل الاستنتاج "الأولوية"

يوجّه الاستنتاج "الأولوية" الطلبات إلى قوائم انتظار الحوسبة عالية الأهمية، ما يوفّر أداءً سريعًا يمكن التنبؤ به للتطبيقات التي يتفاعل معها المستخدمون. آليته الأساسية هي الرجوع السلس من جهة الخادم إلى المعالجة العادية للزيارات التي تتجاوز الحدود الديناميكية، ما يضمن استقرار التطبيق بدلاً من تعذُّر معالجة الطلب.

الميزة الأولوية خطة "الرزمة العادية" التعبير مجمّعة
الأسعار أعلى بنسبة %75 إلى %100 من الخطة "الرزمة العادية" السعر الكامل خصم بنسبة% 50 خصم بنسبة% 50
وقت الاستجابة الثواني من الثواني إلى الدقائق الدقائق (الهدف من دقيقة واحدة إلى 15 دقيقة) ما يصل إلى 24 ساعة
الموثوقية عالية (لا يمكن تقليلها) عالية / متوسطة إلى عالية أفضل جهد (يمكن تقليلها) عالية (للإنتاجية)
الواجهة متزامن متزامن متزامن غير متزامن

المزايا الرئيسية

  • وقت استجابة منخفض: مصمّم لأوقات الاستجابة بالثواني لأدوات الذكاء الاصطناعي التفاعلية التي يتفاعل معها المستخدمون.
  • موثوقية عالية: يتم التعامل مع الزيارات بأعلى درجة من الأهمية ولا يمكن تقليلها على الإطلاق.
  • التكيّف مع الإصدارات الأقدم: يتم تلقائيًا الرجوع إلى مستوى "الرزمة العادية" لمعالجة الارتفاعات في الزيارات التي تتجاوز الحدود الديناميكية بدلاً من تعذُّر معالجتها، ما يمنع انقطاع الخدمة.
  • الحدّ من المشيل: يستخدم طريقة create المتزامنة نفسها التي يستخدمها مستوى "الرزمة العادية" ومستوى "المرونة".

حالات الاستخدام

تكون المعالجة "الأولوية" مثالية لسير العمل الأساسي حيث يكون الأداء والموثوقية في غاية الأهمية.

  • تطبيقات الذكاء الاصطناعي التفاعلية: روبوتات الدردشة ومساعدو خدمة العملاء حيث يدفع المستخدمون سعرًا متميّزًا ويتوقّعون استجابات سريعة ومتّسقة.
  • محركات اتخاذ القرارات في الوقت الفعلي: الأنظمة التي تتطلّب نتائج موثوقة جدًا ومنخفضة وقت الاستجابة ، مثل فرز التذاكر المباشر أو رصد الاحتيال.
  • ميزات العملاء المتميّزين: المطوّرون الذين يحتاجون إلى ضمان أهداف أعلى على مستوى الخدمة للعملاء الذين يدفعون.

حدود معدّل الاستخدام

تفرض المعالجة "الأولوية" حدود معدّل الاستخدام الخاصة بها على الرغم من احتساب الاستهلاك ضمن حدود معدّل الاستخدام الإجمالية للزيارات التفاعلية. حدود معدّل الاستخدام التلقائية للاستنتاج "الأولوية" هي 0.3 ضعف حدّ معدّل الاستخدام العادي للنموذج / المستوى

منطق الرجوع السلس

إذا تم تجاوز حدود "الأولوية" بسبب الازدحام، يتم تلقائيًا وبشكل سلس الرجوع إلى المعالجة "العادية" للطلبات التي تتجاوز الحد بدلاً من تعذُّر معالجتها مع ظهور الخطأ 503 أو 429. تتم فوترة الطلبات التي تم الرجوع إليها بالمعدّل العادي، وليس بالمعدّل المتميّز لمستوى "الأولوية".

مسؤولية العميل

  • مراقبة الردود: على المطوّرين مراقبة x-gemini-service-tier العنوان في ردّ واجهة برمجة التطبيقات لرصد ما إذا كان يتم الرجوع بشكل متكرّر إلى standard.
  • إعادة المحاولات: على العملاء تنفيذ منطق إعادة المحاولة/التراجع الأسي لـ الأخطاء العادية، مثل DEADLINE_EXCEEDED.

الأسعار

يتم تسعير الاستنتاج "الأولوية" بنسبة %75 إلى %100 أعلى من واجهة برمجة التطبيقات العادية ويتم تحصيل الرسوم لكل رمز مميّز.

النماذج المتوافقة

تسمح النماذج التالية بالاستنتاج "الأولوية":

الطراز الاستنتاج "الأولوية"
Gemini 3.5 Flash ‫✔️
Gemini 3.1 Flash-Lite ‫✔️
Gemini 3.1 Pro Preview ‫✔️
Gemini 3 Flash Preview ‫✔️
Gemini 2.5 Pro ‫✔️
Gemini 2.5 Flash ‫✔️
Gemini 2.5 Flash-Lite ‫✔️

الخطوات التالية