تحسين Gemini API والاستدلال

توفّر Gemini API مجموعة متنوعة من آليات التحسين لمساعدتك في تحقيق التوازن بين السرعة والتكلفة والموثوقية استنادًا إلى احتياجات عبء العمل المحدّدة. سواء كنت بصدد إنشاء برامج حوارية في الوقت الفعلي أو تنفيذ عمليات مكثّفة لمعالجة البيانات بلا إنترنت، يمكن أن يساعدك اختيار النموذج المناسب في خفض التكاليف أو تحسين الأداء بشكل كبير.

الميزة خطة "الرزمة العادية" التعبير الأولوية الدفعة التخزين المؤقت
الأسعار السعر الكامل خصم بنسبة% 50 من% 75 إلى% 100 أكثر من المعدّل العادي خصم بنسبة% 50 مساحة تخزين الرموز المميزة المتناسبة
وقت الاستجابة من ثوانٍ إلى دقائق الدقائق (المدة المستهدَفة من دقيقة واحدة إلى 15 دقيقة) منخفض (ثوانٍ) ما يصل إلى 24 ساعة تقليل الوقت اللازم للحصول على الرمز المميز الأول
الموثوقية مرتفع / مرتفع إلى حد ما أفضل جهد (يمكن إيقافه) عالية (غير قابلة للإزالة) عالية (لمعدّل نقل البيانات) لا ينطبق
الواجهة متزامن متزامن متزامن بدون تزامن الحالة المحفوظة
أفضل حالة استخدام سير العمل العام للتطبيقات السلاسل المتسلسلة غير العاجلة تطبيقات الإنتاج المخصّصة للمستخدمين مجموعات البيانات الضخمة وعمليات التقييم بلا إنترنت طلبات بحث متكرّرة على الملف نفسه

مستويات خدمة الاستدلال (متزامنة)

يمكنك التبديل بين الزيارات المتزامنة المحسّنة من حيث وقت الاستجابة والزيارات المتزامنة المحسّنة من حيث التكلفة من خلال تمرير المَعلمة service_tier في طلبات الإنشاء العادية.

الاستدلال العادي (الخيار التلقائي)

الفئة العادية هي الخيار التلقائي لإنشاء المحتوى التسلسلي. ويوفّر أوقات استجابة عادية بدون رسوم إضافية أو انتظار طويل في قائمة الانتظار.

  • وقت الاستجابة: من ثوانٍ إلى دقائق
  • السعر: التسعير العادي
  • الأفضل للاستخدامات التالية: التطبيقات اليومية الأكثر تفاعلية

الاستنتاج ذو الأولوية (المحسّن من حيث وقت الاستجابة)

توجّه مسارات المعالجة ذات الأولوية طلباتك إلى قوائم انتظار الحوسبة ذات الأهمية القصوى. هذه الزيارات غير قابلة للتخفيض (لا يمكن أن تحلّ محلّها مستويات أخرى) وتوفّر أعلى مستوى من الموثوقية. في حال تجاوزت حدود الأولوية الديناميكية، سيخفض النظام مستوى الطلب إلى المعالجة العادية بدلاً من عرض رسالة خطأ.

  • وقت الاستجابة: منخفض جدًا (من المللي ثانية إلى الثواني)
  • السعر: أعلى من الأسعار العادية بنسبة تتراوح بين% 75 و% 100
  • الأفضل في: برامج الدردشة الآلية المباشرة مع العملاء، ورصد عمليات الاحتيال في الوقت الفعلي، وCopilot المهمة للأعمال

Flex inference (محسّن من حيث التكلفة)

توفّر الاستنتاج المرن خصمًا بنسبة% 50 مقارنةً بالأسعار العادية من خلال الاستفادة من سعة الحوسبة المتاحة في أوقات خارج الذروة. تتم معالجة الطلبات بشكل متزامن، ما يعني أنّه ليس عليك إعادة كتابة الرمز البرمجي لإدارة عناصر الدُفعات. بما أنّها زيارات "قابلة للتجاهل"، قد يتم إيقاف الطلبات بشكل استباقي إذا شهد النظام ارتفاعات معتادة في عدد الزيارات.

  • وقت الاستجابة: غير مضمون، والهدف هو من دقيقة واحدة إلى 15 دقيقة.
  • السعر:% 50 من السعر العادي (يتم تحصيل الرسوم لكل رمز مميز).
  • الأفضل في الحالات التالية: مهام سير العمل المتعدّدة الخطوات التي تعتمد على الوكلاء، حيث يعتمد الطلب N+1 على نتيجة الطلب N، وتعديلات نظام إدارة علاقات العملاء في الخلفية، والتقييمات غير المباشرة.

واجهة برمجة التطبيقات المجمّعة (مجمّعة وغير متزامنة)

تم تصميم Batch API لمعالجة كميات كبيرة من الطلبات بشكل غير متزامن بتكلفة تبلغ% 50 من التكلفة العادية. يمكنك إرسال الطلبات كقواميس مضمّنة أو باستخدام ملف إدخال JSONL (يصل حجمه إلى 2 غيغابايت). وتتم معالجة الطلبات باستخدام قوائم انتظار معدل النقل في الخلفية، مع استهداف وقت استجابة يبلغ 24 ساعة.

  • وقت الاستجابة: مرتفع (يصل إلى 24 ساعة).
  • السعر:% 50 من السعر الأساسي
  • الأفضل للاستخدام في: المعالجة المسبقة لمجموعات البيانات الضخمة، وتشغيل مجموعات اختبارات الانحدار الدوري، وإنشاء أعداد كبيرة من الصور أو عمليات التضمين.

التخزين المؤقت للسياق (توفير الإدخال)

يتم استخدام التخزين المؤقت للسياق عندما تتم الإشارة إلى سياق أولي كبير بشكل متكرر من خلال طلبات أقصر.

  • التخزين المؤقت الضمني: يتم تفعيله تلقائيًا على Gemini 2.5 والإصدارات الأحدث. يوفّر النظام تكاليفك إذا كان طلبك يتطابق مع ذاكرات تخزين مؤقت حالية استنادًا إلى بادئات الطلبات الشائعة.
  • التخزين المؤقت الصريح: يمكنك إنشاء عنصر تخزين مؤقت يدويًا باستخدام مدة بقاء (TTL) محدّدة. بعد إنشاء الرموز المميزة، يمكنك الرجوع إلى الرموز المخزّنة مؤقتًا في الطلبات اللاحقة لتجنُّب تمرير حمولة المجموعة نفسها بشكل متكرّر.
  • السعر: تتم فوترة التكلفة استنادًا إلى عدد الرموز المميزة لذاكرة التخزين المؤقت ومدة التخزين (مدة البقاء).
  • الأفضل للاستخدام في: روبوتات الدردشة التي تتضمّن تعليمات نظام شاملة، أو التحليل المتكرّر لملفات الفيديو الطويلة، أو الاستعلامات عن مجموعات المستندات الكبيرة.