توفّر Gemini API مجموعة متنوعة من آليات التحسين لمساعدتك في تحقيق التوازن بين السرعة والتكلفة والموثوقية استنادًا إلى احتياجات عبء العمل المحدّدة. سواء كنت بصدد إنشاء برامج حوارية آلية في الوقت الفعلي أو تنفيذ عمليات مكثّفة لمعالجة البيانات بلا إنترنت، يمكن أن يساعدك اختيار النموذج المناسب في خفض التكاليف أو تحسين الأداء بشكل كبير.
| الميزة | خطة "الرزمة العادية" | التعبير | الأولوية | الدفعة | التخزين المؤقت |
|---|---|---|---|---|---|
| الأسعار | السعر الكامل | خصم بنسبة% 50 | من% 75 إلى% 100 أكثر من المعدّل العادي | خصم بنسبة% 50 | خصم بنسبة 90% + مساحة تخزين الرموز المميزة بالتناسب مع المدة |
| وقت الاستجابة | من ثوانٍ إلى دقائق | دقائق (المدة المستهدَفة من دقيقة واحدة إلى 15 دقيقة) | الثواني | ما يصل إلى 24 ساعة | تقليل الوقت اللازم للحصول على الرمز المميز الأول |
| الموثوقية | مرتفع / مرتفع إلى حد ما | أفضل جهد (يمكن إيقافه) | عالية (غير قابلة للإزالة) | عالية (لمعدّل نقل البيانات) | لا ينطبق |
| الواجهة | متزامن | متزامن | متزامن | بدون تزامن | الحالة المحفوظة |
| أفضل حالة استخدام | سير العمل العام للتطبيقات | السلاسل المتسلسلة غير العاجلة | تطبيقات الإنتاجية المخصّصة للمستخدمين | مجموعات البيانات الضخمة وعمليات التقييم بلا إنترنت | طلبات البحث المتكرّرة على الملف نفسه |
مستويات خدمة الاستدلال (متزامنة)
يمكنك التبديل بين حركة الزيارات المتزامنة المحسّنة من حيث الموثوقية وتلك المحسّنة من حيث التكلفة من خلال تمرير المَعلمة service_tier في طلبات الإنشاء العادية.
الاستدلال العادي (الخيار التلقائي)
الفئة العادية هي الخيار التلقائي لإنشاء المحتوى التسلسلي. ويوفّر أوقات استجابة عادية بدون رسوم إضافية أو انتظار طويل في قائمة الانتظار.
- الموثوقية: مستوى الأهمية العادي
- السعر: التسعير العادي
- الأفضل للاستخدامات التالية: التطبيقات اليومية الأكثر تفاعلية
الاستنتاج ذو الأولوية (المحسّن من حيث وقت الاستجابة)
توجّه مسارات المعالجة ذات الأولوية طلباتك إلى قوائم انتظار الحوسبة ذات الأهمية القصوى. هذه الزيارات غير قابلة للتخفيض (لا يمكن أن تحلّ محلّها مستويات أخرى) وتوفّر أعلى مستوى من الموثوقية. في حال تجاوزت حدود الأولوية الديناميكية، سيخفض النظام مستوى الطلب إلى المعالجة العادية بدلاً من عرض رسالة خطأ.
- الموثوقية: أعلى مستوى من الأهمية
- السعر: من 75% إلى 100% من الأسعار العادية
- الأفضل في: روبوتات الدردشة المخصّصة للعملاء، ورصد عمليات الاحتيال في الوقت الفعلي، و"المساعدون الآليون" المهمون للأنشطة التجارية
Flex inference (محسّن من حيث التكلفة)
توفّر Flex inference خصمًا بنسبة% 50 مقارنةً بالأسعار العادية من خلال الاستفادة من سعة الحوسبة المتاحة في أوقات خارج الذروة. تتم معالجة الطلبات بشكل متزامن، ما يعني أنّه ليس عليك إعادة كتابة الرمز البرمجي لإدارة عناصر الدُفعات. بما أنّها زيارات "قابلة للتجاهل"، قد يتم إيقاف الطلبات بشكل استباقي إذا شهد النظام ارتفاعات معتادة في عدد الزيارات.
- الموثوقية: مستوى الأهمية غير مضمون وقابل للتخفيض
- السعر:% 50 من السعر العادي (يتم تحصيل الرسوم لكل رمز مميز).
- الأفضل في الحالات التالية: مهام سير العمل المتعدّدة الخطوات التي تعتمد على الوكلاء، حيث تعتمد المكالمة N+1 على ناتج المكالمة N، وتعديلات نظام إدارة علاقات العملاء في الخلفية، والتقييمات غير المباشرة.
واجهة برمجة التطبيقات المجمّعة (مجمّعة وغير متزامنة)
تم تصميم Batch API لمعالجة كميات كبيرة من الطلبات بشكل غير متزامن بتكلفة تبلغ% 50 من التكلفة العادية. يمكنك إرسال الطلبات كقواميس مضمّنة أو باستخدام ملف إدخال JSONL (يصل حجمه إلى 2 غيغابايت). وتتم معالجة الطلبات باستخدام قوائم انتظار معدل النقل في الخلفية، مع استهداف وقت استجابة يبلغ 24 ساعة.
- الموثوقية: يمكن تجاهل الرسائل، ولكن مع إعادة المحاولة تلقائيًا كل 24 ساعة ونظام الانتظار
- السعر:% 50 من السعر الأساسي
- الأفضل للاستخدام في: المعالجة المسبقة لمجموعات البيانات الضخمة، وتشغيل مجموعات اختبارات الانحدار الدوري، وإنشاء أعداد كبيرة من الصور أو عمليات التضمين.
التخزين المؤقت للسياق (توفير الإدخال)
يتم استخدام التخزين المؤقت للسياق عندما تتم الإشارة إلى سياق أولي كبير بشكل متكرر من خلال طلبات أقصر.
- التخزين المؤقت الضمني: يتم تفعيله تلقائيًا على Gemini 2.5 والإصدارات الأحدث. يوفّر النظام تكاليفك إذا كان طلبك يتطابق مع ذاكرات تخزين مؤقت حالية استنادًا إلى بادئات الطلبات الشائعة.
- التخزين المؤقت الصريح: يمكنك إنشاء عنصر تخزين مؤقت يدويًا باستخدام مدة بقاء (TTL) محدّدة. بعد إنشاء الرموز المميزة، يمكنك الرجوع إلى الرموز المخزّنة مؤقتًا في الطلبات اللاحقة لتجنُّب تمرير حمولة المجموعة نفسها بشكل متكرّر.
- السعر: تتم فوترة التكلفة استنادًا إلى عدد الرموز المميزة للمخبأ ومدة التخزين (مدة البقاء).
- الأفضل للاستخدام في: روبوتات الدردشة التي تتضمّن تعليمات نظام شاملة، أو التحليل المتكرّر لملفات الفيديو الطويلة، أو الاستعلامات عن مجموعات المستندات الكبيرة.