Gemini

Gemini هي مجموعة من نماذج الذكاء الاصطناعي التوليدي التي تتيح للمطوّرين إنشاء المحتوى وحلّ المشاكل. تم تصميم هذه النماذج وتدريبها للتعامل مع كل من النصوص والصور كمدخلات. يقدّم هذا الدليل معلومات حول كل خيار من خيارات الطراز لمساعدتك في تحديد الخيار الأنسب لحالة الاستخدام لديك.

اللغات المتاحة

Gemini class="all="all="{2/}" <br><ph">ولغة <br/ علمًا تقديم: arbnbgzhhrcsdanlenetfifrdeeliwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

لا تعمل نماذج PaLM إلا باللغة الإنجليزية. قد يؤدي استخدام لغات أخرى إلى نتائج غير متوقعة.

متغيرات الطراز

تقدّم Gemini API نماذج مختلفة تمّ تحسينها لحالات استخدام معيّنة. في ما يلي نظرة عامة مختصرة على خيارات Gemini المتاحة:

صيغة النموذج الإدخالات الناتج محسَّن من أجل
Gemini 1.5 Pro (معاينة) الصوت والصور والفيديوهات والنصوص النص مهام التفكير المنطقي، بما في ذلك (على سبيل المثال لا الحصر) إنشاء الرموز البرمجية والنصوص وتعديل النصوص وحلّ المشاكل واستخراج البيانات وإنشاؤها
Gemini 1.5 Flash (معاينة) الصوت والصور والفيديوهات والنصوص النص أداء سريع ومتعدّد الاستخدامات في مجموعة متنوّعة من المهام
Gemini 1.0 Pro النص النص مهام اللغة الطبيعية، ومحادثات الرموز النصية والمراسلات النصية المتعددة، وإنشاء الرموز
Gemini 1.0 Pro Vision الصور والفيديوهات والنصوص النص تم تحسين الأداء لأداء المهام المتعلّقة بالمرئيات، مثل إنشاء أوصاف الصور أو التعرّف على العناصر في الصور
تضمين النص النص تضمينات النص أنشِئ نصوصًا مرنة قابلة لتضمين ما يصل إلى 768 بُعدًا للنص الذي يصل إلى 2,048 رمزًا مميّزًا
التضمين النص تضمينات النص إنشاء نصوص مضمّنة باستخدام 768 سمة للنص الذي يصل إلى 2,048 رمزًا مميّزًا
جودة الهواء النص النص تنفيذ المهام المرتبطة بالإجابة عن الأسئلة المنسوبة على النص المقدم

يوضّح الجدول التالي سمات نماذج Gemini الشائعة بين جميع خيارات النماذج:

السمة الوصف
بيانات التدريب تم إيقاف المعلومات نهائيًا في Gemini في أوائل 2023. وستبقى المعلومات عن الأحداث التي تلي هذه الفترة محدودة.
اللغات المتاحة الاطّلاع على اللغات المتاحة
مَعلمات النموذج القابل للضبط
  • أعلى p
  • أعلى ك
  • درجة الحرارة
  • إيقاف التسلسل
  • الحدّ الأقصى لطول الإخراج
  • عدد المرشحين للرد

اطّلِع على قسم مَعلمات النموذج في دليل النماذج التوليدية للحصول على معلومات عن كلّ من هذه المَعلمات.

Gemini 1.5 Pro (معاينة)

Gemini 1.5 Pro هو نموذج متوسط الحجم متعدد الوسائط محسَّن لتنفيذ مجموعة واسعة من المهام الاستنتاجية، مثل:

  • إنشاء الرموز
  • إنشاء النص
  • تعديل النصوص
  • حل المشكلات
  • إنشاء الاقتراحات
  • استخراج المعلومات
  • استخراج البيانات أو إنشائها
  • إنشاء موظّفي دعم الذكاء الاصطناعي

يمكن للإصدار 1.5 Pro أن يعالج كميات كبيرة من البيانات في الوقت نفسه، بما في ذلك ساعة واحدة من الفيديو أو 9.5 ساعة من الصوت أو قواعد الرموز التي تتضمّن أكثر من 30,000 سطر من الرموز أو أكثر من 700,000 كلمة.

بإمكان الإصدار 1.5 Pro تنفيذ مهام التعلّم بخطوات قليلة أو بلقطة واحدة فقط.

تفاصيل الطراز

الموقع الوصف
رمز النموذج models/gemini-1.5-pro-latest
مدخلات الصوت والصور والفيديو والنص
الناتج النص
طرق الإنشاء المتوافقة generateContent
الحد الأقصى المسموح به لإدخال الرموز المميّزة[**] 1,048,576
الحد الأقصى للرمز المميّز للمخرجات[**] 8,192
الحدّ الأقصى لعدد الصور في كل طلب 3,600
الحد الأقصى لطول الفيديو ساعة واحدة
الحد الأقصى لطول الصوت 9.5 ساعات تقريبًا
الحد الأقصى لعدد الملفات الصوتية في كل طلب 1
أمان النموذج إعدادات الأمان التي يتم تطبيقها تلقائيًا والتي يمكن للمطوّرين ضبطها. يمكنك الاطّلاع على صفحة إعدادات الأمان للحصول على التفاصيل.
حدود الأسعار[*]
مجانًا:
  • 2 لفة في الدقيقة
  • 32,000 وحدة في الدقيقة
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 لفة في الدقيقة
  • 10 مليون وحدة النظام الأساسي الموثوقة (TPM)
  • 10,000 RPD
  • 14,400,000,000 TPD
سياق مليونَي:
  • 1 لفة في الدقيقة
  • 2 مليون وحدة النظام الأساسي الموثوقة (TPM)
  • 50 RPD
تعليمات النظام معلومات معتمَدة
وضع JSON معلومات معتمَدة
أحدث إصدار gemini-1.5-pro-latest
أحدث إصدار ثابت gemini-1.5-pro
التعديل الأخير أبريل 2024

فلاش الإصدار 1.5 من Gemini (معاينة)

Gemini 1.5 Flash هو نموذج سريع ومتعدِّد الوسائط يوسّع نطاق المهام على مختلف المهام.

تفاصيل الطراز

الموقع الوصف
رمز النموذج gemini-1.5-flash-latest
الإدخالات الصوت والصور والفيديو والنص
الناتج النص
طرق الإنشاء المتوافقة generateContent
الحد الأقصى المسموح به لإدخال الرموز المميّزة[**] 1,048,576
الحد الأقصى للرمز المميّز للمخرجات[**] 8,192
الحدّ الأقصى لعدد الصور في كل طلب 3,600
الحد الأقصى لطول الفيديو ساعة واحدة
الحد الأقصى لطول الصوت 9.5 ساعات تقريبًا
الحد الأقصى لعدد الملفات الصوتية في كل طلب 1
أمان النموذج إعدادات الأمان التي يتم تطبيقها تلقائيًا والتي يمكن للمطوّرين ضبطها. يمكنك الاطّلاع على صفحة إعدادات الأمان للحصول على التفاصيل.
حدود الأسعار[*]
مجانًا:
  • 15 لفة في الدقيقة
  • مليون وحدة النظام الأساسي الموثوقة (TPM)
  • 1500 RPD
Pay-as-you-go:
  • 360 لفة في الدقيقة
  • 10 مليون وحدة النظام الأساسي الموثوقة (TPM)
  • 10,000 RPD
تعليمات النظام معلومات معتمَدة
وضع JSON معلومات معتمَدة
أحدث إصدار gemini-1.5-flash-latest
أحدث إصدار ثابت gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro هو نموذج لتعلُّم الآلة (NLP) يعالج مهام متعددة، مثل تحويل النص إلى كلام ومحادثات الرموز البرمجية وإنشاء الرموز البرمجية.

بإمكان الإصدار 1.0 Pro إنجاز مهام التعلّم بخطوات قليلة أو بلقطة واحدة فقط.

تفاصيل الطراز

الموقع الوصف
رمز النموذج models/gemini-pro
إدخال النص
الناتج النص
طرق الإنشاء المتوافقة
Python: generate_content
REST: generateContent
حدود الأسعار[*]
مجانًا:
  • 15 لفة في الدقيقة
  • 32,000 وحدة في الدقيقة
  • 1,500 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 لفة في الدقيقة
  • 120,000 وحدة في الدقيقة
  • 30,000 RPD
  • 172,800,000 TPD
تعليمات النظام غير متوافقة
وضع JSON غير متوافقة
أحدث إصدار gemini-1.0-pro-latest
أحدث إصدار ثابت gemini-1.0-pro
الإصدارات الثابتة gemini-1.0-pro-001
التعديل الأخير شباط (فبراير) 2024

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision هو نموذج متعدد الوسائط محسَّن الأداء لأداء المهام المتعلّقة بالمرئيات. على سبيل المثال، يمكن لميزة 1.0 Pro Vision إنشاء أوصاف للصور وتحديد العناصر المعروضة في الصور وتوفير معلومات حول الأماكن أو العناصر الموجودة في الصور وغير ذلك.

الإصدار 1.0 Pro Vision قادر على معالجة المهام التي لا تتطلّب لقطات واحدة أو أكثر.

تفاصيل الطراز

الموقع الوصف
رمز النموذج models/gemini-pro-vision
مدخلات النصوص والفيديوهات والصور
الناتج النص
طرق الإنشاء المتوافقة
Python: generate_content
REST: generateContent
الحد الأقصى المسموح به لإدخال الرموز المميّزة[*] 12,288
الحد الأقصى للرمز المميّز للمخرجات[*] 4,096
الحدّ الأقصى لحجم الصورة بلا حدود
الحدّ الأقصى لعدد الصور في كل طلب 16
الحد الأقصى لطول الفيديو دقيقتان
الحد الأقصى لعدد الفيديوهات لكل طلب 1
أمان النموذج إعدادات الأمان التي يتم تطبيقها تلقائيًا والتي يمكن للمطوّرين ضبطها. يمكنك الاطّلاع على صفحة إعدادات الأمان للحصول على التفاصيل.
الحدّ الأقصى لمعدّل الاستخدام[*] 60 طلبًا في الدقيقة
أحدث إصدار gemini-1.0-pro-vision-latest
أحدث إصدار ثابت gemini-1.0-pro-vision
التعديل الأخير ديسمبر 2023

تضمين النص وتضمينه

تضمين النص

يمكنك استخدام نموذج تضمين النص لإنشاء تضمينات نص لنص الإدخال. لمزيد من المعلومات حول نموذج تضمين النص، يمكنك الاطّلاع على مستندات الذكاء الاصطناعي التوليدي في Vertex AI حول تضمين النصوص.

تم تحسين نموذج "تضمين النص" لإنشاء عمليات تضمين بهذه الأبعاد لنص يصل إلى 2,048 رمزًا مميّزًا. تقدّم ميزة تضمين النص أحجام تضمين مرنة أقل من 768. يمكنك استخدام التضمينات المرنة لإنشاء أبعاد أصغر للمخرجات ومن المحتمل أن توفر تكاليف الحوسبة والتخزين مع انخفاض طفيف في الأداء.

تفاصيل الطراز
الموقع الوصف
رمز النموذج models/text-embedding-004 (text-embedding-preview-0409 في Vertex AI)
إدخال النص
الناتج تضمينات النص
الحد الأقصى لإدخال الرموز المميّزة 2,048
حجم بُعد الإخراج 768
طرق الإنشاء المتوافقة
Python: embed_content
REST: embedContent
أمان النموذج ما مِن إعدادات أمان قابلة للتعديل.
الحدّ الأقصى لمعدّل الاستخدام[*] 1,500 طلب في الدقيقة
التعديل الأخير أبريل 2024

التضمين

يمكنك استخدام نموذج التضمين لإنشاء تضمينات نص لنص الإدخال.

تم تحسين نموذج "التضمين" لإنشاء عمليات تضمين بها 768 بُعدًا لنص يصل إلى 2,048 رمزًا مميّزًا.

تضمين تفاصيل النموذج
الموقع الوصف
رمز النموذج models/embedding-001
إدخال النص
الناتج تضمينات النص
الحد الأقصى لإدخال الرموز المميّزة 2,048
حجم بُعد الإخراج 768
طرق الإنشاء المتوافقة
Python: embed_content
REST: embedContent
أمان النموذج ما مِن إعدادات أمان قابلة للتعديل.
الحدّ الأقصى لمعدّل الاستخدام[*] 1,500 طلب في الدقيقة
التعديل الأخير ديسمبر 2023

جودة الهواء

يمكنك استخدام نموذج AQA لتنفيذ المهام المتعلّقة بـ الإجابة عن أسئلة تحديد المصدر (AQA) عبر مستند أو مجموعة محتوى أو مجموعة من الفقرات. يعرض نموذج AQA إجابات عن الأسئلة المستندة إلى المصادر المقدّمة، بالإضافة إلى تقدير الاحتمالية القابلة للإجابة.

تفاصيل الطراز

الموقع الوصف
رمز النموذج models/aqa
إدخال النص
الناتج النص
طرق الإنشاء المتوافقة
Python: GenerateAnswerRequest
REST: generateAnswer
اللغات المتاحة الإنجليزية
الحد الأقصى المسموح به لإدخال الرموز المميّزة[**] 7,168
الحد الأقصى للرمز المميّز للمخرجات[**] 1,024
أمان النموذج إعدادات الأمان التي يتم تطبيقها تلقائيًا والتي يمكن للمطوّرين ضبطها. يمكنك الاطّلاع على صفحة إعدادات الأمان للحصول على التفاصيل.
الحدّ الأقصى لمعدّل الاستخدام[*] 60 طلبًا في الدقيقة
التعديل الأخير ديسمبر 2023

اطّلِع على الأمثلة للتعرّف على إمكانات هذه الأنواع من النماذج.

[*] يعادل الرمز المميّز 4 أحرف تقريبًا في نماذج Gemini. يجب أن يتضمّن كل 100 رمز مميّز حوالي 60 إلى 80 كلمة إنجليزية.

[**] RPM: عدد الطلبات في الدقيقة
عدد الرموز المميّزة في الدقيقة
RPD: عدد الطلبات في اليوم
TPD: عدد الرموز المميّزة في اليوم

بسبب الحدّ الأقصى للعدد، لا يمكننا ضمان الحدّ الأقصى المحدّد لمعدل الزيارات.

أنماط اسم إصدار النموذج

تتوفّر نماذج Gemini إما في إصدار المعاينة أو الثابت. وفي الرمز البرمجي، يمكنك استخدام أحد تنسيقات أسماء النماذج التالية لتحديد الطراز والإصدار اللذين تريد استخدامهما.

  • الأحدث: يشير هذا المصطلح إلى أحدث إصدار من النموذج لجيل محدّد وصيغة محدّدة. يتم تحديث النموذج الأساسي بانتظام وقد يكون إصدار معاينة. يجب أن تستخدم تطبيقات الاختبار الاستكشافي والنماذج الأوّلية هذا الاسم المستعار فقط.

    لتحديد أحدث إصدار، استخدِم النمط التالي: <model>-<generation>-<variation>-latest. مثلاً: gemini-1.0-pro-latest

  • أحدث إصدار ثابت: يشير إلى أحدث إصدار ثابت تم إصداره لإنشاء النموذج والصيغة المحدّدة.

    لتحديد أحدث إصدار ثابت، استخدِم النمط التالي: <model>-<generation>-<variation>. مثلاً: gemini-1.0-pro

  • ثابت: يشير إلى نموذج ثابت معيَّن. لا تتغير النماذج الثابتة. يجب أن تستخدم معظم تطبيقات الإنتاج طرازًا ثابتًا ومحددًا.

    لتحديد إصدار ثابت، استخدِم النمط التالي: <model>-<generation>-<variation>-<version>. مثلاً: gemini-1.0-pro-001