Gemini هي مجموعة من نماذج الذكاء الاصطناعي التوليدي التي تتيح للمطوّرين إنشاء المحتوى وحلّ المشاكل. تم تصميم هذه النماذج وتدريبها للتعامل مع كل من النصوص والصور كمدخلات. يقدّم هذا الدليل معلومات حول كل خيار من خيارات الطراز لمساعدتك في تحديد الخيار الأنسب لحالة الاستخدام لديك.
اللغات المتاحة
Gemini class="all="all="{2/}" <br><ph">ولغة <br/ علمًا تقديم: ar
bn
bg
zh
hr
cs
da
nl
en
et
fi
fr
de
el
iw
hi
hu
id
it
ja
ko
lv
lt
no
pl
pt
ro
ru
sr
sk
sl
es
sw
sv
th
tr
uk
vi
لا تعمل نماذج PaLM إلا باللغة الإنجليزية. قد يؤدي استخدام لغات أخرى إلى نتائج غير متوقعة.
متغيرات الطراز
تقدّم Gemini API نماذج مختلفة تمّ تحسينها لحالات استخدام معيّنة. في ما يلي نظرة عامة مختصرة على خيارات Gemini المتاحة:
صيغة النموذج | الإدخالات | الناتج | محسَّن من أجل |
---|---|---|---|
Gemini 1.5 Pro (معاينة) | الصوت والصور والفيديوهات والنصوص | النص | مهام التفكير المنطقي، بما في ذلك (على سبيل المثال لا الحصر) إنشاء الرموز البرمجية والنصوص وتعديل النصوص وحلّ المشاكل واستخراج البيانات وإنشاؤها |
Gemini 1.5 Flash (معاينة) | الصوت والصور والفيديوهات والنصوص | النص | أداء سريع ومتعدّد الاستخدامات في مجموعة متنوّعة من المهام |
Gemini 1.0 Pro | النص | النص | مهام اللغة الطبيعية، ومحادثات الرموز النصية والمراسلات النصية المتعددة، وإنشاء الرموز |
Gemini 1.0 Pro Vision | الصور والفيديوهات والنصوص | النص | تم تحسين الأداء لأداء المهام المتعلّقة بالمرئيات، مثل إنشاء أوصاف الصور أو التعرّف على العناصر في الصور |
تضمين النص | النص | تضمينات النص | أنشِئ نصوصًا مرنة قابلة لتضمين ما يصل إلى 768 بُعدًا للنص الذي يصل إلى 2,048 رمزًا مميّزًا |
التضمين | النص | تضمينات النص | إنشاء نصوص مضمّنة باستخدام 768 سمة للنص الذي يصل إلى 2,048 رمزًا مميّزًا |
جودة الهواء | النص | النص | تنفيذ المهام المرتبطة بالإجابة عن الأسئلة المنسوبة على النص المقدم |
يوضّح الجدول التالي سمات نماذج Gemini الشائعة بين جميع خيارات النماذج:
السمة | الوصف |
---|---|
بيانات التدريب | تم إيقاف المعلومات نهائيًا في Gemini في أوائل 2023. وستبقى المعلومات عن الأحداث التي تلي هذه الفترة محدودة. |
اللغات المتاحة | الاطّلاع على اللغات المتاحة |
مَعلمات النموذج القابل للضبط |
|
اطّلِع على قسم مَعلمات النموذج في دليل النماذج التوليدية للحصول على معلومات عن كلّ من هذه المَعلمات.
Gemini 1.5 Pro (معاينة)
Gemini 1.5 Pro هو نموذج متوسط الحجم متعدد الوسائط محسَّن لتنفيذ مجموعة واسعة من المهام الاستنتاجية، مثل:
- إنشاء الرموز
- إنشاء النص
- تعديل النصوص
- حل المشكلات
- إنشاء الاقتراحات
- استخراج المعلومات
- استخراج البيانات أو إنشائها
- إنشاء موظّفي دعم الذكاء الاصطناعي
يمكن للإصدار 1.5 Pro أن يعالج كميات كبيرة من البيانات في الوقت نفسه، بما في ذلك ساعة واحدة من الفيديو أو 9.5 ساعة من الصوت أو قواعد الرموز التي تتضمّن أكثر من 30,000 سطر من الرموز أو أكثر من 700,000 كلمة.
بإمكان الإصدار 1.5 Pro تنفيذ مهام التعلّم بخطوات قليلة أو بلقطة واحدة فقط.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز النموذج | models/gemini-1.5-pro-latest |
مدخلات | الصوت والصور والفيديو والنص |
الناتج | النص |
طرق الإنشاء المتوافقة |
generateContent
|
الحد الأقصى المسموح به لإدخال الرموز المميّزة[**] | 1,048,576 |
الحد الأقصى للرمز المميّز للمخرجات[**] | 8,192 |
الحدّ الأقصى لعدد الصور في كل طلب | 3,600 |
الحد الأقصى لطول الفيديو | ساعة واحدة |
الحد الأقصى لطول الصوت | 9.5 ساعات تقريبًا |
الحد الأقصى لعدد الملفات الصوتية في كل طلب | 1 |
أمان النموذج | إعدادات الأمان التي يتم تطبيقها تلقائيًا والتي يمكن للمطوّرين ضبطها. يمكنك الاطّلاع على صفحة إعدادات الأمان للحصول على التفاصيل. |
حدود الأسعار[*] |
|
تعليمات النظام | معلومات معتمَدة |
وضع JSON | معلومات معتمَدة |
أحدث إصدار | gemini-1.5-pro-latest |
أحدث إصدار ثابت | gemini-1.5-pro |
التعديل الأخير | أبريل 2024 |
فلاش الإصدار 1.5 من Gemini (معاينة)
Gemini 1.5 Flash هو نموذج سريع ومتعدِّد الوسائط يوسّع نطاق المهام على مختلف المهام.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز النموذج | gemini-1.5-flash-latest |
الإدخالات | الصوت والصور والفيديو والنص |
الناتج | النص |
طرق الإنشاء المتوافقة |
generateContent
|
الحد الأقصى المسموح به لإدخال الرموز المميّزة[**] | 1,048,576 |
الحد الأقصى للرمز المميّز للمخرجات[**] | 8,192 |
الحدّ الأقصى لعدد الصور في كل طلب | 3,600 |
الحد الأقصى لطول الفيديو | ساعة واحدة |
الحد الأقصى لطول الصوت | 9.5 ساعات تقريبًا |
الحد الأقصى لعدد الملفات الصوتية في كل طلب | 1 |
أمان النموذج | إعدادات الأمان التي يتم تطبيقها تلقائيًا والتي يمكن للمطوّرين ضبطها. يمكنك الاطّلاع على صفحة إعدادات الأمان للحصول على التفاصيل. |
حدود الأسعار[*] |
|
تعليمات النظام | معلومات معتمَدة |
وضع JSON | معلومات معتمَدة |
أحدث إصدار | gemini-1.5-flash-latest |
أحدث إصدار ثابت | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro هو نموذج لتعلُّم الآلة (NLP) يعالج مهام متعددة، مثل تحويل النص إلى كلام ومحادثات الرموز البرمجية وإنشاء الرموز البرمجية.
بإمكان الإصدار 1.0 Pro إنجاز مهام التعلّم بخطوات قليلة أو بلقطة واحدة فقط.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز النموذج | models/gemini-pro |
إدخال | النص |
الناتج | النص |
طرق الإنشاء المتوافقة |
generate_content
generateContent
|
حدود الأسعار[*] |
|
تعليمات النظام | غير متوافقة |
وضع JSON | غير متوافقة |
أحدث إصدار | gemini-1.0-pro-latest |
أحدث إصدار ثابت | gemini-1.0-pro |
الإصدارات الثابتة | gemini-1.0-pro-001 |
التعديل الأخير | شباط (فبراير) 2024 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision هو نموذج متعدد الوسائط محسَّن الأداء لأداء المهام المتعلّقة بالمرئيات. على سبيل المثال، يمكن لميزة 1.0 Pro Vision إنشاء أوصاف للصور وتحديد العناصر المعروضة في الصور وتوفير معلومات حول الأماكن أو العناصر الموجودة في الصور وغير ذلك.
الإصدار 1.0 Pro Vision قادر على معالجة المهام التي لا تتطلّب لقطات واحدة أو أكثر.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز النموذج | models/gemini-pro-vision |
مدخلات | النصوص والفيديوهات والصور |
الناتج | النص |
طرق الإنشاء المتوافقة |
generate_content
generateContent
|
الحد الأقصى المسموح به لإدخال الرموز المميّزة[*] | 12,288 |
الحد الأقصى للرمز المميّز للمخرجات[*] | 4,096 |
الحدّ الأقصى لحجم الصورة | بلا حدود |
الحدّ الأقصى لعدد الصور في كل طلب | 16 |
الحد الأقصى لطول الفيديو | دقيقتان |
الحد الأقصى لعدد الفيديوهات لكل طلب | 1 |
أمان النموذج | إعدادات الأمان التي يتم تطبيقها تلقائيًا والتي يمكن للمطوّرين ضبطها. يمكنك الاطّلاع على صفحة إعدادات الأمان للحصول على التفاصيل. |
الحدّ الأقصى لمعدّل الاستخدام[*] | 60 طلبًا في الدقيقة |
أحدث إصدار | gemini-1.0-pro-vision-latest |
أحدث إصدار ثابت | gemini-1.0-pro-vision |
التعديل الأخير | ديسمبر 2023 |
تضمين النص وتضمينه
تضمين النص
يمكنك استخدام نموذج تضمين النص لإنشاء تضمينات نص لنص الإدخال. لمزيد من المعلومات حول نموذج تضمين النص، يمكنك الاطّلاع على مستندات الذكاء الاصطناعي التوليدي في Vertex AI حول تضمين النصوص.
تم تحسين نموذج "تضمين النص" لإنشاء عمليات تضمين بهذه الأبعاد لنص يصل إلى 2,048 رمزًا مميّزًا. تقدّم ميزة تضمين النص أحجام تضمين مرنة أقل من 768. يمكنك استخدام التضمينات المرنة لإنشاء أبعاد أصغر للمخرجات ومن المحتمل أن توفر تكاليف الحوسبة والتخزين مع انخفاض طفيف في الأداء.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز النموذج |
models/text-embedding-004
(text-embedding-preview-0409 في
Vertex AI)
|
إدخال | النص |
الناتج | تضمينات النص |
الحد الأقصى لإدخال الرموز المميّزة | 2,048 |
حجم بُعد الإخراج | 768 |
طرق الإنشاء المتوافقة |
embed_content
embedContent
|
أمان النموذج | ما مِن إعدادات أمان قابلة للتعديل. |
الحدّ الأقصى لمعدّل الاستخدام[*] | 1,500 طلب في الدقيقة |
التعديل الأخير | أبريل 2024 |
التضمين
يمكنك استخدام نموذج التضمين لإنشاء تضمينات نص لنص الإدخال.
تم تحسين نموذج "التضمين" لإنشاء عمليات تضمين بها 768 بُعدًا لنص يصل إلى 2,048 رمزًا مميّزًا.
تضمين تفاصيل النموذج
الموقع | الوصف |
---|---|
رمز النموذج | models/embedding-001 |
إدخال | النص |
الناتج | تضمينات النص |
الحد الأقصى لإدخال الرموز المميّزة | 2,048 |
حجم بُعد الإخراج | 768 |
طرق الإنشاء المتوافقة |
embed_content
embedContent
|
أمان النموذج | ما مِن إعدادات أمان قابلة للتعديل. |
الحدّ الأقصى لمعدّل الاستخدام[*] | 1,500 طلب في الدقيقة |
التعديل الأخير | ديسمبر 2023 |
جودة الهواء
يمكنك استخدام نموذج AQA لتنفيذ المهام المتعلّقة بـ الإجابة عن أسئلة تحديد المصدر (AQA) عبر مستند أو مجموعة محتوى أو مجموعة من الفقرات. يعرض نموذج AQA إجابات عن الأسئلة المستندة إلى المصادر المقدّمة، بالإضافة إلى تقدير الاحتمالية القابلة للإجابة.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز النموذج | models/aqa |
إدخال | النص |
الناتج | النص |
طرق الإنشاء المتوافقة |
GenerateAnswerRequest
generateAnswer
|
اللغات المتاحة | الإنجليزية |
الحد الأقصى المسموح به لإدخال الرموز المميّزة[**] | 7,168 |
الحد الأقصى للرمز المميّز للمخرجات[**] | 1,024 |
أمان النموذج | إعدادات الأمان التي يتم تطبيقها تلقائيًا والتي يمكن للمطوّرين ضبطها. يمكنك الاطّلاع على صفحة إعدادات الأمان للحصول على التفاصيل. |
الحدّ الأقصى لمعدّل الاستخدام[*] | 60 طلبًا في الدقيقة |
التعديل الأخير | ديسمبر 2023 |
اطّلِع على الأمثلة للتعرّف على إمكانات هذه الأنواع من النماذج.
[*] يعادل الرمز المميّز 4 أحرف تقريبًا في نماذج Gemini. يجب أن يتضمّن كل 100 رمز مميّز حوالي 60 إلى 80 كلمة إنجليزية.
[**] RPM: عدد الطلبات في الدقيقة
عدد الرموز المميّزة في الدقيقة
RPD: عدد الطلبات في اليوم
TPD: عدد الرموز المميّزة في اليوم
بسبب الحدّ الأقصى للعدد، لا يمكننا ضمان الحدّ الأقصى المحدّد لمعدل الزيارات.
أنماط اسم إصدار النموذج
تتوفّر نماذج Gemini إما في إصدار المعاينة أو الثابت. وفي الرمز البرمجي، يمكنك استخدام أحد تنسيقات أسماء النماذج التالية لتحديد الطراز والإصدار اللذين تريد استخدامهما.
الأحدث: يشير هذا المصطلح إلى أحدث إصدار من النموذج لجيل محدّد وصيغة محدّدة. يتم تحديث النموذج الأساسي بانتظام وقد يكون إصدار معاينة. يجب أن تستخدم تطبيقات الاختبار الاستكشافي والنماذج الأوّلية هذا الاسم المستعار فقط.
لتحديد أحدث إصدار، استخدِم النمط التالي:
<model>-<generation>-<variation>-latest
. مثلاً:gemini-1.0-pro-latest
أحدث إصدار ثابت: يشير إلى أحدث إصدار ثابت تم إصداره لإنشاء النموذج والصيغة المحدّدة.
لتحديد أحدث إصدار ثابت، استخدِم النمط التالي:
<model>-<generation>-<variation>
. مثلاً:gemini-1.0-pro
ثابت: يشير إلى نموذج ثابت معيَّن. لا تتغير النماذج الثابتة. يجب أن تستخدم معظم تطبيقات الإنتاج طرازًا ثابتًا ومحددًا.
لتحديد إصدار ثابت، استخدِم النمط التالي:
<model>-<generation>-<variation>-<version>
. مثلاً:gemini-1.0-pro-001