Gemini هو مجموعة من نماذج الذكاء الاصطناعي التوليدي التي تتيح للمطوّرين إنشاء المحتوى وحلّ المشاكل. تم تصميم هذه النماذج وتدريبها على التعامل مع النصوص والصور كإدخال. يقدّم هذا الدليل معلومات حول كل خيار من خيارات الطراز لمساعدتك في تحديد الخيار الأنسب لحالة استخدامك.
الأمان والاستخدام المقصود
تُعدّ نماذج الذكاء الاصطناعي التوليدي أدوات فعّالة، ولكنها لا تخلو من القيود. يمكن أن يؤدي أحيانًا تنوعها وإمكانية تطبيقها إلى مخرجات غير متوقعة، مثل المخرجات غير الدقيقة أو المتحيزة أو المسيئة. تُعدّ كل من المعالجة ما بعد المعالجة والتقييم اليدوي الدقيق ضرورية للحد من خطر الضرر الناتج عن هذه المخرجات. يمكنك الاطّلاع على إرشادات الأمان للحصول على اقتراحات إضافية بشأن الاستخدام الآمن.
يمكن استخدام النماذج المُقدَّمة من Gemini API في مجموعة متنوّعة من تطبيقات الذكاء الاصطناعي التوليدي ومعالجة اللغات الطبيعية (NLP). لا يمكن استخدام هذه الوظائف إلا من خلال واجهة برمجة تطبيقات Gemini أو تطبيق "استوديو Google الذكاء الاصطناعي" على الويب. ويخضع استخدامك لواجهة Gemini API أيضًا لسياسة الاستخدام المحظور للذكاء الاصطناعي التوليدي وبنود خدمة واجهة برمجة تطبيقات Gemini.
خيارات الطراز
تقدّم Gemini API نماذج مختلفة محسّنة لحالات استخدام معيّنة. في ما يلي نظرة عامة مختصرة على متغيرات Gemini المتوفرة:
صيغة الطراز | الإدخالات | الناتج | محسَّنة |
---|---|---|---|
Gemini 1.5 Pro (معاينة) | الصوت والصور والنص | النص | مهام الاستدلال، بما في ذلك (على سبيل المثال لا الحصر) إنشاء الرموز البرمجية والنصوص وتعديل النصوص وحل المشاكل واستخراج البيانات وإنشائها |
Gemini 1.5 Flash (معاينة) | الصوت والصور والنص | النص | أداء سريع ومتنوّع على مستوى مجموعة متنوّعة من المهام |
Gemini 1.0 Pro | النص | النص | مهام اللغة الطبيعية والمحادثة النصية المتعددة الأدوار والمحادثة مع الترميز وإنشاء الرموز |
Gemini 1.0 Pro Vision | الصور والنصوص | النص | تم تحسين الأداء لتنفيذ المهام ذات الصلة بالمرئيات، مثل إنشاء أوصاف الصور أو تحديد العناصر في الصور. |
تضمين النص | النص | تضمينات النص | أنشِئ تضمينات نص مرنة تتضمّن ما يصل إلى 768 بُعدًا للنص الذي يصل إلى 2,048 رمزًا مميّزًا. |
التضمين | النص | تضمينات النص | أنشِئ تضمينات نصية تحتوي على 768 بُعدًا للنص الذي يصل إلى 2,048 رمزًا مميّزًا. |
AQA | النص | النص | تنفيذ المهام ذات الصلة بالإجابة عن أسئلة الإحالة عبر النص المقدم |
يصف الجدول التالي سمات نماذج Gemini الشائعة لجميع متغيرات النماذج:
السمة | الوصف |
---|---|
بيانات التدريب | يبدأ انقطاع المعرفة لدى Gemini في أوائل عام 2023. وستكون المعلومات المتعلّقة بالأحداث التي تلي هذه الفترة محدودة. |
اللغات المتاحة | الاطّلاع على اللغات المتاحة |
مَعلمات النموذج القابلة للضبط |
|
يمكنك الاطّلاع على قسم مَعلمات النماذج في دليل النماذج التوليدية للحصول على معلومات حول كلّ من هذه المَعلمات.
Gemini 1.5 Pro (معاينة)
Gemini 1.5 Pro هو نموذج متوسط الحجم متعدد الوسائط يتم تحسينه لتنفيذ مجموعة كبيرة من مهام التفكير، مثل:
- إنشاء الرموز
- إنشاء النص
- تعديل النصوص
- حل المشكلات
- إنشاء الاقتراحات
- استخراج المعلومات
- استخراج البيانات أو إنشائها
- إنشاء موظّفي دعم الذكاء الاصطناعي
1.5 يمكن لخدمة Pro معالجة كميات كبيرة من البيانات في آنٍ واحد، بما في ذلك ساعة واحدة من الفيديو و9.5 ساعة من الصوت وقواعد الرموز التي تتضمّن أكثر من 30,000 سطر من الرموز أو أكثر من 700,000 كلمة.
فإن الإصدار 1.5 Pro قادر على التعامل مع مهام التعلم التي تعتمد على صفر وواحد وأول واحد.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز الطراز | models/gemini-1.5-pro-latest |
مدخلات | الصوت والصور والنص |
الناتج | النص |
طرق الإنشاء المتوافقة |
generateContent
|
حد الرمز المميّز الذي تم إدخاله[**] | 1,048,576 |
الحد الأقصى للرموز المميّزة للإخراج[**] | 8,192 |
الحدّ الأقصى لعدد الصور في كل طلب | 3600 |
الحدّ الأقصى لمدة الفيديو | ساعة واحدة |
الحدّ الأقصى لطول الصوت | 9.5 ساعات تقريبًا |
الحد الأقصى لعدد الملفات الصوتية في كل طلب | 1 |
أمان النموذج | إعدادات الأمان المطبَّقة تلقائيًا والتي يمكن للمطوّرين تعديلها. ويمكنك الانتقال إلى صفحة إعدادات الأمان للحصول على التفاصيل. |
الحدود القصوى لمعدّل الزحف[*] |
|
تعليمات النظام | معلومات معتمَدة |
وضع JSON | معلومات معتمَدة |
أحدث إصدار | gemini-1.5-pro-latest |
أحدث إصدار ثابت | gemini-1.5-pro |
التعديل الأخير | أبريل 2024 |
Gemini 1.5 Flash (معاينة)
Gemini 1.5 Flash هو نموذج متعدّد الوسائط سريع ومتعدّد الاستخدامات لتوسيع نطاق المهام المتنوّعة.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز الطراز | gemini-1.5-flash |
الإدخالات | الصوت والصور والنص |
الناتج | النص |
طرق الإنشاء المتوافقة |
generateContent
|
حد الرمز المميّز الذي تم إدخاله[**] | 1,048,576 |
الحد الأقصى للرموز المميّزة للإخراج[**] | 8,192 |
الحدّ الأقصى لعدد الصور في كل طلب | 3600 |
الحدّ الأقصى لمدة الفيديو | ساعة واحدة |
الحدّ الأقصى لطول الصوت | 9.5 ساعات تقريبًا |
الحد الأقصى لعدد الملفات الصوتية في كل طلب | 1 |
أمان النموذج | إعدادات الأمان المطبَّقة تلقائيًا والتي يمكن للمطوّرين تعديلها. ويمكنك الانتقال إلى صفحة إعدادات الأمان للحصول على التفاصيل. |
الحدود القصوى لمعدّل الزحف[*] |
|
تعليمات النظام | معلومات معتمَدة |
وضع JSON | معلومات معتمَدة |
أحدث إصدار | gemini-1.5-flash-latest |
أحدث إصدار ثابت | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro هو نموذج معالجة اللغات الطبيعية (NLP) يعالج مهام مثل الدردشة النصية المتعددة الأدوار والدردشة باستخدام الرموز البرمجية وإنشاء الرموز.
فإن الإصدار 1.0 Pro قادر على التعامل مع مهام التعلم التي تعتمد على صفر وواحد وعملية قليلة.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز الطراز | models/gemini-pro |
إدخال | النص |
الناتج | النص |
طرق الإنشاء المتوافقة |
generate_content
generateContent
|
الحدود القصوى لمعدّل الزحف[*] |
|
تعليمات النظام | غير متوافقة |
وضع JSON | غير متوافقة |
أحدث إصدار | gemini-1.0-pro-latest |
أحدث إصدار ثابت | gemini-1.0-pro |
الإصدارات الثابتة | gemini-1.0-pro-001 |
التعديل الأخير | شباط (فبراير) 2024 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision هو نموذج متعدد الوسائط محسَّن للأداء ويمكن أن يؤدي مهام ذات صلة بالمرئيات. على سبيل المثال، بإمكان 1.0 Pro Vision إنشاء أوصاف للصور وتحديد العناصر في الصور وتقديم معلومات حول الأماكن أو العناصر المعروضة في الصور وغير ذلك.
إنّ 1.0 Pro Vision قادر على التعامل مع المهام التي لا تتطلّب وقتًا طويلاً ومجهودًا واحدًا فقط ومهام قليلة.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز الطراز | models/gemini-pro-vision |
مدخلات | النصوص والصور |
الناتج | النص |
طرق الإنشاء المتوافقة |
generate_content
generateContent
|
حدّ الرمز المميّز للإدخال[*] | 12,288 |
الحدّ الأقصى للرموز المميّزة للإخراج[*] | 4,096 |
الحدّ الأقصى لحجم الصورة | بلا حدود |
الحدّ الأقصى لعدد الصور في كل طلب | 16 |
الحدّ الأقصى لمدة الفيديو | دقيقتان |
الحدّ الأقصى لعدد الفيديوهات لكل طلب | 1 |
أمان النموذج | إعدادات الأمان المطبَّقة تلقائيًا والتي يمكن للمطوّرين تعديلها. ويمكنك الانتقال إلى صفحة إعدادات الأمان للحصول على التفاصيل. |
الحدّ الأقصى لمعدّل الزحف[*] | 60 طلبًا في الدقيقة |
أحدث إصدار | gemini-1.0-pro-vision-latest |
أحدث إصدار ثابت | gemini-1.0-pro-vision |
التعديل الأخير | ديسمبر 2023 |
تضمين النص وتضمينه
تضمين النص
يمكنك استخدام نموذج تضمين النص لإنشاء تضمينات نصية لنص الإدخال. للحصول على مزيد من المعلومات حول نموذج تضمين النص، يُرجى الانتقال إلى مستندات الذكاء الاصطناعي التوليدي على Vertex AI حول عمليات تضمين النص.
تم تحسين نموذج تضمين النص لإنشاء عمليات تضمين تحتوي على 768 بُعدًا للنص الذي يصل إلى 2,048 رمزًا مميّزًا. وتوفّر ميزة تضمين النص أحجام تضمين مرنة تقل عن 768. يمكنك استخدام التضمينات المرنة لإنشاء أبعاد أصغر للمخرجات، ما قد يؤدي إلى توفير تكاليف الحوسبة والتخزين مع انخفاض بسيط في الأداء.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز الطراز |
models/text-embedding-004
(text-embedding-preview-0409 في
Vertex AI)
|
إدخال | النص |
الناتج | تضمينات النص |
حد الرمز المميز للإدخال | 2,048 |
حجم البُعد الناتج | 768 |
طرق الإنشاء المتوافقة |
embed_content
embedContent
|
أمان النموذج | ما مِن إعدادات أمان قابلة للتعديل. |
الحدّ الأقصى لمعدّل الزحف[*] | 1500 طلب في الدقيقة |
التعديل الأخير | أبريل 2024 |
التضمين
يمكنك استخدام النموذج المضمّن لإنشاء تضمينات نصية لإدخال النص.
تم تحسين نموذج التضمين لإنشاء عمليات تضمين بأبعاد 768 لنص يحتوي على ما يصل إلى 2,048 رمزًا مميزًا.
تضمين تفاصيل النموذج
الموقع | الوصف |
---|---|
رمز الطراز | models/embedding-001 |
إدخال | النص |
الناتج | تضمينات النص |
حد الرمز المميز للإدخال | 2,048 |
حجم البُعد الناتج | 768 |
طرق الإنشاء المتوافقة |
embed_content
embedContent
|
أمان النموذج | ما مِن إعدادات أمان قابلة للتعديل. |
الحدّ الأقصى لمعدّل الزحف[*] | 1500 طلب في الدقيقة |
التعديل الأخير | ديسمبر 2023 |
تأكيد جودة الهواء
يمكنك استخدام نموذج AQA لتنفيذ المهام المرتبطة بالإجابة عن أسئلة الإحالة (AQA) على مستند أو مجموعة أو مجموعة من الفقرات. يعرض نموذج AQA إجابات عن أسئلة تستند إلى مصادر مقدَّمة، مع تقدير الاحتمالية التي يمكن الإجابة عنها.
تفاصيل الطراز
الموقع | الوصف |
---|---|
رمز الطراز | models/aqa |
إدخال | النص |
الناتج | النص |
طرق الإنشاء المتوافقة |
GenerateAnswerRequest
generateAnswer
|
اللغات المتاحة | الإنجليزية |
حد الرمز المميّز الذي تم إدخاله[**] | 7,168 |
الحد الأقصى للرموز المميّزة للإخراج[**] | 1,024 |
أمان النموذج | إعدادات الأمان المطبَّقة تلقائيًا والتي يمكن للمطوّرين تعديلها. ويمكنك الانتقال إلى صفحة إعدادات الأمان للحصول على التفاصيل. |
الحدّ الأقصى لمعدّل الزحف[*] | 60 طلبًا في الدقيقة |
التعديل الأخير | ديسمبر 2023 |
يمكنك الاطّلاع على الأمثلة لاستكشاف إمكانات هذه الأشكال المختلفة للنماذج.
[*] يعادل الرمز المميّز حوالي 4 أحرف لطُرز Gemini. ويتألف 100 رمز مميّز من 60 إلى 80 كلمة إنجليزية.
[**] RPM: عدد الطلبات في الدقيقة
وحدة النظام الأساسي الموثوقة (TPM): الرموز المميّزة في الدقيقة
RPD: عدد الطلبات في اليوم
TPD: الرموز المميّزة في اليوم
لا يمكننا ضمان الحدّ الأقصى للسعر بسبب قيود الحدّ الأقصى.
أنماط اسم إصدار النموذج
تتوفّر طُرز Gemini إما في إصدار المعاينة أو الثابت. في التعليمات البرمجية، يمكنك استخدام أحد تنسيقات اسم النموذج التالية لتحديد الطراز والإصدار الذي تريد استخدامه.
الأحدث: تشير إلى أحدث نسخة من النموذج لجيل وصيغة محدّدة. يتم تحديث النموذج الأساسي بانتظام وقد يكون إصدار معاينة. يجب أن تستخدم تطبيقات الاختبار والنماذج الأوّلية الاستكشافية فقط هذا الاسم المستعار.
لتحديد أحدث إصدار، استخدِم النمط التالي:
<model>-<generation>-<variation>-latest
. مثلاً،gemini-1.0-pro-latest
.أحدث إصدار ثابت: يشير إلى أحدث إصدار ثابت تم طرحه لإنشاء النموذج والصيغة المحدّدة.
لتحديد أحدث إصدار ثابت، استخدِم النمط التالي:
<model>-<generation>-<variation>
. مثلاً:gemini-1.0-pro
ثابت: يشير إلى نموذج ثابت معيّن. لا تتغير النماذج الثابتة. يجب أن تستخدم معظم تطبيقات الإنتاج نموذجًا ثابتًا ومحددًا.
لتحديد إصدار ثابت، استخدِم النمط التالي:
<model>-<generation>-<variation>-<version>
. مثلاً،gemini-1.0-pro-001
.