تم تصميم مجموعة Gemini من نماذج الذكاء الاصطناعي للتعامل مع أنواعًا مختلفة من بيانات الإدخال، بما فيها النص والصور والمقاطع الصوتية. نظرًا لأن هذه يمكنها معالجة أكثر من نوع أو طريقة واحدة من البيانات، وهي نماذج Gemini اسم النماذج المتعدّدة الوسائط أو يتم توضيحها على أنّها تتضمّن إمكانات متعدّدة الوسائط.
تقدّم هذه الصفحة الإرشادات وأفضل الممارسات لاستخدام ملفات الوسائط مع الطلبات الخاصة بواجهة برمجة تطبيقات Gemini. للحصول على معلومات حول استخدام Gemini Files API في تحميل ملفات الوسائط وتضمينها في طلباتك، راجِع الرؤية والصوت أدلة معالجة المستندات
استخدام ملفات الوسائط من خلال الطلبات
إنّ استخدام أنواع مختلفة من البيانات في طلباتك يمنحك المزيد من من حيث المرونة في تحديد المهام التي يمكنك تنفيذها باستخدام Gemini API. بالنسبة على سبيل المثال، يمكنك أن ترسل إلى النموذج صورة لوجبة لذيذة وتطلب منه كتابة مدونة قصيرة عن الوجبة.
طلب | الردّ |
اكتب مشاركة مدونة قصيرة وجذابة استنادًا إلى هذه الصورة. يجب تضمين وصف الوجبة في الصورة والتحدث عن رحلتي تحضير الوجبات. |
يُعد تحضير الوجبات طريقة رائعة لتوفير الوقت والمال، ويمكن أن سيساعدك على التغذية الصحية. وتُعد هذه الوجبة مثالاً رائعًا على التغذية الصحية ووجبات لذيذة يمكن إعدادها بسهولة في وقت مبكر. وتشمل هذه الوجبة الأرز البني والخضار المشوية والدجاج التيرياكي. الأرز البني هو كربوهيدرات صحية ومعقدة ستمنحك طاقة مستدامة. الخضروات المشوية هي طريقة رائعة للحصول على من الفيتامينات والمعادن، ويعدّ دجاج ترياكي لذيذًا خيار غني بالبروتين. هذه الوجبة سهلة التحضير جدًا أيضًا. طهي الأرز البني المحمص والخضار وطهي الدجاج ترياكي. بمجرد طهي كل شيء، ونقسمه إلى أوعية لإعداد الوجبات ونخزنها في الثلاجة. يمكنك بعد ذلك أخذ حاوية والانطلاق في الصباح الباكر! إذا كنت تبحث عن وجبة صحية ولذيذة يمكنك معدة مسبقًا، فإن هذه الوجبة تعد خيارًا رائعًا. إنّه مليء والمغذيات والنكهة، ومن المؤكد أن تحافظ على شعورك بالشبع والرضا. استمتِع بتحضير وجبات صحية ولذيذة. |
استراتيجيات للطلب باستخدام الوسائط
في حال مواجهة مشكلة في الحصول على النتائج المطلوبة من الطلبات التي تستخدم وملفات الوسائط، فهناك بعض الاستراتيجيات التي يمكن أن تساعدك في الحصول على النتائج التي نريدها. تقدم الأقسام التالية مناهج التصميم واستكشاف الأخطاء وإصلاحها بشأن تحسين الطلبات التي تستخدم مدخلات متعددة الوسائط.
يمكنك تحسين الطلبات المتعدّدة الوسائط باتّباع أفضل الممارسات التالية:
-
أساسيات التصميم السريع
- كن دقيقًا في التعليمات: أنشِئ تعليمات واضحة وموجزة لترك مساحة محدودة لسوء التفسير.
- إضافة بعض الأمثلة إلى طلبك: استخدِم أمثلة واقعية قليلة لتوضيح ما تريد تحقيقه.
- التقسيم خطوة بخطوة: يمكنك تقسيم المهام المعقّدة إلى أهداف فرعية يمكن إدارتها، وتوجيه النموذج خلال العملية.
- تحديد تنسيق الإخراج: في طلبك، اطلب أن يكون الناتج بالتنسيق الذي تريده، مثل markdown وJSON وHTML وغير ذلك.
- عرض صورتك في المقام الأول للطلبات التي تتضمن صورة واحدة: مع أنّ Gemini يستطيع معالجة إدخالات الصور والنصوص بأي ترتيب، قد يحقّق أداءً أفضل إذا تم عرض تلك الصورة قبل الطلب النصي بالنسبة إلى الطلبات التي تحتوي على صورة واحدة.
-
تحديد وحلّ المشاكل في الطلب المتعدد الوسائط
- إذا لم يكن النموذج يرسم معلومات من الجزء ذي الصلة من الصورة: أفلِت تلميحات حول جوانب الصورة التي تريد أن تستخلص رسالة المطالبة معلومات منها.
- إذا كانت نتائج النموذج عامة جدًا (غير مخصّصة بما يكفي لملاءمة الصورة): في بداية الطلب، جرِّب أن تطلب من النموذج وصف الصور قبل تقديم تعليمات المهمة، أو جرِّب أن تطلب من النموذج الإشارة إلى محتوى الصورة.
أساسيات تصميم المطالبة
يتوسع هذا القسم في شرح أفضل الممارسات المدرجة في القسم السابق.
ملاحظة: يمكن أن تختلف نتائج النماذج من أمثلة Gemini التالية من ركض إلى ركض.
كن محددًا في تعليماتك
تحقق الطلبات أكبر قدر من النجاح عندما تكون واضحة ومفصلة. إذا كان لديك ناتج محدد في ذهنك، فمن الأفضل تضمين هذا الشرط في الطلب لضمان حصولك على المخرجات التي تريدها.
في بعض الأحيان، قد يبدو هدف الطلب واضحًا لمن كتبه، ولكنه في الواقع غير محدد بشكل كافٍ. لتخصيص سلوك النموذج، فكِّر في كيفية تفسير طلبك (بشكل خاطئ)، واحرص على أن تكون التعليمات التي تقدِّمها محدّدة وواضحة. تذكر ترك مساحة كافية لسوء التفسير
بالنسبة إلى هذه الصورة للوحة مطار، يطلب من النموذج "وصف هذه الصورة" فقط إنشاء وصف عام. إذا كنت تريد أن يحلل النموذج الوقت والمدينة من الصورة، يمكنك تضمين هذا الطلب مباشرةً في طلبك.
طلب واحد | استجابة النموذج |
---|---|
صِف هذه الصورة. |
تعرض الصورة لوحة لوصول ومغادرة المطار. |
الطلب المعدَّل | استجابة محسَّنة |
---|---|
حلّل الوقت والمدينة من لوحة المطار المعروضة في هذه الصورة إلى قائمة. |
إضافة بعض الأمثلة
يمكن لنموذج Gemini قبول إدخالات متعددة يمكن استخدامها كأمثلة لفهم الإخراج الذي تريده. ويمكن أن تساعد إضافة هذه الأمثلة النموذج في تحديد الأنماط وتطبيق العلاقة بين الصور والردود على المثال الجديد. وهذا ما يسمى أيضًا "لقطات قليلة" التعلم.
في المثال أدناه، تتم كتابة الإخراج الأولي في شكل جمل، كما يحتوي على (البرازيل). لنفترض أنك تريد الحصول على الناتج بتنسيق أو نمط مختلف، وتريد المدينة فقط، وليس البلد. يمكن أن تؤدي إضافة أمثلة لقطات قليلة إلى طلبك إلى توجيه النموذج الرد بالطريقة التي تريدها.
طلب | استجابة النموذج |
---|---|
حدِّد المدينة إلى جانب المَعلم. |
ويشكّل هذا المعلم تمثال المسيح الفادي في ريو دي جانيرو في البرازيل. |
الطلب المعدَّل | استجابة محسَّنة |
---|---|
حدِّد المدينة إلى جانب المَعلم. |
المدينة: روما، مَعلم: الكولوسيوم. |
المدينة: بكين، مَعلم: المدينة المحرمة |
|
المدينة: ريو دي جانيرو، المعلم السياحي: تمثال المسيح المخلّص |
التقسيم خطوة بخطوة
بالنسبة إلى المهام المعقّدة مثل تلك التي تتطلب الفهم المرئي والتحليل، قد يكون من المفيد لتقسيم المهمة إلى خطوات أصغر وأكثر وضوحًا. بدلاً من ذلك، قد يكون فعالاً أيضًا إذا اطلب من النموذج مباشرةً "التفكير خطوة بخطوة" في طلبك.
طلب واحد | استجابة النموذج |
---|---|
متى سينفد مناديل الحمام؟ |
يتبقّى قريبًا 3 لفات فقط. |
الطلب المعدَّل | استجابة محسَّنة |
---|---|
|
|
تعتبر المسائل الحسابية أو الأنواع الأخرى من المسائل الكلامية مرشحة بشكل كبير لمطالبة النموذج بالتفكير خطوة بخطوة.
طلب | الردّ |
---|---|
ما الحد الرابع في المتتالية؟ |
-135 |
استجابة النموذج غير صحيحة. ويمكن تحسين ذلك من خلال مطالبة النموذج بتحليل المشكلة قبل الإجابة على المطالبة.
طلب | الردّ |
---|---|
قم بتحليل الصيغة في الصورة أولاً. ثم بناءً على الصيغة، أجب بـ "ما الحد الرابع في التسلسل؟". |
انقر لتوسيع النتيجة.$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ وبالتالي، يكون الحد الرابع في التسلسل هو -405. |
هذا النموذج صحيح - والآن لجعل الإجابة أكثر سلاسة، يمكنك أن تطلب من النموذج التفكير خطوة بخطوة.
الطلب المعدَّل | استجابة محسَّنة |
---|---|
ما الحد الرابع في المتتالية؟ فكّر خطوة بخطوة. |
الحد الأول هو 15. الحد الثاني هو b(1) * (-3) = 15 * (-3) = -45. الحد الثالث هو b(2) * (-3) = -45 * (-3) = 135. الحد الرابع هو b(3) * (-3) = 135 * (-3) = -405. |
جرِّب تحديد تنسيق الإخراج.
هناك مشكلة شائعة تتمثل في الحاجة إلى أن يكون ناتج النموذج بتنسيق معين (مثل markdown وJSON وHTML)، خاصةً إذا كان ناتج النموذج يحتاج إلى مهمة سابقة. يمكنك محاولة الحصول على مخرجات بهذا التنسيق من خلال توجيه النموذج لتنفيذ ذلك ضمن المطالبة. وفي ما يلي مثالان على ذلك:
طلب واحد | استجابة النموذج |
---|---|
تحليل الجدول في هذه الصورة إلى تنسيق markdown |
| الموضوع | الحالة | الوقت | تاريخ البدء | موعد التسليم | | ------- | ------ | ---- | --------- | ------ | | الرياضيات | تم | 1.5 ساعة | 29/11/2023 | 12/1/2023 | | الموقع الجغرافي | تم | 30 دقيقة | 2/12/2023 | 4/12/2023 | | فيزياء | قيد التقدم | ساعتان | 3/12/2023 | 5/12/2023 | | علم الأحياء | لم تبدأ العملية | 6 ساعات | 2/11/2016 | 12/6/2023 | |
طلب | استجابة النموذج |
---|---|
قدِّم قائمة بجميع السمات التالية: المكونات، ونوع المطبخ، نباتي أم لا، بتنسيق JSON |
|
وضع صورتك أولاً في الطلبات التي تتضمّن صورة واحدة
يستطيع Gemini تفسير الصور والنص بأيّ ترتيب ضمن طلب، لكنّ وضع صورة واحدة قبل أن تؤدي المطالبة النصية إلى نتائج أفضل. في العينات التالية، ستلاحظ الصورة يأتي أولاً قبل النص في كل مطالبة.
تحديد وحلّ المشاكل في الطلب المتعدد الوسائط
قد تحتاج إلى تحديد المشاكل وحلّها في طلبك إذا لم تحصل على ردّ مفيد. إليك بعض الاستراتيجيات التي يمكنك تجربتها.
إذا كان النموذج لا يستخرج معلومات من الجزء ذي الصلة من الصورة
للحصول على رد أكثر تحديدًا، يمكنك الإشارة إلى جوانب الصورة التي تريد أن تظهر في الطلب استخلاص المعلومات منه لإبلاغ استجابته.
طلب واحد | استجابة النموذج |
---|---|
كم عدد الأيام التي ستستغرقها هذه الحفاضات لطفل طفل؟ |
وتستمرّ الحفاضات لمدة 198 يومًا قبل أن تنفد. |
الطلب المعدَّل | استجابة محسَّنة |
---|---|
كم من الوقت ستدوم هذه الحفاضات قبل أن ينفد؟ استخدم الوزن الموضح على العلبة لتحديد عمر الطفل، واستخدم إجمالي عدد الحفاضات في العلبة. اقسم العدد الإجمالي على عدد حفاضات الطفل في اليوم. |
يحتوي العلبة على 198 حفاضة. ينص الصندوق على أن الحفاضات للأطفال الذين يزن 22-37 رطلاً. ويُحتمل أن يتراوح متوسط الطفل في نطاق الوزن هذا بين سنة وسنتين. عادةً ما يحتاج الطفل البالغ من العمر عامين إلى 6 حفاضات في اليوم، وبالتالي، تستمر الحفاضات حوالي 33 يومًا (198/6). |
إذا كان ناتج النموذج عامًا جدًا وغير مخصَّص بدرجة كافية لإدخال الصورة
لمساعدة النموذج في تخصيص استجابته للصورة(الصور)، حاول أن تطلب منه وصف الصور قبل تنفيذ المهمة الاستنتاجية.
طلب واحد | استجابة النموذج |
---|---|
ما القاسم المشترك بين هذه الصور؟ |
جميع الصور الأربع هي أمثلة لتصوير المناظر الطبيعية. |
الطلب المعدَّل | استجابة محسَّنة |
---|---|
أولاً، عليك وصف مضمون كل صورة بالتفصيل. ما القاسم المشترك بين هذه الصور؟ |
تُظهر الصورة الأولى شخصًا يضع حقيبة سفر. تُظهر الصورة الثانية رواقًا فارغًا في مركز تسوق. تعرض الصورة الثالثة لفة ورق مرحاض. تُظهر الصورة الرابعة بحرًا مظلمًا وعاصفًا. القاسم المشترك بين هذه الصور هو أنها كلها أمثلة على المسافات الكسرية. المساحات الضيقة هي أماكن أو مواقف تقع بين مكانين أو موقفين آخرين. غالبًا ما تتميز بإحساس بعدم اليقين أو الغموض. تُظهر الصورة الأولى الشخص بين تواجده في المنزل وكونه في رحلة. تُظهر الصورة الثانية الردهة بين متجرين. الصورة الثالثة عبارة عن ورق مرحاض، والذي يمكن أن يمثل حمّامًا. الحمام هو مساحة انتقالية بين وعوالم عامة. فهو مكان نستعد فيه للدخول إلى العالم الخارجي أو مغادرته. تُظهر الصورة الرابعة البحر بين الهدوء والعواصف. يمكن أن تكون المساحات الضيقة مثيرة ومربكة. يمكن أن تكون مكان بداية جديدة أو مكان نهايات. يمكن أن تكون مكانًا للانعكاس أو اتخاذ إجراء. |
يمكنك أيضًا محاولة مطالبة النموذج صراحةً بالرجوع إلى محتوى الصورة.
الطلب المعدَّل | استجابة محسَّنة |
---|---|
ما القاسم المشترك بين هذه الصور؟ راجِع محتوى الصور في ردّك. |
جميع الصور ذات صلة بالسفر. تعرض الصورة الأولى شخصًا يضع حقيبة سفر، بينما تعرض الصورة الثانية مدخل فارغ في مركز تسوق، وتُظهر الصورة الثالثة كومة من ورق الحمام، بينما توضح الصورة الرابعة بحر مظلم وعاصفة. ترتبط هذه الصور جميعها بالسفر لأنها كلها أشياء يحتاج إليها الناس أو يستخدمونها عندما يسافرون. تعرض الصورة الأولى شخصًا يحزم حقيبة سفر، وهو ما يفعله الأشخاص عندما ذاهبًا في رحلة. توضح الصورة الثانية رواقًا فارغًا في أحد مراكز التسوق، وهو مكان يمكن للأشخاص فيه غالبًا ما يذهبون لشراء أشياء لرحلاتهم. تعرض الصورة الثالثة كومة من ورق المرحاض، وهو شيء التي غالبًا ما يستخدمها الناس عند سفرهم. توضح الصورة الرابعة بحرًا مظلمًا وعاصفًا، وهو شيء يواجهه غالبًا عند سفره. |
تنطبق النصائح نفسها على إخراج المواد الإبداعية من الصور. في المثال التالي مع الأرنب، الذي يطلب صراحةً من النموذج تضمين جوانب من الصورة يمكن أن يحسن الإخراج.
طلب واحد | استجابة النموذج |
---|---|
هل يمكنك أن تكتب لي قصيدة عن هذه الصورة؟ |
أرنب صغير ناعم جدًا وبني، أنت تأكل على العشب الأخضر اللطيف جدًا، |
الطلب المعدَّل | استجابة محسَّنة |
---|---|
هل يمكنك أن تكتب لي قصيدة وصفية ودرامية عن هذه الصورة مع ذكر الموقع الجغرافي؟ |
أرنب صغير على الأخضر، هل لون المحيط أزرق، أرنب صغير، أخبرني الحقيقة، ربما يكمن في ذلك كله، الأرنب الصغير، أتساءل عمّا تحلم، أيا كان الأمر، أي أرنب صغير، |
تحديد وحلّ المشاكل التي تعذّر إجراؤها من الطلب
وقد يكون من الصعب معرفة ما إذا كانت المطالبة قد فشلت لأن نموذج لم يفهم الصورة في البداية أو إذا كان يفهم الصورة ولكن لم ينفّذ الخطوات الاستنتاجية الصحيحة بعد ذلك
لتمييز هذه الأسباب، اطلب من النموذج وصف مضمون الصورة.
في هذا المثال أدناه، إذا استجاب النموذج بوجبة خفيفة تبدو مفاجئة عند إقرانها مع الشاي (مثل الفشار)، يمكنك أولاً استكشاف الأخطاء وإصلاحها لتحديد ما إذا تم التعرف على النموذج بشكل صحيح أم لا لأن الصورة تحتوي على شاي.
طلب واحد | طلب تحديد المشاكل وحلّها |
---|---|
ما هو الوجبات الخفيفة التي يمكنني إعدادها خلال دقيقة واحدة وتكون مناسبة لها؟ |
صِف محتوى هذه الصورة. |
وهناك استراتيجية أخرى تتمثل في أن تطلب من النموذج شرح أسبابه. يمكن أن يساعدك ذلك في تضييق نطاق الأسباب، إن وجدت.
طلب واحد | طلب تحديد المشاكل وحلّها |
---|---|
ما هو الوجبات الخفيفة التي يمكنني إعدادها خلال دقيقة واحدة وتكون مناسبة لها؟ |
ما هو الوجبات الخفيفة التي يمكنني إعدادها خلال دقيقة واحدة وتكون مناسبة لها؟ يُرجى توضيح السبب. |
ضبط معلمات أخذ العينات
في كل طلب، لا يتم إرسال المطالبة متعددة الوسائط فحسب إلى النموذج فحسب، بل ترسل أيضًا مجموعة من معلمات أخذ العينات إلى النموذج. يمكن أن ينتج عن النموذج نتائج مختلفة لقيم مختلفة للمعلَمات. جرّب المعاملات للحصول على أفضل القيم للمهمة. فيما يلي المعلمات الأكثر شيوعًا التي يتم تعديلها:
- درجة الحرارة
- أعلى-P
- أعلى درجة
درجة الحرارة
يتم استخدام درجة الحرارة لأخذ عينات من المحتوى أثناء إنشاء الردود، ويحدث ذلك عند تطبيق القيم الأعلى (P) وأعلى ك".
يتحكّم خيار "درجة الحرارة" في درجة العشوائية عند اختيار الرمز المميّز. تكون درجات الحرارة المنخفضة جيدة للطلبات التي
تتطلب استجابة أكثر حسمًا وأقل انفتاحًا أو إبداعًا، في حين يمكن أن تؤدي درجات الحرارة الأعلى إلى
نتائج متنوعة أو إبداعية. درجة الحرارة 0 هي حاسمة، ما يعني أن أعلى استجابة للاحتمالية
محددة دائمًا.
في معظم حالات الاستخدام، جرِّب البدء بدرجة حرارة 0.4. إذا كنت بحاجة إلى المزيد من النتائج الإبداعية، حاوِل زيادة درجة الحرارة. إذا لاحظت الهلوسة واضحة، جرِّب تقليل درجة الحرارة.
أعلى درجة
تُغيّر هذه القيم كيفية اختيار النموذج للرموز المميّزة للمخرجات. يعني ظهور رمز الحرف 1 في أعلى يمين الرمز أن الرمز المميّز التالي
الأكثر احتمالاً من بين جميع الرموز المميزة في مفردات النموذج (وتسمى أيضًا فك الترميز الجشع)، في حين أن
يعني ظهور حرف K أعلى 3 أنه تم اختيار الرمز التالي من بين أكثر ثلاثة رموز ترجيحية
باستخدام درجة الحرارة.
ولكل خطوة من خطوات اختيار الرموز المميّزة، يتم أخذ عينات من الرموز المميّزة ذات أعلى الألفاظ ذات الاحتمالات الأعلى. بَعْدَ ذَلِكْ تتم تصفية الرموز المميزة بشكل أكبر بناءً على الجزء العلوي P مع تحديد الرمز النهائي النهائي باستخدام تحليل درجة الحرارة.
وعليك تحديد قيمة أقل للردود العشوائية الأقل وقيمة أعلى للردود العشوائية بشكل أكبر. القيمة التلقائية لأعلى كيلوبايت هي 32.
قمة P
يغيّر الجزء العلوي-P كيفية اختيار النموذج للرموز المميّزة للمخرجات. اختيار عدد من الرموز المميّزة (راجِع أعلى ألف)
إلى الأقل احتمالاً حتى يساوي مجموع احتماليةهما القيمة الأعلى P. على سبيل المثال،
إذا كانت الرموز المميزة
تمتلك احتمالية A وB وC لاحتمالية 0.6 و0.3 و0.1 وأعلى قيمة P هي 0.9، وبالتالي فإن النموذج
اختَر A أو B كرمز مميّز تالٍ باستخدام درجة الحرارة مع استبعاد C من القيم المرشحة.
وعليك تحديد قيمة أقل للردود العشوائية الأقل وقيمة أعلى للردود العشوائية بشكل أكبر. القيمة التلقائية لأعلى P هي 1.0.
الخطوات التالية
- كتابة طلباتك المتعددة الوسائط باستخدام تكنولوجيات الذكاء الاصطناعي من Google الاستوديو.
- لمزيد من الإرشادات حول تصميم الطلبات، راجع استراتيجيات الطلب