Files API
يمكن لنموذج Gemini التعامل مع أنواع مختلفة من بيانات الإدخال، بما في ذلك النصوص والصور والمقاطع الصوتية، في الوقت نفسه.
يوضّح لك هذا الدليل كيفية التعامل مع ملفات الوسائط باستخدام Files API. تكون العمليات الأساسية هي نفسها بالنسبة إلى الملفات الصوتية والصور والفيديوهات والمستندات وأنواع الملفات الأخرى المتوافقة.
للحصول على إرشادات بشأن دليل كتابة الطلبات للملفات، يُرجى الاطّلاع على قسم دليل كتابة الطلبات للملفات.
تحميل ملف
يمكنك استخدام Files API لتحميل ملف وسائط. استخدِم دائمًا Files API عندما يتجاوز إجمالي حجم الطلب (بما في ذلك الملفات والنص الموجّه وتعليمات النظام وما إلى ذلك) 100 ميغابايت. بالنسبة إلى ملفات PDF، يبلغ الحدّ الأقصى 50 ميغابايت.
يحمّل الرمز التالي ملفًا ثم يستخدمه في طلب إلى generateContent.
Python
from google import genai
client = genai.Client()
myfile = client.files.upload(file="path/to/sample.mp3")
response = client.models.generate_content(
model="gemini-3.5-flash", contents=["Describe this audio clip", myfile]
)
print(response.text)
JavaScript
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: createUserContent([
createPartFromUri(myfile.uri, myfile.mimeType),
"Describe this audio clip",
]),
});
console.log(response.text);
}
await main();
Go
file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
defer client.Files.Delete(ctx, file.Name)
resp, err := client.Models.GenerateContent(ctx, "gemini-3.5-flash", []*genai.Content{
{
Parts: []*genai.Part{
genai.NewPartFromFile(*file),
genai.NewPartFromText("Describe this audio clip"),
},
},
}, nil)
if err != nil {
log.Fatal(err)
}
printResponse(resp)
REST
AUDIO_PATH="path/to/sample.mp3"
MIME_TYPE=$(file -b --mime-type "${AUDIO_PATH}")
NUM_BYTES=$(wc -c < "${AUDIO_PATH}")
DISPLAY_NAME=AUDIO
tmp_header_file=upload-header.tmp
# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-D "${tmp_header_file}" \
-H "X-Goog-Upload-Protocol: resumable" \
-H "X-Goog-Upload-Command: start" \
-H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
-H "Content-Type: application/json" \
-d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null
upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"
# Upload the actual bytes.
curl "${upload_url}" \
-H "Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Offset: 0" \
-H "X-Goog-Upload-Command: upload, finalize" \
--data-binary "@${AUDIO_PATH}" 2> /dev/null > file_info.json
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri
# Now generate content using that file
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts":[
{"text": "Describe this audio clip"},
{"file_data":{"mime_type": "${MIME_TYPE}", "file_uri": '$file_uri'}}]
}]
}' 2> /dev/null > response.json
cat response.json
echo
jq ".candidates[].content.parts[].text" response.json
الحصول على البيانات الوصفية لملف
يمكنك التأكّد من أنّ واجهة برمجة التطبيقات خزّنت الملف الذي تم تحميله بنجاح والحصول على بياناته الوصفية من خلال طلب files.get.
Python
from google import genai
client = genai.Client()
myfile = client.files.upload(file='path/to/sample.mp3')
file_name = myfile.name
myfile = client.files.get(name=file_name)
print(myfile)
JavaScript
import {
GoogleGenAI,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const fileName = myfile.name;
const fetchedFile = await ai.files.get({ name: fileName });
console.log(fetchedFile);
}
await main();
Go
file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
gotFile, err := client.Files.Get(ctx, file.Name)
if err != nil {
log.Fatal(err)
}
fmt.Println("Got file:", gotFile.Name)
REST
# file_info.json was created in the upload example
name=$(jq ".file.name" file_info.json)
# Get the file of interest to check state
curl https://generativelanguage.googleapis.com/v1beta/files/$name \
-H "x-goog-api-key: $GEMINI_API_KEY" > file_info.json
# Print some information about the file you got
name=$(jq ".file.name" file_info.json)
echo name=$name
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri
عرض الملفات المحمَّلة
يحصل الرمز التالي على قائمة بجميع الملفات التي تم تحميلها:
Python
from google import genai
client = genai.Client()
print('My files:')
for f in client.files.list():
print(' ', f.name)
JavaScript
import {
GoogleGenAI,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const listResponse = await ai.files.list({ config: { pageSize: 10 } });
for await (const file of listResponse) {
console.log(file.name);
}
}
await main();
Go
for file, err := range client.Files.All(ctx) {
if err != nil {
log.Fatal(err)
}
fmt.Println(file.Name)
}
REST
echo "My files: "
curl "https://generativelanguage.googleapis.com/v1beta/files" \
-H "x-goog-api-key: $GEMINI_API_KEY"
حذف الملفات التي تم تحميلها
يتم حذف الملفات تلقائيًا بعد 48 ساعة، ويمكنك أيضًا حذف ملف تم تحميله يدويًا باتّباع الخطوات التالية:
Python
from google import genai
client = genai.Client()
myfile = client.files.upload(file='path/to/sample.mp3')
client.files.delete(name=myfile.name)
JavaScript
import {
GoogleGenAI,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const fileName = myfile.name;
await ai.files.delete({ name: fileName });
}
await main();
Go
file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
client.Files.Delete(ctx, file.Name)
REST
curl --request "DELETE" https://generativelanguage.googleapis.com/v1beta/files/$name \
-H "x-goog-api-key: $GEMINI_API_KEY"
معلومات الاستخدام
يمكنك استخدام واجهة برمجة التطبيقات Files API لتحميل ملفات الوسائط والتفاعل معها. تتيح لك Files API تخزين ما يصل إلى 20 غيغابايت من الملفات لكل مشروع، مع حد أقصى لحجم الملف الواحد يبلغ 2 غيغابايت. يتم تخزين الملفات لمدة 48 ساعة. خلال هذه الفترة، يمكنك استخدام واجهة برمجة التطبيقات للحصول على البيانات الوصفية الخاصة بالملفات، ولكن لا يمكنك تنزيل الملفات. تتوفّر واجهة برمجة التطبيقات Files API مجانًا في جميع المناطق التي تتوفّر فيها واجهة برمجة التطبيقات Gemini API.
استراتيجيات طلب الملفات
يقدّم هذا القسم إرشادات وأفضل الممارسات لاستخدام ملفات الوسائط مع الطلبات في Gemini API.
يتيح لك استخدام أنواع مختلفة من البيانات في طلباتك مرونة أكبر في ما يتعلّق بالمهام التي يمكنك إنجازها باستخدام Gemini API. على سبيل المثال، يمكنك إرسال صورة وجبة لذيذة إلى النموذج وطلب كتابة مدوّنة قصيرة عنها.
| الطلب | الردّ |
|
اكتب منشورًا موجزًا وجذّابًا على المدوّنة استنادًا إلى هذه الصورة. يجب أن يتضمّن وصفًا للوجبة في الصورة وأن يتحدّث عن رحلتي في إعداد الوجبات مسبقًا.
|
يُعدّ تحضير الوجبات مسبقًا طريقة رائعة لتوفير الوقت والمال، ويمكن أن يساعدك أيضًا في تناول طعام صحي. هذه الوجبة هي مثال رائع على وجبة صحية ولذيذة يمكن تحضيرها بسهولة مسبقًا. تتضمّن هذه الوجبة الأرز الأسمر والخضروات المشوية ودجاج الترياكي. فالأرز الأسمر هو كربوهيدرات صحية ومعقّدة تمنحك الطاقة المستدامة، والخضروات المشوية هي طريقة رائعة للحصول على الجرعة اليومية من الفيتامينات والمعادن، ودجاج الترياكي هو خيار لذيذ وغني بالبروتين. هذه الوجبة سهلة التحضير أيضًا، فكل ما عليك فعله هو طهي الأرز الأسمر وشوي الخضروات وطهي دجاج الترياكي، ثم تقسيمها إلى عبوات مخصصة لتحضير الوجبات وتخزينها في الثلاجة، لتتمكّن من تناولها في الصباحات المزدحمة. إذا كنت تبحث عن وجبة صحية ولذيذة يمكن تحضيرها بسهولة مسبقًا، فهذه الوجبة هي الخيار الأمثل، فهي غنية بالعناصر الغذائية والنكهة، ومن المؤكد أنّها ستجعلك تشعر بالشبع والرضا. نتمنى لك وجبات صحية ولذيذة! |
إذا كنت تواجه مشكلة في الحصول على النتائج المطلوبة من الطلبات التي تستخدم ملفات وسائط، إليك بعض الاستراتيجيات التي يمكن أن تساعدك في الحصول على النتائج التي تريدها. تقدّم الأقسام التالية طرقًا لتصميم الطلبات ونصائح حول تحديد المشاكل وحلّها لتحسين الطلبات التي تستخدم الإدخال المتعدّد الوسائط.
يمكنك تحسين طلباتك المتعدّدة الوسائط باتّباع أفضل الممارسات التالية:
-
أساسيات تصميم الطلبات
- كن دقيقًا في تعليماتك: صِغ تعليمات واضحة وموجزة لا تترك مجالاً كبيرًا لإساءة الفهم.
- إضافة بعض الأمثلة إلى طلبك: استخدِم أمثلة واقعية قليلة اللقطات لتوضيح ما تريد تحقيقه.
- التقسيم إلى خطوات: قسِّم المهام المعقّدة إلى أهداف فرعية يسهل تنفيذها، ما يساعد النموذج في إكمال العملية.
- تحديد تنسيق الإخراج: في طلبك، اطلب أن يكون الإخراج بالتنسيق الذي تريده، مثل Markdown وJSON وHTML وغير ذلك.
- وضع صورتك أولاً في الطلبات التي تتضمّن صورة واحدة: على الرغم من أنّ Gemini يمكنه التعامل مع مدخلات الصور والنصوص بأي ترتيب، قد يكون أداؤه أفضل في الطلبات التي تتضمّن صورة واحدة إذا تم وضع هذه الصورة (أو الفيديو) قبل طلب النص. ومع ذلك، بالنسبة إلى الطلبات التي تتطلّب أن تكون الصور متداخلة بشكل كبير مع النصوص لكي تكون مفهومة، استخدِم الترتيب الأكثر طبيعية.
-
تحديد المشاكل في الطلب المتعدد الوسائط وحلّها
- إذا كان النموذج لا يستخلص المعلومات من الجزء ذي الصلة في الصورة: أضِف تلميحات حول الجوانب التي تريد أن يستخلص الطلب المعلومات منها.
- إذا كانت مخرجات النموذج عامة جدًا (غير مخصّصة بشكل كافٍ للصورة أو الفيديو المُدخَل): في بداية الطلب، جرِّب أن تطلب من النموذج وصف الصور أو الفيديو قبل تقديم تعليمات المهمة، أو جرِّب أن تطلب من النموذج الإشارة إلى ما يظهر في الصورة.
- لتحديد الجزء الذي تعذّر تنفيذه: اطلب من النموذج وصف الصورة أو شرح أسباب عدم تنفيذه للطلب، وذلك لتقييم فهم النموذج الأوّلي.
- إذا أدّى طلبك إلى الهلوسة في المحتوى: جرِّب خفض إعداد درجة العشوائية أو اطلب من النموذج تقديم أوصاف أقصر لتقليل احتمالية استقراء تفاصيل إضافية.
- ضبط مَعلَمات اختيار العيّنات: جرِّب إعدادات مختلفة لدرجة العشوائية وخيارات top-k لضبط مستوى إبداع النموذج.
كن محدّدًا في تعليماتك
تكون الطلبات أكثر فعاليةً عندما تكون واضحة ومفصّلة. إذا كان لديك ناتج محدّد في ذهنك، من الأفضل تضمين هذا الشرط في الطلب لضمان الحصول على الناتج المطلوب.
بالنسبة إلى هذه الصورة التي تعرض لوحة في المطار، قد يؤدي الطلب من النموذج "وصف هذه الصورة" إلى إنشاء وصف عام. إذا كنت بحاجة إلى أن يحلّل النموذج الوقت والمدينة من الصورة، يمكنك تضمين هذا الطلب مباشرةً في طلبك.
| الطلب | ردّ النموذج |
|---|---|
صِف هذه الصورة. |
تعرض الصورة لوحة مواعيد الوصول والمغادرة في المطار. |
| طلب معدَّل | ردود محسّنة |
|---|---|
![]() حوِّل الوقت والمدينة من لوحة المطار الظاهرة في هذه الصورة إلى قائمة. |
إضافة بعض الأمثلة
يمكن لنموذج Gemini قبول مدخلات متعددة يمكنه استخدامها كأمثلة لفهم الناتج الذي تريده. يمكن أن تساعد إضافة هذه الأمثلة النموذج في تحديد الأنماط وتطبيق العلاقة بين الصور والردود المحدّدة على المثال الجديد. يُعرف ذلك أيضًا باسم التعلّم ببضع فُرَص.
في المثال أدناه، تمت كتابة الناتج الأولي في شكل جملة، كما أنّه يتضمّن البلد (البرازيل). لنفترض أنّك تريد الناتج بتنسيق أو أسلوب مختلفين، وأنّك تريد المدينة فقط، وليس البلد. يمكن أن يؤدي إضافة أمثلة قليلة إلى طلبك إلى توجيه النموذج للاستجابة بالطريقة التي تريدها.
| الطلب | ردّ النموذج |
|---|---|
![]() حدِّد المدينة والمعلم. |
المعلم البارز هو تمثال "المسيح الفادي" في ريو دي جانيرو، البرازيل. |
| طلب معدَّل | ردود محسّنة |
|---|---|
|
حدِّد المدينة والمعلم.
|
المدينة: روما، المعلم: الكولوسيوم |
|
المدينة: بكين، المعلم: المدينة المحرّمة |
|
مدينة: ريو دي جانيرو، معلم: تمثال المسيح الفادي |
التقسيم إلى خطوات
بالنسبة إلى المهام المعقّدة، مثل تلك التي تتطلّب فهمًا بصريًا واستدلالاً، قد يكون من المفيد تقسيم المهمة إلى خطوات أصغر وأكثر وضوحًا. يمكنك أيضًا أن تطلب من النموذج مباشرةً "التفكير خطوة بخطوة" في طلبك.
| الطلب | ردّ النموذج |
|---|---|
متى سينتهي ورق المرحاض؟ |
سيتبقى لديك قريبًا 3 لفات فقط. |
| طلب معدَّل | ردود محسّنة |
|---|---|
![]()
|
|
تُعدّ المسائل الرياضية أو الأنواع الأخرى من المسائل الكلامية خيارًا رائعًا لطلب من النموذج التفكير خطوة بخطوة.
| الطلب | الردّ |
|---|---|
![]()
ما هو الحد الرابع في المتسلسلة؟ |
-135 |
الردّ الذي قدّمه النموذج غير صحيح. يمكنك تحسين ذلك من خلال الطلب من النموذج تحليل المشكلة قبل الإجابة عن الطلب.
| الطلب | الردّ |
|---|---|
![]()
عليك أولاً تحليل الصيغة في الصورة. بعد ذلك، استنادًا إلى الصيغة، أجب عن السؤال "ما هو الحد الرابع في المتسلسلة؟". |
انقر لتوسيع النتيجة$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ وبالتالي، يكون الحد الرابع في المتسلسلة هو -405. |
ردّ النموذج هذا صحيح، ولكن لجعل الردّ أكثر سلاسة، يمكنك أن تطلب من النموذج التفكير خطوة بخطوة.
| طلب معدَّل | ردود محسّنة |
|---|---|
ما هو الحد الرابع في المتسلسلة؟ فكِّر خطوة بخطوة. |
الحدّ الأول هو 15. الحد الثاني هو b(1) * (-3) = 15 * (-3) = -45. الحد الثالث هو b(2) * (-3) = -45 * (-3) = 135. الحد الرابع هو b(3) * (-3) = 135 * (-3) = -405. |
تحديد تنسيق الإخراج
من المشاكل الشائعة الحاجة إلى أن تكون نتائج النموذج بتنسيق معيّن (مثل Markdown أو JSON أو HTML)، خاصةً إذا كانت نتائج النموذج بحاجة إلى أن يتم استيعابها من خلال مهمة لاحقة. يمكنك محاولة إنتاج مخرجات بهذا التنسيق من خلال توجيه النموذج إلى ذلك ضمن الطلب. في ما يلي مثالان:
| الطلب | ردّ النموذج |
|---|---|
تحليل الجدول في هذه الصورة إلى تنسيق Markdown |
| الموضوع | الحالة | الوقت | تاريخ البدء | تاريخ الاستحقاق | | ------- | ------ | ---- | ---------- | ------ | | رياضيات | تم | 1.5 ساعة | 29/11/2023 | 1/12/2023 | | الموقع الجغرافي | تمّت | 30 دقيقة | 2/12/2023 | 4/12/2023 | | الفيزياء | قيد التقدم | ساعتان | 3/12/2023 | 5/12/2023 | | علم الأحياء | لم تبدأ | 6 ساعات | 2/11/2016 | 6/12/2023 | |
| الطلب | ردّ النموذج |
|---|---|
قدِّم قائمة بجميع السمات التالية: المكوّنات ونوع المطبخ ونباتي أو غير نباتي، بتنسيق JSON |
|
وضع صورتك أولاً في الطلبات التي تتضمّن صورة واحدة
مع أنّ Gemini يمكنه تفسير الصورة والنص بأي ترتيب ضمن الطلب، قد يؤدي وضع صورة واحدة قبل الطلب النصي إلى تحقيق نتائج أفضل. في النماذج التالية، ستلاحظ أنّ الصورة تأتي أولاً قبل النص في كل طلب.
تحديد المشاكل في الطلب المتعدد الوسائط وحلّها
قد تحتاج إلى تحديد المشكلة في طلبك وحلّها إذا لم تحصل على ردّ مفيد. إليك بعض الاستراتيجيات التي يمكنك تجربتها.
إذا كان النموذج لا يستخلص المعلومات من الجزء ذي الصلة في الصورة
للحصول على ردّ أكثر تحديدًا، يمكنك الإشارة إلى الجوانب التي تريد أن يستند إليها الطلب في استخلاص المعلومات لتضمينها في الردّ.
| الطلب | ردّ النموذج |
|---|---|
كم عدد الأيام التي ستكفي فيها هذه الحفاضات الطفل؟ |
ستكفي الحفاضات لمدة 198 يومًا قبل أن تنتهي. |
| طلب معدَّل | ردود محسّنة |
|---|---|
كم من الوقت ستدوم هذه الحفاضات قبل أن تنتهي؟ استخدِم الوزن الموضّح على العلبة لتحديد عمر الطفل، واستخدِم إجمالي عدد الحفاضات في العلبة. قسِّم العدد الإجمالي على عدد الحفاضات التي يستخدمها الطفل في اليوم الواحد. |
يحتوي الصندوق على 198 حفاضة، ويشير إلى أنّ الحفاضات مناسبة لطفل يزن 22 إلى 37 رطلاً. من المرجّح أنّ متوسط عمر الطفل في هذا النطاق من الوزن يتراوح بين سنة واحدة وسنتين. يستخدم الطفل البالغ من العمر عامَين عادةً 6 حفاضات في اليوم، وبالتالي ستدوم الحفاضات حوالي 33 يومًا (198/6). |
إذا كانت مخرجات النموذج عامة جدًا وغير مخصّصة بشكل كافٍ للصورة المُدخَلة
لمساعدة النموذج في تخصيص رده وفقًا للصور، جرِّب أن تطلب منه وصف الصور قبل تنفيذ مهمة الاستنتاج.
| الطلب | ردّ النموذج |
|---|---|
ما هو الشيء المشترك بين هذه الصور؟ |
جميع الصور الأربع هي أمثلة على التصوير الفوتوغرافي للمناظر الطبيعية. |
| طلب معدَّل | ردود محسّنة |
|---|---|
ابدأ بوصف محتوى كل صورة بالتفصيل. ما هو الشيء المشترك بين هذه الصور؟ |
تعرض الصورة الأولى شخصًا يحزم حقيبة سفر، وتعرض الصورة الثانية ممرًا فارغًا في مركز تسوّق، وتعرض الصورة الثالثة لفة ورق حمام، وتعرض الصورة الرابعة بحرًا مظلمًا وعاصفًا. القاسم المشترك بين هذه الصور هو أنّها كلها أمثلة على المساحات الحدّية. المساحات الحدّية هي أماكن أو مواقف تقع بين مكانَين أو موقفَين آخرَين. وغالبًا ما تتميّز هذه الألعاب بإحساس بعدم اليقين أو الغموض. تعرض الصورة الأولى شخصًا في مكان وسيط بين المنزل والرحلة، بينما تعرض الصورة الثانية ممرًا وسيطًا بين متجرَين، أما الصورة الثالثة فتُظهر ورق حمام، وهو ما يرمز إلى الحمّام الذي يمثّل مكانًا وسيطًا بين المساحات الخاصة والعامة، وهو المكان الذي نستعد فيه للدخول إلى العالم الخارجي أو مغادرته. تعرض الصورة الرابعة البحر بين الهدوء والعاصفة. يمكن أن تكون المساحات الحدّية مثيرة ومزعجة في الوقت نفسه، ويمكن أن تكون مكانًا لبدايات جديدة أو نهايات، أو مكانًا للتفكير أو العمل. |
يمكنك أيضًا تجربة الطلب من النموذج بشكل صريح الإشارة إلى ما يظهر في الصورة.
| طلب معدَّل | ردود محسّنة |
|---|---|
ما هو الشيء المشترك بين هذه الصور؟ يجب أن تشير في ردّك إلى محتوى الصور. |
جميع الصور مرتبطة بالسفر. تعرض الصورة الأولى شخصًا يحزم حقيبة، وتعرض الصورة الثانية ممرًا فارغًا في مركز تسوّق، وتعرض الصورة الثالثة رزمة من ورق المرحاض، وتعرض الصورة الرابعة بحرًا مظلمًا وعاصفًا. هذه الصور مرتبطة بالسفر لأنّها تتضمّن أشياء يحتاجها الأشخاص أو يستخدمونها عند السفر. تُظهر الصورة الأولى شخصًا يحزم حقيبة سفر، وهو أمر يفعله الأشخاص عندما يذهبون في رحلة. تُظهر الصورة الثانية ممرًا فارغًا في مركز تسوّق، وهو مكان يذهب إليه الأشخاص غالبًا لشراء أشياء لرحلاتهم. تُظهر الصورة الثالثة رزمة من ورق المرحاض، وهو شيء يستخدمه الأشخاص غالبًا عند السفر. تُظهر الصورة الرابعة بحرًا مظلمًا وعاصفًا، وهو شيء يواجهه الأشخاص غالبًا عند السفر. |
تنطبق النصائح نفسها على النتائج الإبداعية المستندة إلى الصور. في المثال التالي الذي يتضمّن الأرنب، يمكن أن يؤدي الطلب الصريح من النموذج تضمين جوانب من الصورة إلى تحسين النتيجة.
| الطلب | ردّ النموذج |
|---|---|
هل يمكنك كتابة قصيدة حول هذه الصورة؟ |
أرنب صغير، ناعم وبني، تأكل العشب الأخضر الحلو |
| طلب معدَّل | ردود محسّنة |
|---|---|
هل يمكنك كتابة قصيدة وصفية مؤثرة حول هذه الصورة وتضمين الموقع الجغرافي فيها؟ |
أرنب صغير على العشب الأخضر، هل هو لون البحر الأزرق أرنب صغير، أخبرني الحقيقة، ربما يكمن الجمال في اتساع العالم، أيها الأرنب الصغير، أتساءل عمّا تحلم به، مهما كان حلمك يا أرنبي الصغير، |
تحديد الجزء الذي تعذّر تنفيذه من الطلب وحلّ المشكلة
قد يصعب معرفة ما إذا كان الطلب قد فشل لأنّ النموذج لم يفهم الصورة في البداية، أو لأنّه فهم الصورة ولكنّه لم ينفّذ خطوات الاستنتاج الصحيحة بعد ذلك. ولتوضيح الفرق بين هذين السببين، اطلب من النموذج وصف محتوى الصورة.
في المثال التالي، إذا ردّ النموذج بوجبة خفيفة تبدو غير متوقعة عند تناولها مع الشاي (مثل الفشار)، يمكنك أولاً تحديد المشاكل لمعرفة ما إذا كان النموذج قد تعرّف بشكل صحيح على أنّ الصورة تحتوي على شاي.
| الطلب | طلب تحديد المشاكل وحلّها |
|---|---|
ما هي الوجبة الخفيفة التي يمكنني إعدادها في دقيقة واحدة وتتناسب مع هذا؟ |
صِف محتوى هذه الصورة. |
هناك استراتيجية أخرى تتمثل في مطالبة النموذج بتوضيح أسباب استنتاجاته. ويمكن أن يساعدك ذلك في تحديد الجزء الذي حدث فيه خطأ في الاستنتاج، إن وُجد.
| الطلب | طلب تحديد المشاكل وحلّها |
|---|---|
ما هي الوجبة الخفيفة التي يمكنني إعدادها في دقيقة واحدة وتتناسب مع هذا؟ |
ما هي الوجبة الخفيفة التي يمكنني إعدادها في دقيقة واحدة وتتناسب مع هذا؟ يُرجى توضيح السبب. |
الخطوات التالية
- يمكنك تجربة كتابة طلبات متعددة الوسائط باستخدام Google AI Studio.
- للحصول على معلومات حول استخدام Gemini Files API لتحميل ملفات الوسائط وتضمينها في طلباتك، راجِع أدلة Vision والصوت ومعالجة المستندات.
- للحصول على مزيد من الإرشادات حول تصميم الطلبات، مثل ضبط مَعلمات أخذ العيّنات، يمكنك الاطّلاع على صفحة استراتيجيات الطلبات.

