Files API

يمكن لنموذج Gemini التعامل مع أنواع مختلفة من بيانات الإدخال، بما في ذلك النصوص والصور والمقاطع الصوتية، في الوقت نفسه.

يوضّح لك هذا الدليل كيفية التعامل مع ملفات الوسائط باستخدام Files API. تكون العمليات الأساسية هي نفسها بالنسبة إلى الملفات الصوتية والصور والفيديوهات والمستندات وأنواع الملفات الأخرى المتوافقة.

للحصول على إرشادات بشأن دليل كتابة الطلبات للملفات، يُرجى الاطّلاع على قسم دليل كتابة الطلبات للملفات.

تحميل ملف

يمكنك استخدام Files API لتحميل ملف وسائط. استخدِم دائمًا Files API عندما يتجاوز إجمالي حجم الطلب (بما في ذلك الملفات والنص الموجّه وتعليمات النظام وما إلى ذلك) 100 ميغابايت. بالنسبة إلى ملفات PDF، يبلغ الحدّ الأقصى 50 ميغابايت.

يحمّل الرمز التالي ملفًا ثم يستخدمه في طلب إلى interactions.create.

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file="path/to/sample.mp3")

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input=[
        {"type": "text", "text": "Describe this audio clip"},
        {"type": "audio", "uri": myfile.uri, "mime_type": myfile.mime_type}
    ]
)

print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

async function main() {
  const myfile = await client.files.upload({
    file: "path/to/sample.mp3",
    config: { mime_type: "audio/mpeg" },
  });

  const interaction = await client.interactions.create({
    model: "gemini-3.5-flash",
    input: [
      { type: "text", text: "Describe this audio clip" },
      { type: "audio", uri: myfile.uri, mime_type: myfile.mimeType }
    ]
  });
  console.log(interaction.output_text);
}

await main();

Go

file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
defer client.Files.Delete(ctx, file.Name)

interaction, err := client.Interactions.Create(ctx, "gemini-3.5-flash", &genai.InteractionRequest{
    Input: []interface{}{
        genai.NewPartFromFile(*file),
        genai.NewPartFromText("Describe this audio clip"),
    },
}, nil)

if err != nil {
    log.Fatal(err)
}

// Print the model's text response
for _, step := range interaction.Steps {
    if step.Type == "model_output" {
        for _, part := range step.Content {
            if part.Type == "text" {
                fmt.Println(part.Text)
            }
        }
    }
}

REST

AUDIO_PATH="path/to/sample.mp3"
MIME_TYPE=$(file -b --mime-type "${AUDIO_PATH}")
NUM_BYTES=$(wc -c < "${AUDIO_PATH}")
DISPLAY_NAME=AUDIO

tmp_header_file=upload-header.tmp

# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -D "${tmp_header_file}" \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

# Upload the actual bytes.
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${AUDIO_PATH}" 2> /dev/null > file_info.json

file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri

# Now create an interaction using the Interactions API
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -H "Api-Revision: 2026-05-20" \
    -d '{
      "model": "gemini-3.5-flash",
      "input": [
        {"type": "text", "text": "Describe this audio clip"},
        {"type": "audio", "uri": '$file_uri', "mime_type": "'${MIME_TYPE}'"}
      ]
    }' 2> /dev/null > response.json

cat response.json
echo

jq ".outputs[] | select(.type == \"text\") | .text" response.json

الحصول على البيانات الوصفية لملف

يمكنك التأكّد من أنّ واجهة برمجة التطبيقات خزّنت الملف الذي تم تحميله بنجاح والحصول على بياناته الوصفية من خلال طلب files.get.

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file='path/to/sample.mp3')
file_name = myfile.name
myfile = client.files.get(name=file_name)
print(myfile)

JavaScript

import {
  GoogleGenAI,
} from "@google/genai";

const client = new GoogleGenAI({});

async function main() {
  const myfile = await client.files.upload({
    file: "path/to/sample.mp3",
    config: { mime_type: "audio/mpeg" },
  });

  const fileName = myfile.name;
  const fetchedFile = await client.files.get({ name: fileName });
  console.log(fetchedFile);
}

await main();

Go

file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}

gotFile, err := client.Files.Get(ctx, file.Name)
if err != nil {
    log.Fatal(err)
}
fmt.Println("Got file:", gotFile.Name)

REST

# file_info.json was created in the upload example
name=$(jq -r ".file.name" file_info.json)
# Get the file of interest to check state
curl https://generativelanguage.googleapis.com/v1beta/$name \
-H "x-goog-api-key: $GEMINI_API_KEY" > file_info.json
# Print some information about the file you got
name=$(jq -r ".name" file_info.json)
echo name=$name
file_uri=$(jq -r ".uri" file_info.json)
echo file_uri=$file_uri

عرض الملفات المحمَّلة

يحصل الرمز التالي على قائمة بجميع الملفات التي تم تحميلها:

Python

from google import genai

client = genai.Client()

print('My files:')
for f in client.files.list():
    print(' ', f.name)

JavaScript

import {
  GoogleGenAI,
} from "@google/genai";

const client = new GoogleGenAI({});

async function main() {
  const listResponse = await client.files.list({ config: { pageSize: 10 } });
  for await (const file of listResponse) {
    console.log(file.name);
  }
}

await main();

Go

for file, err := range client.Files.All(ctx) {
  if err != nil {
    log.Fatal(err)
  }
  fmt.Println(file.Name)
}

REST

echo "My files: "

curl "https://generativelanguage.googleapis.com/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY"

حذف الملفات التي تم تحميلها

يتم حذف الملفات تلقائيًا بعد 48 ساعة، ويمكنك أيضًا حذف ملف تم تحميله يدويًا باتّباع الخطوات التالية:

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file='path/to/sample.mp3')
client.files.delete(name=myfile.name)

JavaScript

import {
  GoogleGenAI,
} from "@google/genai";

const client = new GoogleGenAI({});

async function main() {
  const myfile = await client.files.upload({
    file: "path/to/sample.mp3",
    config: { mime_type: "audio/mpeg" },
  });

  const fileName = myfile.name;
  await client.files.delete({ name: fileName });
}

await main();

Go

file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
client.Files.Delete(ctx, file.Name)

REST

curl --request "DELETE" https://generativelanguage.googleapis.com/v1beta/$name \
  -H "x-goog-api-key: $GEMINI_API_KEY"

معلومات الاستخدام

يمكنك استخدام واجهة برمجة التطبيقات Files API لتحميل ملفات الوسائط والتفاعل معها. تتيح لك Files API تخزين ما يصل إلى 20 غيغابايت من الملفات لكل مشروع، مع حد أقصى لحجم الملف الواحد يبلغ 2 غيغابايت. يتم تخزين الملفات لمدة 48 ساعة. خلال هذه الفترة، يمكنك استخدام واجهة برمجة التطبيقات للحصول على البيانات الوصفية الخاصة بالملفات، ولكن لا يمكنك تنزيل الملفات. تتوفّر واجهة برمجة التطبيقات Files API مجانًا في جميع المناطق التي تتوفّر فيها واجهة برمجة التطبيقات Gemini API.

استراتيجيات طلب الملفات

يقدّم هذا القسم إرشادات وأفضل الممارسات لاستخدام ملفات الوسائط مع الطلبات في Gemini API.

يتيح لك استخدام أنواع مختلفة من البيانات في طلباتك مرونة أكبر في ما يتعلّق بالمهام التي يمكنك إنجازها باستخدام Gemini API. على سبيل المثال، يمكنك إرسال صورة وجبة لذيذة إلى النموذج وطلب كتابة مدوّنة قصيرة عنها.

الطلب الردّ

اكتب منشورًا موجزًا وجذّابًا على المدوّنة استنادًا إلى هذه الصورة. يجب أن يتضمّن وصفًا للوجبة في الصورة وأن يتحدّث عن رحلتي في إعداد الوجبات مسبقًا.


بسكويت

يُعدّ تحضير الوجبات مسبقًا طريقة رائعة لتوفير الوقت والمال، ويمكن أن يساعدك أيضًا في تناول طعام صحي أكثر. هذه الوجبة هي مثال رائع على وجبة صحية ولذيذة يمكن تحضيرها مسبقًا.

تتضمّن هذه الوجبة الأرز الأسمر والخضروات المشوية ودجاج الترياكي. فالأرز الأسمر هو كربوهيدرات صحية ومعقّدة تمنحك الطاقة المستدامة، والخضروات المشوية هي طريقة رائعة للحصول على الجرعة اليومية من الفيتامينات والمعادن، ودجاج الترياكي هو خيار لذيذ وغني بالبروتين.

هذه الوجبة سهلة التحضير أيضًا، إذ ما عليك سوى طهي الأرز الأسمر وشوي الخضار وطهي دجاج الترياكي، ثم تقسيمها إلى عبوات مخصصة لتحضير الوجبات وتخزينها في الثلاجة، لتتمكن من أخذ عبوة معك في الصباحات المزدحمة.

إذا كنت تبحث عن وجبة صحية ولذيذة يمكن تحضيرها مسبقًا، فهذه الوجبة هي الخيار الأمثل، فهي غنية بالعناصر الغذائية والنكهة، ومن المؤكد أنّها ستجعلك تشعر بالشبع والرضا.

نتمنّى لك وجبات صحية ولذيذة!

إذا كنت تواجه مشكلة في الحصول على النتائج المطلوبة من الطلبات التي تستخدم ملفات وسائط، إليك بعض الاستراتيجيات التي يمكن أن تساعدك في الحصول على النتائج التي تريدها. تقدّم الأقسام التالية طرقًا لتصميم الطلبات ونصائح لتحديد المشاكل وحلّها بهدف تحسين الطلبات التي تستخدم الإدخال المتعدّد الوسائط.

يمكنك تحسين طلباتك المتعدّدة الوسائط باتّباع أفضل الممارسات التالية:

  • أساسيات تصميم الطلبات

    • كن دقيقًا في تعليماتك: صِغ تعليمات واضحة وموجزة لا تترك مجالاً كبيرًا لإساءة الفهم.
    • إضافة بعض الأمثلة إلى طلبك: استخدِم أمثلة واقعية قليلة اللقطات لتوضيح ما تريد تحقيقه.
    • التقسيم إلى خطوات: قسِّم المهام المعقّدة إلى أهداف فرعية يسهل تنفيذها، ما يساعد النموذج في إكمال العملية.
    • تحديد تنسيق الإخراج: في طلبك، اطلب أن يكون الإخراج بالتنسيق الذي تريده، مثل Markdown وJSON وHTML وغير ذلك.
    • وضع صورتك أولاً في الطلبات التي تتضمّن صورة واحدة: على الرغم من أنّ Gemini يمكنه التعامل مع مدخلات الصور والنصوص بأي ترتيب، قد يكون أداؤه أفضل في الطلبات التي تتضمّن صورة واحدة إذا تم وضع هذه الصورة (أو الفيديو) قبل طلب النص. ومع ذلك، بالنسبة إلى الطلبات التي تتطلّب أن تكون الصور متداخلة بشكل كبير مع النصوص لكي تكون مفهومة، استخدِم الترتيب الأكثر طبيعية.
  • تحديد المشاكل في الطلب المتعدد الوسائط وحلّها

    • إذا كان النموذج لا يستخلص المعلومات من الجزء ذي الصلة في الصورة: أضِف تلميحات حول الجوانب التي تريد أن يستخلص الطلب المعلومات منها.
    • إذا كانت مخرجات النموذج عامة جدًا (غير مخصّصة بشكل كافٍ للصورة أو الفيديو المُدخَل): في بداية الطلب، جرِّب أن تطلب من النموذج وصف الصور أو الفيديو قبل تقديم تعليمات المهمة، أو جرِّب أن تطلب من النموذج الإشارة إلى ما يظهر في الصورة.
    • لتحديد الجزء الذي تعذّر تنفيذه: اطلب من النموذج وصف الصورة أو شرح أسباب تعذُّر التنفيذ، وذلك لتقييم فهم النموذج الأوّلي.
    • إذا أدّى طلبك إلى الهلوسة في المحتوى: جرِّب خفض إعداد درجة العشوائية أو اطلب من النموذج تقديم أوصاف أقصر لتقليل احتمالية استقراء تفاصيل إضافية.
    • ضبط مَعلَمات اختيار العيّنات: جرِّب إعدادات مختلفة لدرجة العشوائية وخيارات top-k لضبط مستوى إبداع النموذج.

كن محدّدًا في تعليماتك

تكون الطلبات أكثر فعاليةً عندما تكون واضحة ومفصّلة. إذا كان لديك ناتج محدّد في ذهنك، من الأفضل تضمين هذا الشرط في الطلب لضمان الحصول على الناتج المطلوب.

بالنسبة إلى هذه الصورة التي تعرض لوحة في المطار، قد يؤدي الطلب من النموذج "وصف هذه الصورة" إلى إنشاء وصف عام. إذا كنت بحاجة إلى أن يحلّل النموذج الوقت والمدينة من الصورة، يمكنك تضمين هذا الطلب مباشرةً في طلبك.

الطلب ردّ النموذج

صِف هذه الصورة.

تعرض الصورة لوحة مواعيد الوصول والمغادرة في المطار.

طلب معدَّل ردود محسّنة
جدول مواعيد السفر

حوِّل الوقت والمدينة من لوحة المطار الظاهرة في هذه الصورة إلى قائمة.

  • ‫10:50 بتوقيت موسكو
  • ‫11:05 إدنبرة
  • ‫11:05 لندن
  • ‫11:10 بوخارست
  • ‫11:30 صباحًا بتوقيت كييف
  • ‫11:35 دبلن
  • ‫11:45 شرق ميدلاندز
  • ‫12:15 صوفيا
  • ‫12:30 لندن
  • ‫12:30 نيوكاسل
  • ‫12:40 سانت بطرسبرغ
  • ‫12:40 لندن
  • ‫12:45 مانشستر
  • إضافة بعض الأمثلة

    يمكن لنموذج Gemini قبول مدخلات متعددة يمكنه استخدامها كأمثلة لفهم الناتج الذي تريده. يمكن أن تساعد إضافة هذه الأمثلة النموذج في تحديد الأنماط وتطبيق العلاقة بين الصور والردود المقدَّمة على المثال الجديد. يُعرف ذلك أيضًا باسم التعلّم "ببضع فُرَص".

    في المثال التالي، تمت كتابة الناتج الأولي في شكل جملة، كما يتضمّن البلد (البرازيل). لنفترض أنّك تريد الناتج بتنسيق أو أسلوب مختلفين، وأنّك تريد المدينة فقط، وليس البلد. يمكن أن يؤدي إضافة أمثلة قليلة إلى طلبك إلى توجيه النموذج للرد بالطريقة التي تريدها.

    الطلب ردّ النموذج
    جدول مواعيد السفر

    حدِّد المدينة والمعلم.

    المعلم هو تمثال "المسيح الفادي" في ريو دي جانيرو، البرازيل.

    طلب معدَّل ردود محسّنة

    حدِّد المدينة والمعلم.

    كولوسيوم

    المدينة: روما، المعلم: الكولوسيوم

    المدينة المحرمة

    المدينة: بكين، المعلم: المدينة المحرّمة

    forbidden-city

    مدينة: ريو دي جانيرو، معلم: تمثال المسيح الفادي

    التقسيم إلى خطوات

    بالنسبة إلى المهام المعقّدة، مثل تلك التي تتطلّب فهمًا بصريًا واستدلالاً، قد يكون من المفيد تقسيم المهمة إلى خطوات أصغر وأكثر وضوحًا. يمكنك أيضًا أن تطلب من النموذج مباشرةً "التفكير خطوة بخطوة" في طلبك.

    الطلب ردّ النموذج

    متى سينتهي ورق المرحاض؟

    سيتبقى لديك قريبًا 3 لفات فقط.

    طلب معدَّل ردود محسّنة
    1. أولاً، احسب عدد لفات ورق المرحاض في هذه الصورة.
    2. بعد ذلك، حدِّد كمية ورق المرحاض التي يستخدمها الشخص العادي يوميًا.
    3. احسب المدة التي ستكفيك فيها لفات ورق المرحاض هذه.
    1. في هذه الصورة، هناك 3 لفات من ورق المرحاض.
    2. يستخدم الشخص العادي حوالي 20 ورقة من ورق التواليت يوميًا.
    3. إذا كانت كل لفة تحتوي على 200 ورقة، ستكفي كل لفة لمدة 10 أيام تقريبًا. وبالتالي، ستدوم اللفات الثلاث لمدة شهر تقريبًا.

    تُعدّ المسائل الرياضية أو الأنواع الأخرى من المسائل الكلامية خيارًا رائعًا لطلب من النموذج التفكير خطوة بخطوة.

    الطلب الردّ

    ما هو الحد الرابع في المتسلسلة؟

    -135

    الردّ الذي قدّمه النموذج غير صحيح. يمكنك تحسين ذلك من خلال الطلب من النموذج تحليل المشكلة قبل الإجابة عن الطلب.

    الطلب الردّ

    عليك أولاً تحليل الصيغة في الصورة.

    بعد ذلك، استنادًا إلى الصيغة، أجب عن السؤال "ما هو الحد الرابع في المتسلسلة؟".

    انقر لتوسيع النتيجة

    $$ b(n) = b(n-1) * (-3) $$

    $$ b(1) = 15 $$

    1. استبدِل قيمة n بـ 4 في الصيغة:

      $$ b(4) = b(4-1) * (-3) $$

      $$ b(4) = b(3) * (-3) $$

    2. لا نعرف قيمة b(3)، لذا نعوّض عن n = 3 في الصيغة:

      $$ b(3) = b(3-1) * (-3) $$

      $$ b(3) = b(2) * (-3) $$

    3. لا نعرف قيمة b(2)، لذا نعوّض عن n بالقيمة 2 في الصيغة:

      $$ b(2) = b(2-1) * (-3) $$

      $$ b(2) = b(1) * (-3) $$

    4. نعرف أنّ قيمة b(1) هي 15، لذا نعوّضها في الصيغة:

      $$ b(2) = 15 * (-3) $$

      $$ b(2) = -45 $$

    5. بعد أن عرفنا قيمة b(2)، نعوّض بها في صيغة b(3):

      $$ b(3) = b(2) * (-3) $$

      $$ b(3) = -45 * (-3) $$

      $$ b(3) = 135 $$

    6. بعد أن عرفنا قيمة b(3)، نعوّض بها في صيغة b(4):

      $$ b(4) = b(3) * (-3) $$

      $$ b(4) = 135 * (-3) $$

      $$ b(4) = -405 $$

    وبالتالي، الحد الرابع في المتسلسلة هو -405.

    ردّ النموذج هذا صحيح، ولكن لجعل الردّ أكثر سلاسة، يمكنك أن تطلب من النموذج التفكير خطوة بخطوة.

    طلب معدَّل ردود محسّنة

    ما هو الحد الرابع في المتسلسلة؟ فكِّر خطوة بخطوة.

    الحدّ الأول هو 15.

    الحد الثاني هو b(1) * (-3) = 15 * (-3) = -45.

    الحد الثالث هو b(2) * (-3) = -45 * (-3) = 135.

    الحد الرابع هو b(3) * (-3) = 135 * (-3) = -405.

    تحديد تنسيق الإخراج

    من المشاكل الشائعة الحاجة إلى أن تكون نتائج النموذج بتنسيق معيّن (مثل Markdown أو JSON أو HTML)، خاصةً إذا كانت نتائج النموذج بحاجة إلى أن يتم استيعابها من خلال مهمة لاحقة. يمكنك محاولة إنتاج مخرجات بهذا التنسيق من خلال توجيه النموذج إلى ذلك ضمن الطلب. في ما يلي مثالان:

    الطلب ردّ النموذج

    تحليل الجدول في هذه الصورة إلى تنسيق Markdown

    ```none | الموضوع | الحالة | الوقت | تاريخ البدء | تاريخ الاستحقاق | | ------- | ------ | ---- | ---------- | ------ | | الرياضيات | مكتمل | 1.5 ساعة | 29/11/2023 | 1/12/2023 | | الجغرافيا | مكتمل | 30 دقيقة | 2/12/2023 | 4/12/2023 | | الفيزياء | قيد التقدّم | ساعتان | 3/12/2023 | 5/12/2023 | | الأحياء | لم يبدأ | 6 ساعات | 2/11/2016 | 6/12/2023 | ```
    الطلب ردّ النموذج

    قدِّم قائمة بجميع السمات التالية:

    المكوّنات ونوع المطبخ وما إذا كان نباتيًا أم لا، بتنسيق JSON

    ```json { "المكونات": [ "أرز", "جمبري", "محار", "بلح البحر", "بازلاء", "طماطم", "بصل", "ثوم", "زيت زيتون", "بابريكا", "ملح", "فلفل" ], "نوع المطبخ": "إسباني", "نباتي": false } ```

    وضع صورتك أولاً في الطلبات التي تتضمّن صورة واحدة

    مع أنّ Gemini يمكنه تفسير الصورة والنص بأي ترتيب ضمن الطلب، قد يؤدي وضع صورة واحدة قبل الطلب النصي إلى تحقيق نتائج أفضل. في النماذج التالية، ستلاحظ أنّ الصورة تأتي أولاً قبل النص في كل طلب.

    تحديد المشاكل في الطلب المتعدد الوسائط وحلّها

    قد تحتاج إلى تحديد المشكلة في طلبك وحلّها إذا لم تحصل على ردّ مفيد. إليك بعض الاستراتيجيات التي يمكنك تجربتها.

    إذا كان النموذج لا يستخلص المعلومات من الجزء ذي الصلة في الصورة

    للحصول على ردّ أكثر تحديدًا، يمكنك الإشارة إلى الجوانب التي تريد أن يستند إليها الطلب في استخلاص المعلومات لتضمينها في الردّ.

    الطلب ردّ النموذج

    كم عدد الأيام التي ستكفي فيها هذه الحفاضات الطفل؟

    ستكفي الحفاضات لمدة 198 يومًا قبل أن تنتهي.

    طلب معدَّل ردود محسّنة

    كم من الوقت ستدوم هذه الحفاضات قبل أن تنتهي؟

    استخدِم الوزن الموضّح على العلبة لتحديد عمر الطفل، واستخدِم إجمالي عدد الحفاضات في العلبة.

    قسِّم العدد الإجمالي على عدد الحفاضات التي يستخدمها الطفل في اليوم الواحد.

    يحتوي الصندوق على 198 حفاضة، ويشير إلى أنّ الحفاضات مناسبة لطفل يزن 22 إلى 37 رطلاً.

    من المرجّح أنّ متوسط عمر الطفل في هذا النطاق من الوزن يتراوح بين سنة واحدة وسنتين.

    يستخدم الطفل البالغ من العمر عامَين عادةً 6 حفاضات في اليوم، وبالتالي ستدوم الحفاضات حوالي 33 يومًا (198/6).

    إذا كانت مخرجات النموذج عامة جدًا وغير مخصّصة بشكل كافٍ للصورة المُدخَلة

    لمساعدة النموذج في تخصيص رده وفقًا للصور، جرِّب أن تطلب منه وصف الصور قبل تنفيذ مهمة الاستدلال.

    الطلب ردّ النموذج

    ما هو الشيء المشترك بين هذه الصور؟

    جميع الصور الأربع هي أمثلة على التصوير الفوتوغرافي للمناظر الطبيعية.

    طلب معدَّل ردود محسّنة

    ابدأ بوصف محتوى كل صورة بالتفصيل. ما هو الشيء المشترك بين هذه الصور؟

    تعرض الصورة الأولى شخصًا يحزم حقيبة سفر، وتعرض الصورة الثانية ممرًا فارغًا في مركز تسوّق، وتعرض الصورة الثالثة لفة ورق حمام، وتعرض الصورة الرابعة بحرًا مظلمًا وعاصفًا.

    القاسم المشترك بين هذه الصور هو أنّها كلها أمثلة على المساحات الحدّية. المساحات الحدّية هي أماكن أو مواقف تقع بين مكانَين أو موقفَين آخرَين. وغالبًا ما تتميّز هذه الألعاب بإحساس بعدم اليقين أو الغموض.

    تعرض الصورة الأولى شخصًا في مكان وسيط بين المنزل والرحلة، بينما تعرض الصورة الثانية ممرًا وسيطًا بين متجرَين، أما الصورة الثالثة فتُظهر ورق حمام، وهو ما يرمز إلى الحمّام الذي يمثّل مكانًا وسيطًا بين المساحات الخاصة والعامة، وهو المكان الذي نستعد فيه للدخول إلى العالم الخارجي أو مغادرته.

    تعرض الصورة الرابعة البحر بين الهدوء والعاصفة.

    يمكن أن تكون المساحات الحدّية مثيرة ومزعجة في الوقت نفسه، ويمكن أن تكون مكانًا لبدايات جديدة أو نهايات، أو مكانًا للتفكير أو العمل.

    يمكنك أيضًا تجربة الطلب من النموذج بشكل صريح الإشارة إلى ما يظهر في الصورة.

    طلب معدَّل ردود محسّنة

    ما هو الشيء المشترك بين هذه الصور؟ يجب أن تشير في ردّك إلى محتوى الصور.

    جميع الصور مرتبطة بالسفر. تعرض الصورة الأولى شخصًا يحزم حقيبة، وتعرض الصورة الثانية ممرًا فارغًا في مركز تسوّق، وتعرض الصورة الثالثة رزمة من ورق المرحاض، وتعرض الصورة الرابعة بحرًا مظلمًا وعاصفًا.

    جميع هذه الصور مرتبطة بالسفر لأنّها تتضمّن أشياء يحتاجها الأشخاص أو يستخدمونها عند السفر. تعرض الصورة الأولى شخصًا يحزم حقيبة سفر، وهو إجراء يتّخذه الأشخاص عند الذهاب في رحلة. تعرض الصورة الثانية ممرًا فارغًا في مركز تسوّق، وهو مكان يرتاده الأشخاص غالبًا لشراء مستلزمات رحلاتهم. تعرض الصورة الثالثة حزمة من ورق المرحاض، وهو منتج يستخدمه الأشخاص غالبًا أثناء السفر. تعرض الصورة الرابعة بحرًا مظلمًا وعاصفًا، وهو مشهد يواجهه الناس غالبًا أثناء السفر.

    تنطبق النصائح نفسها على النتائج الإبداعية المستندة إلى الصور. في المثال التالي الذي يتضمّن الأرنب، يمكن أن يؤدي الطلب الصريح من النموذج تضمين جوانب من الصورة إلى تحسين النتيجة.

    الطلب ردّ النموذج

    هل يمكنك كتابة قصيدة حول هذه الصورة؟

    أرنب صغير، ناعم وبني،
    يقفز في الحقل، صعودًا وهبوطًا،
    أذناك طويلتان وذيلك صغير،
    أنت ألطف مخلوق على الإطلاق.

    تأكل العشب الأخضر الحلو
    وتقفز بعيدًا عندما تراني.
    سأبقى صديقك دائمًا،
    يا أرنبي الصغير، حتى النهاية.

    طلب معدَّل ردود محسّنة

    هل يمكنك كتابة قصيدة وصفية مؤثرة حول هذه الصورة وتضمين الموقع الجغرافي فيها؟

    أرنب صغير على العشب الأخضر،
    أذناه طويلتان وحادتان.
    ماذا ترى هناك،
    في الأفق، حيث تحدّق؟

    هل هو لون البحر الأزرق
    اللامع تحت أشعة الشمس؟
    أم الأمواج التي تتلاطم وتزمجر
    بإيقاع يعجبك؟

    أرنب صغير، أخبرني الحقيقة،
    ما الذي يلفت انتباهك؟
    هل هي نسمة البحر المالحة،
    أم صرخات النورس التي تسعدك؟

    ربما يكمن الجمال في اتساع العالم،
    عالم كبير وصغير في آن معًا،
    مكان يمكن للأحلام أن تتجول فيه،
    وأن تُزرع فيه المغامرات.

    أيها الأرنب الصغير، أتساءل عمّا تحلم به،
    بينما تجلس على العشب، هادئًا جدًا.
    هل تتوق إلى استكشاف الأعماق،
    أم تفضّل البقاء على الأرض، حيث يمكنك القفز؟

    مهما كان حلمك يا أرنبي الصغير،
    حافظ على شغفك متوهّجًا،
    ففي أحلامك وطموحاتك
    يختبئ عالم ينتظر إبداعك.

    تحديد الجزء الذي تعذّر تنفيذه من الطلب وحلّ المشكلة

    قد يصعب معرفة ما إذا كان الطلب قد فشل لأنّ النموذج لم يفهم الصورة في البداية، أو لأنّه فهم الصورة ولكنّه لم ينفّذ خطوات الاستنتاج الصحيحة بعد ذلك. ولتوضيح الفرق بين هذين السببين، اطلب من النموذج وصف محتوى الصورة.

    في المثال التالي، إذا ردّ النموذج بوجبة خفيفة تبدو غير متوقعة عند تناولها مع الشاي (مثل الفشار)، يمكنك أولاً تحديد المشاكل لمعرفة ما إذا كان النموذج قد تعرّف بشكل صحيح على أنّ الصورة تحتوي على شاي.

    الطلب طلب تحديد المشاكل وحلّها

    ما هي الوجبة الخفيفة التي يمكنني إعدادها في دقيقة واحدة وتتناسب مع هذا؟

    صِف محتوى هذه الصورة.

    هناك استراتيجية أخرى تتمثل في الطلب من النموذج شرح أسباب استنتاجه، ما يساعدك في تحديد الجزء الذي حدث فيه خطأ، إن وُجد.

    الطلب طلب تحديد المشاكل وحلّها

    ما هي الوجبة الخفيفة التي يمكنني إعدادها في دقيقة واحدة وتتناسب مع هذا؟

    ما هي الوجبة الخفيفة التي يمكنني إعدادها في دقيقة واحدة وتتناسب مع هذا؟ يُرجى توضيح السبب.

    الخطوات التالية

    • يمكنك تجربة كتابة طلبات متعددة الوسائط باستخدام Google AI Studio.
    • للحصول على معلومات حول استخدام Gemini Files API لتحميل ملفات الوسائط وتضمينها في طلباتك، راجِع أدلة Vision والصوت ومعالجة المستندات.
    • للحصول على مزيد من الإرشادات حول تصميم الطلبات، مثل ضبط مَعلمات أخذ العيّنات، يمكنك الاطّلاع على صفحة استراتيجيات الطلبات.