Files API

خانواده مدل‌های هوش مصنوعی (AI) جمینی برای مدیریت انواع مختلف داده‌های ورودی، از جمله متن، تصویر و صدا ساخته شده‌اند. از آنجایی که این مدل‌ها می‌توانند بیش از یک نوع یا حالت داده را مدیریت کنند، مدل‌های جمینی مدل‌های چندوجهی نامیده می‌شوند یا به عنوان مدل‌هایی با قابلیت‌های چندوجهی توضیح داده می‌شوند.

این راهنما به شما نشان می‌دهد که چگونه با فایل‌های رسانه‌ای با استفاده از API فایل‌ها کار کنید. عملیات اساسی برای فایل‌های صوتی، تصاویر، ویدیوها، اسناد و سایر انواع فایل‌های پشتیبانی شده یکسان است.

برای راهنمایی در مورد نحوه‌ی ارسال فایل، به بخش راهنمای ارسال فایل مراجعه کنید.

آپلود فایل

شما می‌توانید از API فایل‌ها برای آپلود یک فایل رسانه‌ای استفاده کنید. همیشه زمانی که حجم کل درخواست (شامل فایل‌ها، اعلان متنی، دستورالعمل‌های سیستم و غیره) بیشتر از 20 مگابایت است، از API فایل‌ها استفاده کنید.

کد زیر یک فایل را آپلود می‌کند و سپس از آن فایل در فراخوانی generateContent استفاده می‌کند.

پایتون

from google import genai

client = genai.Client()

myfile = client.files.upload(file="path/to/sample.mp3")

response = client.models.generate_content(
    model="gemini-2.5-flash", contents=["Describe this audio clip", myfile]
)

print(response.text)

جاوا اسکریپت

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp3",
    config: { mimeType: "audio/mpeg" },
  });

  const response = await ai.models.generateContent({
    model: "gemini-2.5-flash",
    contents: createUserContent([
      createPartFromUri(myfile.uri, myfile.mimeType),
      "Describe this audio clip",
    ]),
  });
  console.log(response.text);
}

await main();

برو

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
defer client.DeleteFile(ctx, file.Name)

model := client.GenerativeModel("gemini-2.5-flash")
resp, err := model.GenerateContent(ctx,
    genai.FileData{URI: file.URI},
    genai.Text("Describe this audio clip"))
if err != nil {
    log.Fatal(err)
}

printResponse(resp)

استراحت

AUDIO_PATH="path/to/sample.mp3"
MIME_TYPE=$(file -b --mime-type "${AUDIO_PATH}")
NUM_BYTES=$(wc -c < "${AUDIO_PATH}")
DISPLAY_NAME=AUDIO

tmp_header_file=upload-header.tmp

# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -D "${tmp_header_file}" \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

# Upload the actual bytes.
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${AUDIO_PATH}" 2> /dev/null > file_info.json

file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri

# Now generate content using that file
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
          {"text": "Describe this audio clip"},
          {"file_data":{"mime_type": "${MIME_TYPE}", "file_uri": '$file_uri'}}]
        }]
      }' 2> /dev/null > response.json

cat response.json
echo

jq ".candidates[].content.parts[].text" response.json

دریافت متادیتا برای یک فایل

شما می‌توانید با فراخوانی files.get تأیید کنید که API با موفقیت فایل آپلود شده را ذخیره کرده و فراداده‌های آن را دریافت کنید.

پایتون

myfile = client.files.upload(file='path/to/sample.mp3')
file_name = myfile.name
myfile = client.files.get(name=file_name)
print(myfile)

جاوا اسکریپت

const myfile = await ai.files.upload({
  file: "path/to/sample.mp3",
  config: { mimeType: "audio/mpeg" },
});

const fileName = myfile.name;
const fetchedFile = await ai.files.get({ name: fileName });
console.log(fetchedFile);

برو

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}

gotFile, err := client.GetFile(ctx, file.Name)
if err != nil {
    log.Fatal(err)
}
fmt.Println("Got file:", gotFile.Name)

استراحت

# file_info.json was created in the upload example
name=$(jq ".file.name" file_info.json)
# Get the file of interest to check state
curl https://generativelanguage.googleapis.com/v1beta/files/$name \
-H "x-goog-api-key: $GEMINI_API_KEY" > file_info.json
# Print some information about the file you got
name=$(jq ".file.name" file_info.json)
echo name=$name
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri

فهرست کردن فایل‌های آپلود شده

شما می‌توانید چندین فایل را با استفاده از API فایل‌ها آپلود کنید. کد زیر لیستی از تمام فایل‌های آپلود شده را دریافت می‌کند:

پایتون

print('My files:')
for f in client.files.list():
    print(' ', f.name)

جاوا اسکریپت

const listResponse = await ai.files.list({ config: { pageSize: 10 } });
for await (const file of listResponse) {
  console.log(file.name);
}

برو

iter := client.ListFiles(ctx)
for {
    ifile, err := iter.Next()
    if err == iterator.Done {
        break
    }
    if err != nil {
        log.Fatal(err)
    }
    fmt.Println(ifile.Name)
}

استراحت

echo "My files: "

curl "https://generativelanguage.googleapis.com/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY"

حذف فایل‌های آپلود شده

فایل‌ها پس از ۴۸ ساعت به‌طور خودکار حذف می‌شوند. همچنین می‌توانید فایل آپلود شده را به‌صورت دستی حذف کنید:

پایتون

myfile = client.files.upload(file='path/to/sample.mp3')
client.files.delete(name=myfile.name)

جاوا اسکریپت

const myfile = await ai.files.upload({
  file: "path/to/sample.mp3",
  config: { mimeType: "audio/mpeg" },
});

const fileName = myfile.name;
await ai.files.delete({ name: fileName });

برو

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
client.DeleteFile(ctx, file.Name)

استراحت

curl --request "DELETE" https://generativelanguage.googleapis.com/v1beta/files/$name \
  -H "x-goog-api-key: $GEMINI_API_KEY"

اطلاعات استفاده

شما می‌توانید از Files API برای آپلود و تعامل با فایل‌های رسانه‌ای استفاده کنید. Files API به شما امکان می‌دهد تا حداکثر 20 گیگابایت فایل در هر پروژه ذخیره کنید، با حداکثر حجم هر فایل 2 گیگابایت. فایل‌ها به مدت 48 ساعت ذخیره می‌شوند. در این مدت، می‌توانید از API برای دریافت فراداده در مورد فایل‌ها استفاده کنید، اما نمی‌توانید فایل‌ها را دانلود کنید. Files API در تمام مناطقی که Gemini API در دسترس است، به صورت رایگان در دسترس است.

استراتژی‌های ارسال فایل

این بخش راهنمایی‌ها و بهترین شیوه‌ها را برای استفاده از فایل‌های رسانه‌ای با اعلان‌هایی برای API Gemini ارائه می‌دهد.

امکان استفاده از انواع مختلف داده‌ها در درخواست‌هایتان، انعطاف‌پذیری بیشتری را در مورد وظایفی که می‌توانید با API Gemini انجام دهید، به شما می‌دهد. به عنوان مثال، می‌توانید عکسی از یک غذای خوشمزه را برای مدل ارسال کنید و از او بخواهید که یک وبلاگ کوتاه در مورد آن غذا بنویسد.

سریع پاسخ

یک پست وبلاگ کوتاه و جذاب بر اساس این تصویر بنویسید. این پست باید شامل توضیحی از غذای داخل عکس و نحوه آماده‌سازی غذای سفر من باشد.


کوکی‌ها

آماده کردن وعده‌های غذایی راهی عالی برای صرفه‌جویی در وقت و هزینه است و همچنین می‌تواند به شما در داشتن تغذیه سالم‌تر کمک کند. این وعده غذایی نمونه‌ای عالی از یک وعده غذایی سالم و خوشمزه است که می‌توان آن را به راحتی از قبل آماده کرد.

این غذا شامل برنج قهوه‌ای، سبزیجات کبابی و مرغ تِریاکی است. برنج قهوه‌ای یک کربوهیدرات سالم و پیچیده است که به شما انرژی پایدار می‌دهد. سبزیجات کبابی راهی عالی برای دریافت دوز روزانه ویتامین‌ها و مواد معدنی هستند و مرغ تِریاکی یک گزینه خوشمزه و سرشار از پروتئین است.

تهیه این غذا نیز بسیار آسان است. کافیست برنج قهوه‌ای را بپزید، سبزیجات را کباب کنید و مرغ تِریاکی را بپزید. وقتی همه چیز پخته شد، آن را در ظروف مخصوص غذا تقسیم کنید و در یخچال نگهداری کنید. سپس می‌توانید یک ظرف بردارید و صبح‌های پرمشغله‌تان را شروع کنید!

اگر به دنبال یک وعده غذایی سالم و خوشمزه هستید که بتوانید به راحتی از قبل آماده کنید، این غذا گزینه بسیار خوبی است. این غذا سرشار از مواد مغذی و طعم دهنده است و مطمئناً شما را سیر و راضی نگه می‌دارد.

آماده‌سازی وعده‌های غذایی سالم و خوشمزه!

اگر در دریافت خروجی مورد نظر خود از اعلان‌هایی که از فایل‌های رسانه‌ای استفاده می‌کنند، مشکل دارید، چند استراتژی وجود دارد که می‌تواند به شما در دستیابی به نتایج مورد نظر کمک کند. بخش‌های زیر رویکردهای طراحی و نکات عیب‌یابی را برای بهبود اعلان‌هایی که از ورودی چندوجهی استفاده می‌کنند، ارائه می‌دهند.

شما می‌توانید با دنبال کردن این بهترین شیوه‌ها، پیام‌های چندوجهی خود را بهبود بخشید:

  • اصول طراحی سریع

    • در دستورالعمل‌های خود دقیق باشید : دستورالعمل‌های واضح و مختصری تهیه کنید که کمترین امکان سوء تعبیر را باقی بگذارد.
    • چند مثال به سوالتان اضافه کنید: از مثال‌های واقع‌بینانه و کوتاه برای نشان دادن آنچه می‌خواهید به دست آورید، استفاده کنید.
    • گام به گام آن را تجزیه کنید : وظایف پیچیده را به زیر اهداف قابل مدیریت تقسیم کنید و مدل را در طول فرآیند هدایت کنید.
    • قالب خروجی را مشخص کنید : در اعلان خود، فرمت خروجی مورد نظر خود را مانند markdown، JSON، HTML و موارد دیگر درخواست کنید.
    • برای درخواست‌های تک تصویری، تصویر خود را در اولویت قرار دهید : اگرچه Gemini می‌تواند ورودی‌های تصویر و متن را به هر ترتیبی مدیریت کند، اما برای درخواست‌هایی که شامل یک تصویر واحد هستند، اگر آن تصویر (یا ویدیو) قبل از متن قرار گیرد، ممکن است عملکرد بهتری داشته باشد. با این حال، برای درخواست‌هایی که برای معنادار شدن نیاز به تصاویر با متن‌های زیاد دارند، از هر ترتیبی که طبیعی‌تر است استفاده کنید.
  • عیب‌یابی اعلان چندوجهی شما

    • اگر مدل اطلاعات را از قسمت مربوط به تصویر استخراج نمی‌کند: با استفاده از راهنما مشخص کنید که می‌خواهید از کدام جنبه‌های تصویر، اطلاعات استخراج شود.
    • اگر خروجی مدل خیلی کلی است (به اندازه کافی با ورودی تصویر/ویدئو متناسب نیست): در ابتدای درخواست، قبل از ارائه دستورالعمل کار، از مدل بخواهید تصویر(ها) یا ویدئو را توصیف کند، یا سعی کنید از مدل بخواهید به آنچه در تصویر است اشاره کند.
    • برای عیب‌یابی اینکه کدام بخش دچار مشکل شده است: از مدل بخواهید تصویر را توصیف کند، یا از مدل بخواهید استدلال خود را توضیح دهد تا درک اولیه مدل را بسنجید.
    • اگر نتیجه‌ی درخواست شما منجر به محتوای توهم‌زا شد: سعی کنید تنظیمات دما را کاهش دهید یا از مدل بخواهید توضیحات کوتاه‌تری ارائه دهد تا احتمال تعمیم جزئیات اضافی کمتر شود.
    • تنظیم پارامترهای نمونه‌برداری: برای تنظیم خلاقیت مدل، تنظیمات دمایی مختلف و انتخاب‌های top-k را آزمایش کنید.

در دستورالعمل‌هایتان دقیق باشید

دستورالعمل‌ها زمانی بیشترین موفقیت را دارند که واضح و با جزئیات باشند. اگر خروجی خاصی مد نظر دارید، بهتر است آن الزام را در دستورالعمل بگنجانید تا مطمئن شوید خروجی مورد نظر خود را دریافت می‌کنید.

برای این تصویر از تابلوی فرودگاه، درخواست از مدل برای «توصیف این تصویر» می‌تواند یک توصیف کلی ایجاد کند. اگر به مدل نیاز دارید که زمان و شهر را از تصویر تجزیه کند، می‌توانید این درخواست را مستقیماً در اعلان خود وارد کنید.

سریع پاسخ مدل

این تصویر را توصیف کنید.

تصویر، تابلوی ورود و خروج مسافران فرودگاه را نشان می‌دهد.

اعلان به‌روزرسانی‌شده پاسخ بهبود یافته
جدول زمانی سفر

زمان و شهر را از روی تابلوی فرودگاه که در این تصویر نشان داده شده است، در یک لیست تجزیه کنید.

  • ۱۰:۵۰ مسکو
  • ۱۱:۰۵ ادینبورگ
  • ۱۱:۰۵ لندن
  • ۱۱:۱۰ بخارست
  • ۱۱:۳۰ کیف
  • ۱۱:۳۵ دوبلین
  • ۱۱:۴۵ میدلندز شرقی
  • ۱۲:۱۵ صوفیه
  • ۱۲:۳۰ لندن
  • ۱۲:۳۰ نیوکاسل
  • ۱۲:۴۰ سن پترزبورگ
  • ۱۲:۴۰ لندن
  • ۱۲:۴۵ منچستر
  • چند مثال اضافه کنید

    مدل Gemini می‌تواند چندین ورودی را بپذیرد که می‌تواند از آنها به عنوان مثال برای درک خروجی مورد نظر شما استفاده کند. افزودن این مثال‌ها می‌تواند به مدل کمک کند تا الگوها را شناسایی کرده و رابطه بین تصاویر و پاسخ‌های داده شده را در مثال جدید اعمال کند. به این روش یادگیری "چند مرحله‌ای" نیز گفته می‌شود.

    در مثال زیر، خروجی اولیه به صورت جمله نوشته شده است و شامل کشور (برزیل) نیز می‌شود. فرض کنید می‌خواهید خروجی با فرمت یا سبک متفاوتی باشد و فقط شهر را می‌خواهید، نه کشور را. اضافه کردن چند مثال کوتاه به درخواست شما می‌تواند مدل را به سمتی هدایت کند که شما می‌خواهید پاسخ دهد.

    سریع پاسخ مدل
    جدول زمانی سفر

    شهر را به همراه نقطه عطف آن مشخص کنید.

    یکی از نمادهای مهم این شهر، مجسمه مسیح منجی در ریودوژانیرو برزیل است.

    اعلان به‌روزرسانی‌شده پاسخ بهبود یافته

    شهر را به همراه نقطه عطف آن مشخص کنید.

    کولوسئوم

    شهر: رم، بنای تاریخی: کولوسئوم.

    شهر ممنوعه

    شهر: پکن، جاذبه گردشگری: شهر ممنوعه

    شهر ممنوعه

    شهر: ریودوژانیرو، نقطه عطف: مجسمه مسیح منجی

    گام به گام آن را تجزیه کنید

    برای کارهای پیچیده‌ای مانند کارهایی که هم به درک بصری و هم به استدلال نیاز دارند، تقسیم کار به مراحل کوچک‌تر و سرراست‌تر می‌تواند مفید باشد. از طرف دیگر، اگر مستقیماً از مدل بخواهید که در سوال شما «گام به گام فکر کند» نیز می‌تواند مؤثر باشد.

    سریع پاسخ مدل

    کی دستمال توالتم تموم میشه؟

    خیلی زود، فقط ۳ رول دیگر باقی مانده است.

    اعلان به‌روزرسانی‌شده پاسخ بهبود یافته

      ۱. ابتدا، تعداد رول‌های دستمال توالت موجود در این تصویر را بشمارید.
      ۲. سپس، تعیین کنید که یک فرد معمولی روزانه چقدر دستمال توالت استفاده می‌کند.
      ۳. محاسبه کنید که این رول‌های دستمال توالت چقدر دوام می‌آورند.

      ۱. در این تصویر ۳ رول دستمال توالت وجود دارد.
      ۲. یک فرد معمولی روزانه حدود ۲۰ برگ دستمال توالت استفاده می‌کند.
      ۳. اگر هر رول حاوی ۲۰۰ برگ باشد، هر رول حدود ۱۰ روز دوام می‌آورد. بنابراین، ۳ رول حدود یک ماه دوام می‌آورند.

    مسائل ریاضی یا انواع دیگر مسائل کلامی، گزینه‌های بسیار خوبی برای درخواست از مدل برای تفکر گام به گام هستند.

    سریع پاسخ

    جمله چهارم دنباله چیست؟

    -۱۳۵

    پاسخ مدل نادرست است. یکی از راه‌های بهبود این مشکل این است که از مدل بخواهیم قبل از پاسخ دادن به سوال، مسئله را تجزیه و تحلیل کند.

    سریع پاسخ

    ابتدا فرمول موجود در تصویر را تجزیه کنید.

    سپس بر اساس فرمول، به سوال «جمله چهارم در دنباله چیست؟» پاسخ دهید.

    برای گسترش نتیجه کلیک کنید

    $$ b(n) = b(n-1) * (-3) $$

    $$ b(1) = 15 $$

    1. n = 4 را در فرمول جایگزین کنید:
    2. $$ b(4) = b(4-1) * (-3) $$

      $$ b(4) = b(3) * (-3) $$

    3. ما مقدار b(3) را نمی‌دانیم، بنابراین n = 3 را در فرمول جایگزین می‌کنیم:
    4. $$ b(3) = b(3-1) * (-3) $$

      $$ b(3) = b(2) * (-3) $$

    5. ما مقدار b(2) را نمی‌دانیم، بنابراین n = 2 را در فرمول جایگزین می‌کنیم:
    6. $$ b(2) = b(2-1) * (-3) $$

      $$ b(2) = b(1) * (-3) $$

    7. ما می‌دانیم که مقدار b(1) برابر با ۱۵ است، بنابراین آن را در فرمول جایگزین می‌کنیم:
    8. $$ b(2) = 15 * (-3) $$

      $$ b(2) = -45 $$

    9. حالا که مقدار b(2) را می‌دانیم، آن را در فرمول b(3) جایگزین می‌کنیم:
    10. $$ b(3) = b(2) * (-3) $$

      $$ b(3) = -45 * (-3) $$

      $$ b(3) = 135 $$

    11. حالا که مقدار b(3) را می‌دانیم، آن را در فرمول b(4) جایگزین می‌کنیم:
    12. $$ b(4) = b(3) * (-3) $$

      $$ b(4) = 135 * (-3) $$

      $$ b(4) = -405 $$

    بنابراین، جمله چهارم در این دنباله -405 است.

    این پاسخ مدل صحیح است - اکنون برای ساده‌تر کردن پاسخ، می‌توانید از مدل بخواهید که گام به گام فکر کند.

    اعلان به‌روزرسانی‌شده پاسخ بهبود یافته

    جمله چهارم این دنباله چیست؟ گام به گام فکر کنید.

    ترم اول ۱۵ است.

    جمله دوم عبارت است از b(1) * (-3) = 15 * (-3) = -45.

    جمله سوم عبارت است از b(2) * (-3) = -45 * (-3) = 135.

    جمله چهارم عبارت است از b(3) * (-3) = 135 * (-3) = -405.

    فرمت خروجی را مشخص کنید

    یک مشکل رایج، نیاز به خروجی مدل در قالبی خاص (مثلاً markdown، JSON، HTML) است، به خصوص اگر خروجی مدل نیاز به دریافت توسط یک وظیفه پایین‌دستی داشته باشد. می‌توانید با دستور دادن به مدل برای انجام این کار در داخل اعلان، سعی کنید خروجی را در آن قالب تولید کنید. در زیر دو مثال آورده شده است:

    سریع پاسخ مدل

    جدول موجود در این تصویر را به فرمت markdown تجزیه کنید

    | موضوع | وضعیت | زمان | تاریخ شروع | تاریخ سررسید |

    | ------- | ------ | ---- | ---- | --------- | ------ |

    | ریاضی | انجام شد | ۱.۵ ساعت | ۲۹/۱۱/۲۰۲۳ | ۱/۱۲/۲۰۲۳ |

    | جغرافیا | انجام شد | ۳۰ دقیقه | ۱۲/۲/۲۰۲۳ | ۱۲/۴/۲۰۲۳ |

    | فیزیک | در حال انجام | ۲ ساعت | ۱۲/۳/۲۰۲۳ | ۱۲/۵/۲۰۲۳ |

    | زیست‌شناسی | شروع نشده | ۶ ساعت | ۲۰۱۶/۱۱/۲ | ۲۰۲۳/۱۲/۶ |

    سریع پاسخ مدل

    فهرستی از تمام ویژگی‌های زیر ارائه دهید:

    مواد لازم، نوع غذا، گیاهی یا غیرگیاهی، در قالب JSON

    جی‌سون

    {

    «مواد لازم»: [

    «برنج»،

    "میگو",

    "صدف‌ها",

    "صدف",

    "نخود فرنگی",

    "گوجه فرنگی",

    «پیاز»،

    «سیر»،

    «روغن زیتون»،

    «پاپریکا»،

    «نمک»،

    «فلفل»

    "نوع غذا": "اسپانیایی",

    «گیاهخوار»: غلط

    }

    ```

    برای درخواست‌های تک‌تصویری، تصویر خود را در اولویت قرار دهید

    اگرچه Gemini می‌تواند تصویر و متن را به هر ترتیبی در یک اعلان تفسیر کند، قرار دادن یک تصویر واحد قبل از اعلان متنی ممکن است منجر به نتایج بهتری شود. در نمونه‌های زیر، متوجه خواهید شد که تصویر در هر اعلان قبل از متن قرار می‌گیرد.

    عیب‌یابی اعلان چندوجهی شما

    اگر پاسخ مفیدی دریافت نمی‌کنید، ممکن است لازم باشد مشکل درخواست خود را عیب‌یابی کنید. در اینجا چند استراتژی وجود دارد که می‌توانید امتحان کنید.

    اگر مدل اطلاعات را از قسمت مربوط به تصویر ترسیم نمی‌کند

    برای دریافت پاسخ دقیق‌تر، می‌توانید مشخص کنید که می‌خواهید سوال از کدام جنبه‌های تصویر برای ارائه پاسخ استفاده کند.

    سریع پاسخ مدل

    این پوشک‌ها برای چند روز برای نوزاد کافی هستند؟

    این پوشک‌ها تا ۱۹۸ روز دوام می‌آورند و بعد تمام می‌شوند.

    اعلان به‌روزرسانی‌شده پاسخ بهبود یافته

    این پوشک‌ها قبل از اینکه تمام شوند، چقدر دوام می‌آورند؟

    از وزن نشان داده شده روی جعبه برای تعیین سن کودک استفاده کنید و تعداد کل پوشک‌های موجود در جعبه را در نظر بگیرید.

    عدد کل را بر تعداد پوشک‌هایی که کودک در روز استفاده می‌کند تقسیم کنید.

    این جعبه حاوی ۱۹۸ پوشک است. روی جعبه ذکر شده که این پوشک‌ها برای کودکی با وزن ۲۲ تا ۳۷ پوند (حدود ۱۰ تا ۱۲ کیلوگرم) مناسب هستند.

    کودک متوسط ​​در این محدوده وزنی احتمالاً بین ۱ تا ۲ سال سن دارد.

    یک کودک ۲ ساله معمولاً روزانه ۶ پوشک عوض می‌کند، بنابراین، پوشک‌ها حدود ۳۳ روز (۱۹۸/۶) دوام می‌آورند.

    اگر خروجی مدل بیش از حد عمومی باشد و به اندازه کافی با ورودی تصویر متناسب نباشد

    برای کمک به مدل در تنظیم پاسخ خود به تصویر(ها)، سعی کنید قبل از انجام وظیفه استدلال، از آن بخواهید تصاویر را توصیف کند.

    سریع پاسخ مدل

    چه وجه مشترکی بین این تصاویر وجود دارد؟

    هر چهار تصویر نمونه‌هایی از عکاسی منظره هستند.

    اعلان به‌روزرسانی‌شده پاسخ بهبود یافته

    ابتدا، آنچه در هر تصویر وجود دارد را با جزئیات شرح دهید. چه چیزی بین این تصاویر مشترک است؟

    تصویر اول شخصی را نشان می‌دهد که در حال بستن چمدان است. تصویر دوم یک راهروی خالی در یک مرکز خرید را نشان می‌دهد. تصویر سوم یک رول دستمال توالت را نشان می‌دهد. تصویر چهارم دریایی تاریک و طوفانی را نشان می‌دهد.

    وجه مشترک این تصاویر این است که همه آنها نمونه‌هایی از فضاهای آستانه‌ای هستند. فضاهای آستانه‌ای مکان‌ها یا موقعیت‌هایی هستند که بین دو مکان یا موقعیت دیگر قرار دارند. آنها اغلب با حس عدم قطعیت یا ابهام مشخص می‌شوند.

    تصویر اول، فردی را نشان می‌دهد که بین خانه و سفر قرار دارد. تصویر دوم راهروی بین دو فروشگاه را نشان می‌دهد. تصویر سوم دستمال توالت است که می‌تواند نمایانگر حمام باشد. حمام یک فضای انتقالی بین قلمروهای خصوصی و عمومی است. جایی است که ما خود را برای ورود یا خروج از دنیای بیرون آماده می‌کنیم.

    تصویر چهارم دریا را در حالتی بین آرام و طوفانی نشان می‌دهد.

    فضاهای آستانه‌ای می‌توانند هم هیجان‌انگیز و هم نگران‌کننده باشند. آن‌ها می‌توانند مکانی برای شروع‌های جدید یا مکانی برای پایان‌ها باشند. آن‌ها می‌توانند مکانی برای تأمل یا مکانی برای عمل باشند.

    همچنین می‌توانید صریحاً از مدل بخواهید که به آنچه در تصویر است اشاره کند.

    اعلان به‌روزرسانی‌شده پاسخ بهبود یافته

    چه وجه مشترکی بین این تصاویر وجود دارد؟ در پاسخ خود به آنچه در تصاویر وجود دارد اشاره کنید.

    همه تصاویر مربوط به سفر هستند. تصویر اول شخصی را در حال بستن چمدان نشان می‌دهد، تصویر دوم راهروی خالی یک مرکز خرید را نشان می‌دهد، تصویر سوم یک دسته دستمال توالت را نشان می‌دهد و تصویر چهارم دریایی تاریک و طوفانی را نشان می‌دهد.

    این تصاویر همگی مربوط به سفر هستند زیرا همه آنها چیزهایی هستند که مردم هنگام سفر به آنها نیاز دارند یا از آنها استفاده می‌کنند. تصویر اول شخصی را نشان می‌دهد که در حال بستن چمدان است، کاری که مردم هنگام رفتن به سفر انجام می‌دهند. تصویر دوم یک راهروی خالی در یک مرکز خرید را نشان می‌دهد، جایی که مردم اغلب برای خرید وسایل سفر خود به آنجا می‌روند. تصویر سوم یک دسته دستمال توالت را نشان می‌دهد، چیزی که مردم اغلب هنگام سفر از آن استفاده می‌کنند. تصویر چهارم دریایی تاریک و طوفانی را نشان می‌دهد، چیزی که مردم اغلب هنگام سفر با آن مواجه می‌شوند.

    همین نکات برای خروجی خلاقانه از تصاویر نیز کارساز هستند. در مثال زیر با خرگوش، درخواست صریح از مدل برای گنجاندن جنبه‌هایی از تصویر می‌تواند خروجی را بهبود بخشد.

    سریع پاسخ مدل

    میشه یه شعر در مورد این تصویر برام بنویسی؟

    خرگوش کوچولو، خیلی نرم و قهوه‌ای،
    در میان مزرعه، بالا و پایین می‌پرید.
    گوش‌هایت آنقدر دراز، دمت آنقدر کوچک،
    تو بامزه‌ترین موجود از بین همه هستی.

    تو علف‌ها را می‌جوی، چه سبز و شیرین،
    و وقتی من را دیدی، فرار کن.
    اما من همیشه دوست تو خواهم بود،
    خرگوش کوچولو، تا آخرین لحظه.

    اعلان به‌روزرسانی‌شده پاسخ بهبود یافته

    میشه یه شعر توصیفی و دراماتیک در مورد این تصویر برام بنویسی و مکانش رو هم بنویسی؟

    خرگوش کوچولو روی چمنزار،
    گوش‌هایی چنان دراز، چنان تیزبین.
    چی میبینی اون بیرون،
    در دوردست، به کجا خیره شده‌ای؟

    آیا اقیانوس آبی است،
    درخشان در رنگ خورشید؟
    یا امواجی که می‌شکنند و می‌غرند،
    ریتمی که خیلی دوسش داری؟

    خرگوش کوچولو، راستش را بگو،
    چی انقدر توجهت رو جلب می‌کنه؟
    آیا نسیم شور است،
    یا ناله‌های مرغان دریایی که لطفا؟

    شاید به خاطر وسعت همه چیز باشد،
    دنیایی به این بزرگی و کوچکی.
    جایی که رویاها می‌توانند پرسه بزنند،
    و می‌توان بذر ماجراجویی کاشت.

    خرگوش کوچولو، نمی‌دانم چه خوابی می‌بینی،
    وقتی روی چمن نشسته‌ای، خیلی آرام و دلنشینی.
    آیا آرزوی کاوش در اعماق را داری،
    یا روی خشکی بمان، جایی که بتوانی بپری؟

    هرچی که باشه، خرگوش کوچولو،
    آن جرقه‌ی شگفتی را همچنان روشن نگه دار.
    زیرا در رویاها و آرزوهایت،
    جهانی در انتظار آفرینش توست.

    عیب‌یابی اینکه کدام بخش از اعلان ناموفق بود

    تشخیص اینکه آیا یک درخواست به این دلیل ناموفق بوده که مدل از ابتدا تصویر را نفهمیده است، یا اینکه تصویر را فهمیده اما مراحل استدلال صحیح را بعداً انجام نداده است، می‌تواند دشوار باشد. برای ابهام‌زدایی بین این دلایل، از مدل بخواهید آنچه را که در تصویر است توصیف کند.

    در مثال زیر، اگر مدل با یک میان وعده که در کنار چای غافلگیرکننده به نظر می‌رسد (مثلاً پاپ کورن) پاسخ دهد، می‌توانید ابتدا عیب‌یابی کنید تا مشخص شود که آیا مدل به درستی تشخیص داده است که تصویر حاوی چای است یا خیر.

    سریع درخواست راهنمایی برای رفع مشکل

    چه میان وعده ای هست که بتونم تو ۱ دقیقه درست کنم که با این خوب بشه؟

    آنچه در این تصویر است را توصیف کنید.

    یک استراتژی دیگر این است که از مدل بخواهید استدلال خود را توضیح دهد. این می‌تواند به شما کمک کند تا مشخص کنید کدام بخش از استدلال، در صورت وجود، با شکست مواجه شده است.

    سریع درخواست راهنمایی برای رفع مشکل

    چه میان وعده ای هست که بتونم تو ۱ دقیقه درست کنم که با این خوب بشه؟

    چه خوراکی‌ای هست که بتونم تو ۱ دقیقه درست کنم که با این خوب بشه؟ لطفا توضیح بدید چرا؟

    قدم بعدی چیست؟

    • سعی کنید با استفاده از Google AI Studio، دستورالعمل‌های چندوجهی خودتان را بنویسید.
    • برای اطلاعات بیشتر در مورد استفاده از API فایل‌های Gemini برای آپلود فایل‌های رسانه‌ای و گنجاندن آنها در اعلان‌هایتان، به راهنماهای پردازش تصویر ، صدا و سند مراجعه کنید.
    • برای راهنمایی بیشتر در مورد طراحی سریع، مانند تنظیم پارامترهای نمونه‌گیری، به صفحه استراتژی‌های سریع مراجعه کنید.