خانواده مدلهای هوش مصنوعی (AI) جمینی برای مدیریت انواع مختلف دادههای ورودی، از جمله متن، تصویر و صدا ساخته شدهاند. از آنجایی که این مدلها میتوانند بیش از یک نوع یا حالت داده را مدیریت کنند، مدلهای جمینی مدلهای چندوجهی نامیده میشوند یا به عنوان مدلهایی با قابلیتهای چندوجهی توضیح داده میشوند.
این راهنما به شما نشان میدهد که چگونه با فایلهای رسانهای با استفاده از API فایلها کار کنید. عملیات اساسی برای فایلهای صوتی، تصاویر، ویدیوها، اسناد و سایر انواع فایلهای پشتیبانی شده یکسان است.
برای راهنمایی در مورد نحوهی ارسال فایل، به بخش راهنمای ارسال فایل مراجعه کنید.
آپلود فایل
شما میتوانید از API فایلها برای آپلود یک فایل رسانهای استفاده کنید. همیشه زمانی که حجم کل درخواست (شامل فایلها، اعلان متنی، دستورالعملهای سیستم و غیره) بیشتر از 20 مگابایت است، از API فایلها استفاده کنید.
کد زیر یک فایل را آپلود میکند و سپس از آن فایل در فراخوانی generateContent استفاده میکند.
پایتون
from google import genai
client = genai.Client()
myfile = client.files.upload(file="path/to/sample.mp3")
response = client.models.generate_content(
model="gemini-2.5-flash", contents=["Describe this audio clip", myfile]
)
print(response.text)
جاوا اسکریپت
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const response = await ai.models.generateContent({
model: "gemini-2.5-flash",
contents: createUserContent([
createPartFromUri(myfile.uri, myfile.mimeType),
"Describe this audio clip",
]),
});
console.log(response.text);
}
await main();
برو
file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
defer client.DeleteFile(ctx, file.Name)
model := client.GenerativeModel("gemini-2.5-flash")
resp, err := model.GenerateContent(ctx,
genai.FileData{URI: file.URI},
genai.Text("Describe this audio clip"))
if err != nil {
log.Fatal(err)
}
printResponse(resp)
استراحت
AUDIO_PATH="path/to/sample.mp3"
MIME_TYPE=$(file -b --mime-type "${AUDIO_PATH}")
NUM_BYTES=$(wc -c < "${AUDIO_PATH}")
DISPLAY_NAME=AUDIO
tmp_header_file=upload-header.tmp
# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-D "${tmp_header_file}" \
-H "X-Goog-Upload-Protocol: resumable" \
-H "X-Goog-Upload-Command: start" \
-H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
-H "Content-Type: application/json" \
-d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null
upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"
# Upload the actual bytes.
curl "${upload_url}" \
-H "Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Offset: 0" \
-H "X-Goog-Upload-Command: upload, finalize" \
--data-binary "@${AUDIO_PATH}" 2> /dev/null > file_info.json
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri
# Now generate content using that file
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts":[
{"text": "Describe this audio clip"},
{"file_data":{"mime_type": "${MIME_TYPE}", "file_uri": '$file_uri'}}]
}]
}' 2> /dev/null > response.json
cat response.json
echo
jq ".candidates[].content.parts[].text" response.json
دریافت متادیتا برای یک فایل
شما میتوانید با فراخوانی files.get تأیید کنید که API با موفقیت فایل آپلود شده را ذخیره کرده و فرادادههای آن را دریافت کنید.
پایتون
myfile = client.files.upload(file='path/to/sample.mp3')
file_name = myfile.name
myfile = client.files.get(name=file_name)
print(myfile)
جاوا اسکریپت
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const fileName = myfile.name;
const fetchedFile = await ai.files.get({ name: fileName });
console.log(fetchedFile);
برو
file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
gotFile, err := client.GetFile(ctx, file.Name)
if err != nil {
log.Fatal(err)
}
fmt.Println("Got file:", gotFile.Name)
استراحت
# file_info.json was created in the upload example
name=$(jq ".file.name" file_info.json)
# Get the file of interest to check state
curl https://generativelanguage.googleapis.com/v1beta/files/$name \
-H "x-goog-api-key: $GEMINI_API_KEY" > file_info.json
# Print some information about the file you got
name=$(jq ".file.name" file_info.json)
echo name=$name
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri
فهرست کردن فایلهای آپلود شده
شما میتوانید چندین فایل را با استفاده از API فایلها آپلود کنید. کد زیر لیستی از تمام فایلهای آپلود شده را دریافت میکند:
پایتون
print('My files:')
for f in client.files.list():
print(' ', f.name)
جاوا اسکریپت
const listResponse = await ai.files.list({ config: { pageSize: 10 } });
for await (const file of listResponse) {
console.log(file.name);
}
برو
iter := client.ListFiles(ctx)
for {
ifile, err := iter.Next()
if err == iterator.Done {
break
}
if err != nil {
log.Fatal(err)
}
fmt.Println(ifile.Name)
}
استراحت
echo "My files: "
curl "https://generativelanguage.googleapis.com/v1beta/files" \
-H "x-goog-api-key: $GEMINI_API_KEY"
حذف فایلهای آپلود شده
فایلها پس از ۴۸ ساعت بهطور خودکار حذف میشوند. همچنین میتوانید فایل آپلود شده را بهصورت دستی حذف کنید:
پایتون
myfile = client.files.upload(file='path/to/sample.mp3')
client.files.delete(name=myfile.name)
جاوا اسکریپت
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const fileName = myfile.name;
await ai.files.delete({ name: fileName });
برو
file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
client.DeleteFile(ctx, file.Name)
استراحت
curl --request "DELETE" https://generativelanguage.googleapis.com/v1beta/files/$name \
-H "x-goog-api-key: $GEMINI_API_KEY"
اطلاعات استفاده
شما میتوانید از Files API برای آپلود و تعامل با فایلهای رسانهای استفاده کنید. Files API به شما امکان میدهد تا حداکثر 20 گیگابایت فایل در هر پروژه ذخیره کنید، با حداکثر حجم هر فایل 2 گیگابایت. فایلها به مدت 48 ساعت ذخیره میشوند. در این مدت، میتوانید از API برای دریافت فراداده در مورد فایلها استفاده کنید، اما نمیتوانید فایلها را دانلود کنید. Files API در تمام مناطقی که Gemini API در دسترس است، به صورت رایگان در دسترس است.
استراتژیهای ارسال فایل
این بخش راهنماییها و بهترین شیوهها را برای استفاده از فایلهای رسانهای با اعلانهایی برای API Gemini ارائه میدهد.
امکان استفاده از انواع مختلف دادهها در درخواستهایتان، انعطافپذیری بیشتری را در مورد وظایفی که میتوانید با API Gemini انجام دهید، به شما میدهد. به عنوان مثال، میتوانید عکسی از یک غذای خوشمزه را برای مدل ارسال کنید و از او بخواهید که یک وبلاگ کوتاه در مورد آن غذا بنویسد.
| سریع | پاسخ |
یک پست وبلاگ کوتاه و جذاب بر اساس این تصویر بنویسید. این پست باید شامل توضیحی از غذای داخل عکس و نحوه آمادهسازی غذای سفر من باشد. ![]() | آماده کردن وعدههای غذایی راهی عالی برای صرفهجویی در وقت و هزینه است و همچنین میتواند به شما در داشتن تغذیه سالمتر کمک کند. این وعده غذایی نمونهای عالی از یک وعده غذایی سالم و خوشمزه است که میتوان آن را به راحتی از قبل آماده کرد. این غذا شامل برنج قهوهای، سبزیجات کبابی و مرغ تِریاکی است. برنج قهوهای یک کربوهیدرات سالم و پیچیده است که به شما انرژی پایدار میدهد. سبزیجات کبابی راهی عالی برای دریافت دوز روزانه ویتامینها و مواد معدنی هستند و مرغ تِریاکی یک گزینه خوشمزه و سرشار از پروتئین است. تهیه این غذا نیز بسیار آسان است. کافیست برنج قهوهای را بپزید، سبزیجات را کباب کنید و مرغ تِریاکی را بپزید. وقتی همه چیز پخته شد، آن را در ظروف مخصوص غذا تقسیم کنید و در یخچال نگهداری کنید. سپس میتوانید یک ظرف بردارید و صبحهای پرمشغلهتان را شروع کنید! اگر به دنبال یک وعده غذایی سالم و خوشمزه هستید که بتوانید به راحتی از قبل آماده کنید، این غذا گزینه بسیار خوبی است. این غذا سرشار از مواد مغذی و طعم دهنده است و مطمئناً شما را سیر و راضی نگه میدارد. آمادهسازی وعدههای غذایی سالم و خوشمزه! |
اگر در دریافت خروجی مورد نظر خود از اعلانهایی که از فایلهای رسانهای استفاده میکنند، مشکل دارید، چند استراتژی وجود دارد که میتواند به شما در دستیابی به نتایج مورد نظر کمک کند. بخشهای زیر رویکردهای طراحی و نکات عیبیابی را برای بهبود اعلانهایی که از ورودی چندوجهی استفاده میکنند، ارائه میدهند.
شما میتوانید با دنبال کردن این بهترین شیوهها، پیامهای چندوجهی خود را بهبود بخشید:
اصول طراحی سریع
- در دستورالعملهای خود دقیق باشید : دستورالعملهای واضح و مختصری تهیه کنید که کمترین امکان سوء تعبیر را باقی بگذارد.
- چند مثال به سوالتان اضافه کنید: از مثالهای واقعبینانه و کوتاه برای نشان دادن آنچه میخواهید به دست آورید، استفاده کنید.
- گام به گام آن را تجزیه کنید : وظایف پیچیده را به زیر اهداف قابل مدیریت تقسیم کنید و مدل را در طول فرآیند هدایت کنید.
- قالب خروجی را مشخص کنید : در اعلان خود، فرمت خروجی مورد نظر خود را مانند markdown، JSON، HTML و موارد دیگر درخواست کنید.
- برای درخواستهای تک تصویری، تصویر خود را در اولویت قرار دهید : اگرچه Gemini میتواند ورودیهای تصویر و متن را به هر ترتیبی مدیریت کند، اما برای درخواستهایی که شامل یک تصویر واحد هستند، اگر آن تصویر (یا ویدیو) قبل از متن قرار گیرد، ممکن است عملکرد بهتری داشته باشد. با این حال، برای درخواستهایی که برای معنادار شدن نیاز به تصاویر با متنهای زیاد دارند، از هر ترتیبی که طبیعیتر است استفاده کنید.
عیبیابی اعلان چندوجهی شما
- اگر مدل اطلاعات را از قسمت مربوط به تصویر استخراج نمیکند: با استفاده از راهنما مشخص کنید که میخواهید از کدام جنبههای تصویر، اطلاعات استخراج شود.
- اگر خروجی مدل خیلی کلی است (به اندازه کافی با ورودی تصویر/ویدئو متناسب نیست): در ابتدای درخواست، قبل از ارائه دستورالعمل کار، از مدل بخواهید تصویر(ها) یا ویدئو را توصیف کند، یا سعی کنید از مدل بخواهید به آنچه در تصویر است اشاره کند.
- برای عیبیابی اینکه کدام بخش دچار مشکل شده است: از مدل بخواهید تصویر را توصیف کند، یا از مدل بخواهید استدلال خود را توضیح دهد تا درک اولیه مدل را بسنجید.
- اگر نتیجهی درخواست شما منجر به محتوای توهمزا شد: سعی کنید تنظیمات دما را کاهش دهید یا از مدل بخواهید توضیحات کوتاهتری ارائه دهد تا احتمال تعمیم جزئیات اضافی کمتر شود.
- تنظیم پارامترهای نمونهبرداری: برای تنظیم خلاقیت مدل، تنظیمات دمایی مختلف و انتخابهای top-k را آزمایش کنید.
در دستورالعملهایتان دقیق باشید
دستورالعملها زمانی بیشترین موفقیت را دارند که واضح و با جزئیات باشند. اگر خروجی خاصی مد نظر دارید، بهتر است آن الزام را در دستورالعمل بگنجانید تا مطمئن شوید خروجی مورد نظر خود را دریافت میکنید.
برای این تصویر از تابلوی فرودگاه، درخواست از مدل برای «توصیف این تصویر» میتواند یک توصیف کلی ایجاد کند. اگر به مدل نیاز دارید که زمان و شهر را از تصویر تجزیه کند، میتوانید این درخواست را مستقیماً در اعلان خود وارد کنید.
| سریع | پاسخ مدل |
|---|---|
![]() این تصویر را توصیف کنید. | تصویر، تابلوی ورود و خروج مسافران فرودگاه را نشان میدهد. |
| اعلان بهروزرسانیشده | پاسخ بهبود یافته |
|---|---|
![]() زمان و شهر را از روی تابلوی فرودگاه که در این تصویر نشان داده شده است، در یک لیست تجزیه کنید. |
چند مثال اضافه کنید
مدل Gemini میتواند چندین ورودی را بپذیرد که میتواند از آنها به عنوان مثال برای درک خروجی مورد نظر شما استفاده کند. افزودن این مثالها میتواند به مدل کمک کند تا الگوها را شناسایی کرده و رابطه بین تصاویر و پاسخهای داده شده را در مثال جدید اعمال کند. به این روش یادگیری "چند مرحلهای" نیز گفته میشود.
در مثال زیر، خروجی اولیه به صورت جمله نوشته شده است و شامل کشور (برزیل) نیز میشود. فرض کنید میخواهید خروجی با فرمت یا سبک متفاوتی باشد و فقط شهر را میخواهید، نه کشور را. اضافه کردن چند مثال کوتاه به درخواست شما میتواند مدل را به سمتی هدایت کند که شما میخواهید پاسخ دهد.
| سریع | پاسخ مدل |
|---|---|
![]() شهر را به همراه نقطه عطف آن مشخص کنید. | یکی از نمادهای مهم این شهر، مجسمه مسیح منجی در ریودوژانیرو برزیل است. |
| اعلان بهروزرسانیشده | پاسخ بهبود یافته |
|---|---|
شهر را به همراه نقطه عطف آن مشخص کنید. ![]() | شهر: رم، بنای تاریخی: کولوسئوم. |
![]() | شهر: پکن، جاذبه گردشگری: شهر ممنوعه |
![]() | شهر: ریودوژانیرو، نقطه عطف: مجسمه مسیح منجی |
گام به گام آن را تجزیه کنید
برای کارهای پیچیدهای مانند کارهایی که هم به درک بصری و هم به استدلال نیاز دارند، تقسیم کار به مراحل کوچکتر و سرراستتر میتواند مفید باشد. از طرف دیگر، اگر مستقیماً از مدل بخواهید که در سوال شما «گام به گام فکر کند» نیز میتواند مؤثر باشد.
| سریع | پاسخ مدل |
|---|---|
![]() کی دستمال توالتم تموم میشه؟ | خیلی زود، فقط ۳ رول دیگر باقی مانده است. |
| اعلان بهروزرسانیشده | پاسخ بهبود یافته |
|---|---|
![]()
|
|
مسائل ریاضی یا انواع دیگر مسائل کلامی، گزینههای بسیار خوبی برای درخواست از مدل برای تفکر گام به گام هستند.
| سریع | پاسخ |
|---|---|
![]() جمله چهارم دنباله چیست؟ | -۱۳۵ |
پاسخ مدل نادرست است. یکی از راههای بهبود این مشکل این است که از مدل بخواهیم قبل از پاسخ دادن به سوال، مسئله را تجزیه و تحلیل کند.
| سریع | پاسخ |
|---|---|
![]() ابتدا فرمول موجود در تصویر را تجزیه کنید. سپس بر اساس فرمول، به سوال «جمله چهارم در دنباله چیست؟» پاسخ دهید. | $$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$ $$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ بنابراین، جمله چهارم در این دنباله -405 است. |
این پاسخ مدل صحیح است - اکنون برای سادهتر کردن پاسخ، میتوانید از مدل بخواهید که گام به گام فکر کند.
| اعلان بهروزرسانیشده | پاسخ بهبود یافته |
|---|---|
![]() جمله چهارم این دنباله چیست؟ گام به گام فکر کنید. | ترم اول ۱۵ است. جمله دوم عبارت است از b(1) * (-3) = 15 * (-3) = -45. جمله سوم عبارت است از b(2) * (-3) = -45 * (-3) = 135. جمله چهارم عبارت است از b(3) * (-3) = 135 * (-3) = -405. |
فرمت خروجی را مشخص کنید
یک مشکل رایج، نیاز به خروجی مدل در قالبی خاص (مثلاً markdown، JSON، HTML) است، به خصوص اگر خروجی مدل نیاز به دریافت توسط یک وظیفه پاییندستی داشته باشد. میتوانید با دستور دادن به مدل برای انجام این کار در داخل اعلان، سعی کنید خروجی را در آن قالب تولید کنید. در زیر دو مثال آورده شده است:
| سریع | پاسخ مدل |
|---|---|
![]() جدول موجود در این تصویر را به فرمت markdown تجزیه کنید | | موضوع | وضعیت | زمان | تاریخ شروع | تاریخ سررسید | | ------- | ------ | ---- | ---- | --------- | ------ | | ریاضی | انجام شد | ۱.۵ ساعت | ۲۹/۱۱/۲۰۲۳ | ۱/۱۲/۲۰۲۳ | | جغرافیا | انجام شد | ۳۰ دقیقه | ۱۲/۲/۲۰۲۳ | ۱۲/۴/۲۰۲۳ | | فیزیک | در حال انجام | ۲ ساعت | ۱۲/۳/۲۰۲۳ | ۱۲/۵/۲۰۲۳ | | زیستشناسی | شروع نشده | ۶ ساعت | ۲۰۱۶/۱۱/۲ | ۲۰۲۳/۱۲/۶ | |
| سریع | پاسخ مدل |
|---|---|
![]() فهرستی از تمام ویژگیهای زیر ارائه دهید: مواد لازم، نوع غذا، گیاهی یا غیرگیاهی، در قالب JSON | جیسون { «مواد لازم»: [ «برنج»، "میگو", "صدفها", "صدف", "نخود فرنگی", "گوجه فرنگی", «پیاز»، «سیر»، «روغن زیتون»، «پاپریکا»، «نمک»، «فلفل» ]، "نوع غذا": "اسپانیایی", «گیاهخوار»: غلط } ``` |
برای درخواستهای تکتصویری، تصویر خود را در اولویت قرار دهید
اگرچه Gemini میتواند تصویر و متن را به هر ترتیبی در یک اعلان تفسیر کند، قرار دادن یک تصویر واحد قبل از اعلان متنی ممکن است منجر به نتایج بهتری شود. در نمونههای زیر، متوجه خواهید شد که تصویر در هر اعلان قبل از متن قرار میگیرد.
عیبیابی اعلان چندوجهی شما
اگر پاسخ مفیدی دریافت نمیکنید، ممکن است لازم باشد مشکل درخواست خود را عیبیابی کنید. در اینجا چند استراتژی وجود دارد که میتوانید امتحان کنید.
اگر مدل اطلاعات را از قسمت مربوط به تصویر ترسیم نمیکند
برای دریافت پاسخ دقیقتر، میتوانید مشخص کنید که میخواهید سوال از کدام جنبههای تصویر برای ارائه پاسخ استفاده کند.
| سریع | پاسخ مدل |
|---|---|
![]() این پوشکها برای چند روز برای نوزاد کافی هستند؟ | این پوشکها تا ۱۹۸ روز دوام میآورند و بعد تمام میشوند. |
| اعلان بهروزرسانیشده | پاسخ بهبود یافته |
|---|---|
![]() این پوشکها قبل از اینکه تمام شوند، چقدر دوام میآورند؟ از وزن نشان داده شده روی جعبه برای تعیین سن کودک استفاده کنید و تعداد کل پوشکهای موجود در جعبه را در نظر بگیرید. عدد کل را بر تعداد پوشکهایی که کودک در روز استفاده میکند تقسیم کنید. | این جعبه حاوی ۱۹۸ پوشک است. روی جعبه ذکر شده که این پوشکها برای کودکی با وزن ۲۲ تا ۳۷ پوند (حدود ۱۰ تا ۱۲ کیلوگرم) مناسب هستند. کودک متوسط در این محدوده وزنی احتمالاً بین ۱ تا ۲ سال سن دارد. یک کودک ۲ ساله معمولاً روزانه ۶ پوشک عوض میکند، بنابراین، پوشکها حدود ۳۳ روز (۱۹۸/۶) دوام میآورند. |
اگر خروجی مدل بیش از حد عمومی باشد و به اندازه کافی با ورودی تصویر متناسب نباشد
برای کمک به مدل در تنظیم پاسخ خود به تصویر(ها)، سعی کنید قبل از انجام وظیفه استدلال، از آن بخواهید تصاویر را توصیف کند.
| سریع | پاسخ مدل |
|---|---|
![]() ![]() ![]() ![]() چه وجه مشترکی بین این تصاویر وجود دارد؟ | هر چهار تصویر نمونههایی از عکاسی منظره هستند. |
| اعلان بهروزرسانیشده | پاسخ بهبود یافته |
|---|---|
![]() ![]() ![]() ![]() ابتدا، آنچه در هر تصویر وجود دارد را با جزئیات شرح دهید. چه چیزی بین این تصاویر مشترک است؟ | تصویر اول شخصی را نشان میدهد که در حال بستن چمدان است. تصویر دوم یک راهروی خالی در یک مرکز خرید را نشان میدهد. تصویر سوم یک رول دستمال توالت را نشان میدهد. تصویر چهارم دریایی تاریک و طوفانی را نشان میدهد. وجه مشترک این تصاویر این است که همه آنها نمونههایی از فضاهای آستانهای هستند. فضاهای آستانهای مکانها یا موقعیتهایی هستند که بین دو مکان یا موقعیت دیگر قرار دارند. آنها اغلب با حس عدم قطعیت یا ابهام مشخص میشوند. تصویر اول، فردی را نشان میدهد که بین خانه و سفر قرار دارد. تصویر دوم راهروی بین دو فروشگاه را نشان میدهد. تصویر سوم دستمال توالت است که میتواند نمایانگر حمام باشد. حمام یک فضای انتقالی بین قلمروهای خصوصی و عمومی است. جایی است که ما خود را برای ورود یا خروج از دنیای بیرون آماده میکنیم. تصویر چهارم دریا را در حالتی بین آرام و طوفانی نشان میدهد. فضاهای آستانهای میتوانند هم هیجانانگیز و هم نگرانکننده باشند. آنها میتوانند مکانی برای شروعهای جدید یا مکانی برای پایانها باشند. آنها میتوانند مکانی برای تأمل یا مکانی برای عمل باشند. |
همچنین میتوانید صریحاً از مدل بخواهید که به آنچه در تصویر است اشاره کند.
| اعلان بهروزرسانیشده | پاسخ بهبود یافته |
|---|---|
![]() ![]() ![]() ![]() چه وجه مشترکی بین این تصاویر وجود دارد؟ در پاسخ خود به آنچه در تصاویر وجود دارد اشاره کنید. | همه تصاویر مربوط به سفر هستند. تصویر اول شخصی را در حال بستن چمدان نشان میدهد، تصویر دوم راهروی خالی یک مرکز خرید را نشان میدهد، تصویر سوم یک دسته دستمال توالت را نشان میدهد و تصویر چهارم دریایی تاریک و طوفانی را نشان میدهد. این تصاویر همگی مربوط به سفر هستند زیرا همه آنها چیزهایی هستند که مردم هنگام سفر به آنها نیاز دارند یا از آنها استفاده میکنند. تصویر اول شخصی را نشان میدهد که در حال بستن چمدان است، کاری که مردم هنگام رفتن به سفر انجام میدهند. تصویر دوم یک راهروی خالی در یک مرکز خرید را نشان میدهد، جایی که مردم اغلب برای خرید وسایل سفر خود به آنجا میروند. تصویر سوم یک دسته دستمال توالت را نشان میدهد، چیزی که مردم اغلب هنگام سفر از آن استفاده میکنند. تصویر چهارم دریایی تاریک و طوفانی را نشان میدهد، چیزی که مردم اغلب هنگام سفر با آن مواجه میشوند. |
همین نکات برای خروجی خلاقانه از تصاویر نیز کارساز هستند. در مثال زیر با خرگوش، درخواست صریح از مدل برای گنجاندن جنبههایی از تصویر میتواند خروجی را بهبود بخشد.
| سریع | پاسخ مدل |
|---|---|
![]() میشه یه شعر در مورد این تصویر برام بنویسی؟ | خرگوش کوچولو، خیلی نرم و قهوهای، تو علفها را میجوی، چه سبز و شیرین، |
| اعلان بهروزرسانیشده | پاسخ بهبود یافته |
|---|---|
![]() میشه یه شعر توصیفی و دراماتیک در مورد این تصویر برام بنویسی و مکانش رو هم بنویسی؟ | خرگوش کوچولو روی چمنزار، آیا اقیانوس آبی است، خرگوش کوچولو، راستش را بگو، شاید به خاطر وسعت همه چیز باشد، خرگوش کوچولو، نمیدانم چه خوابی میبینی، هرچی که باشه، خرگوش کوچولو، |
عیبیابی اینکه کدام بخش از اعلان ناموفق بود
تشخیص اینکه آیا یک درخواست به این دلیل ناموفق بوده که مدل از ابتدا تصویر را نفهمیده است، یا اینکه تصویر را فهمیده اما مراحل استدلال صحیح را بعداً انجام نداده است، میتواند دشوار باشد. برای ابهامزدایی بین این دلایل، از مدل بخواهید آنچه را که در تصویر است توصیف کند.
در مثال زیر، اگر مدل با یک میان وعده که در کنار چای غافلگیرکننده به نظر میرسد (مثلاً پاپ کورن) پاسخ دهد، میتوانید ابتدا عیبیابی کنید تا مشخص شود که آیا مدل به درستی تشخیص داده است که تصویر حاوی چای است یا خیر.
| سریع | درخواست راهنمایی برای رفع مشکل |
|---|---|
![]() چه میان وعده ای هست که بتونم تو ۱ دقیقه درست کنم که با این خوب بشه؟ | ![]() آنچه در این تصویر است را توصیف کنید. |
یک استراتژی دیگر این است که از مدل بخواهید استدلال خود را توضیح دهد. این میتواند به شما کمک کند تا مشخص کنید کدام بخش از استدلال، در صورت وجود، با شکست مواجه شده است.
| سریع | درخواست راهنمایی برای رفع مشکل |
|---|---|
![]() چه میان وعده ای هست که بتونم تو ۱ دقیقه درست کنم که با این خوب بشه؟ | ![]() چه خوراکیای هست که بتونم تو ۱ دقیقه درست کنم که با این خوب بشه؟ لطفا توضیح بدید چرا؟ |
قدم بعدی چیست؟
- سعی کنید با استفاده از Google AI Studio، دستورالعملهای چندوجهی خودتان را بنویسید.
- برای اطلاعات بیشتر در مورد استفاده از API فایلهای Gemini برای آپلود فایلهای رسانهای و گنجاندن آنها در اعلانهایتان، به راهنماهای پردازش تصویر ، صدا و سند مراجعه کنید.
- برای راهنمایی بیشتر در مورد طراحی سریع، مانند تنظیم پارامترهای نمونهگیری، به صفحه استراتژیهای سریع مراجعه کنید.














