ממשק API של קבצים

‫Gemini יכול לעבד בו-זמנית סוגים שונים של נתוני קלט, כולל טקסט, תמונות ואודיו.

במדריך הזה מוסבר איך לעבוד עם קובצי מדיה באמצעות Files API. הפעולות הבסיסיות זהות לקובצי אודיו, תמונות, סרטונים, מסמכים ולסוגי קבצים נתמכים אחרים.

הנחיות לגבי הנחיות לקבצים זמינות בקטע מדריך להנחיות לקבצים.

העלאת קובץ

אפשר להשתמש ב-Files API כדי להעלות קובץ מדיה. תמיד צריך להשתמש ב-Files API כשגודל הבקשה הכולל (כולל הקבצים, הנחיית הטקסט, הוראות המערכת וכו') גדול מ-100 MB. לקובצי PDF, המגבלה היא 50 MB.

הקוד הבא מעלה קובץ ואז משתמש בקובץ בקריאה ל-generateContent.

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file="path/to/sample.mp3")

response = client.models.generate_content(
    model="gemini-3-flash-preview", contents=["Describe this audio clip", myfile]
)

print(response.text)

JavaScript

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp3",
    config: { mimeType: "audio/mpeg" },
  });

  const response = await ai.models.generateContent({
    model: "gemini-3-flash-preview",
    contents: createUserContent([
      createPartFromUri(myfile.uri, myfile.mimeType),
      "Describe this audio clip",
    ]),
  });
  console.log(response.text);
}

await main();

Go

file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
defer client.Files.Delete(ctx, file.Name)

resp, err := client.Models.GenerateContent(ctx, "gemini-3-flash-preview", []*genai.Content{
  {
    Parts: []*genai.Part{
      genai.NewPartFromFile(*file),
      genai.NewPartFromText("Describe this audio clip"),
    },
  },
}, nil)

if err != nil {
    log.Fatal(err)
}

printResponse(resp)

REST

AUDIO_PATH="path/to/sample.mp3"
MIME_TYPE=$(file -b --mime-type "${AUDIO_PATH}")
NUM_BYTES=$(wc -c < "${AUDIO_PATH}")
DISPLAY_NAME=AUDIO

tmp_header_file=upload-header.tmp

# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -D "${tmp_header_file}" \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

# Upload the actual bytes.
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${AUDIO_PATH}" 2> /dev/null > file_info.json

file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri

# Now generate content using that file
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
          {"text": "Describe this audio clip"},
          {"file_data":{"mime_type": "${MIME_TYPE}", "file_uri": '$file_uri'}}]
        }]
      }' 2> /dev/null > response.json

cat response.json
echo

jq ".candidates[].content.parts[].text" response.json

אחזור מטא-נתונים של קובץ

כדי לוודא שה-API שמר בהצלחה את הקובץ שהועלה ולקבל את המטא-נתונים שלו, אפשר לקרוא ל-files.get.

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file='path/to/sample.mp3')
file_name = myfile.name
myfile = client.files.get(name=file_name)
print(myfile)

JavaScript

import {
  GoogleGenAI,
} from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp3",
    config: { mimeType: "audio/mpeg" },
  });

  const fileName = myfile.name;
  const fetchedFile = await ai.files.get({ name: fileName });
  console.log(fetchedFile);
}

await main();

Go

file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}

gotFile, err := client.Files.Get(ctx, file.Name)
if err != nil {
    log.Fatal(err)
}
fmt.Println("Got file:", gotFile.Name)

REST

# file_info.json was created in the upload example
name=$(jq ".file.name" file_info.json)
# Get the file of interest to check state
curl https://generativelanguage.googleapis.com/v1beta/files/$name \
-H "x-goog-api-key: $GEMINI_API_KEY" > file_info.json
# Print some information about the file you got
name=$(jq ".file.name" file_info.json)
echo name=$name
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri

הצגת רשימה של קבצים שהועלו

הקוד הבא מקבל רשימה של כל הקבצים שהועלו:

Python

from google import genai

client = genai.Client()

print('My files:')
for f in client.files.list():
    print(' ', f.name)

JavaScript

import {
  GoogleGenAI,
} from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const listResponse = await ai.files.list({ config: { pageSize: 10 } });
  for await (const file of listResponse) {
    console.log(file.name);
  }
}

await main();

Go

for file, err := range client.Files.All(ctx) {
  if err != nil {
    log.Fatal(err)
  }
  fmt.Println(file.Name)
}

REST

echo "My files: "

curl "https://generativelanguage.googleapis.com/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY"

מחיקת קבצים שהועלו

הקבצים נמחקים אוטומטית אחרי 48 שעות. אפשר גם למחוק קובץ שהועלה באופן ידני:

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file='path/to/sample.mp3')
client.files.delete(name=myfile.name)

JavaScript

import {
  GoogleGenAI,
} from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp3",
    config: { mimeType: "audio/mpeg" },
  });

  const fileName = myfile.name;
  await ai.files.delete({ name: fileName });
}

await main();

Go

file, err := client.Files.UploadFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
client.Files.Delete(ctx, file.Name)

REST

curl --request "DELETE" https://generativelanguage.googleapis.com/v1beta/files/$name \
  -H "x-goog-api-key: $GEMINI_API_KEY"

פרטי השימוש

אפשר להשתמש ב-Files API כדי להעלות קובצי מדיה ולבצע פעולות שונות בהם. בעזרת Files API אפשר לאחסן עד 20GB של קבצים לכל פרויקט, עם גודל מקסימלי של 2GB לכל קובץ. הקבצים מאוחסנים למשך 48 שעות. במהלך התקופה הזו, אפשר להשתמש ב-API כדי לקבל מטא-נתונים על הקבצים, אבל אי אפשר להוריד את הקבצים. ‫Files API זמין ללא עלות בכל האזורים שבהם Gemini API זמין.

שיטות להנחיית קבצים

בקטע הזה מפורטות הנחיות ושיטות מומלצות לשימוש בקובצי מדיה בהנחיות ל-Gemini API.

היכולת להשתמש בסוגים שונים של נתונים בהנחיות מאפשרת לכם גמישות רבה יותר מבחינת המשימות שאתם יכולים לבצע באמצעות Gemini API. לדוגמה, אפשר לשלוח למודל תמונה של ארוחה טעימה ולבקש ממנו לכתוב פוסט קצר בבלוג על הארוחה.

הנחיה

תשובה

תכתוב פוסט קצר ומושך בבלוג על סמך התמונה הזו. הוא צריך לכלול תיאור של הארוחה בתמונה ולספר על התהליך שלי בהכנת ארוחות מראש.

הכנת ארוחות מראש היא דרך מצוינת לחסוך זמן וכסף, והיא גם יכולה לעזור לכם לאכול בריא יותר. הארוחה הזו היא דוגמה מצוינת לארוחה בריאה וטעימה שאפשר להכין מראש בקלות.

ארוחה שכוללת אורז מלא, ירקות צלויים ועוף טריאקי. האורז החום הוא פחמימה בריאה ומורכבת שתספק לכם אנרגיה לאורך זמן. הירקות הצלויים הם דרך מצוינת לקבל את המינון היומי של ויטמינים ומינרלים, והעוף טריאקי הוא אפשרות טעימה ועשירה בחלבון.

גם את הארוחה הזו קל מאוד להכין. פשוט מבשלים את האורז החום, צולים את הירקות ומבשלים את העוף בטריאקי. אחרי שכל המרכיבים מבושלים, מחלקים אותם לקופסאות של הכנת ארוחות ושומרים אותן במקרר. אז תוכלו לקחת קופסה ולצאת לדרך בבקרים העמוסים!

אם אתם מחפשים ארוחה בריאה וטעימה שאפשר להכין בקלות מראש, זו אופציה מצוינת. הוא עשיר ברכיבים מזינים ובטעם, ואין ספק שהוא ישאיר אתכם שבעים ומרוצים.

שתהיה לכם הכנת ארוחות בריאה וטעימה!

אם אתם מתקשים לקבל את הפלט הרצוי מהנחיות שמשתמשות בקובצי מדיה, יש כמה אסטרטגיות שיכולות לעזור לכם להשיג את התוצאות הרצויות. בקטעים הבאים מפורטות גישות עיצוביות וטיפים לפתרון בעיות שיעזרו לכם לשפר הנחיות שמשתמשות בקלט רב-אופני.

כדי לשפר את ההנחיות המולטימודאליות, כדאי לפעול לפי השיטות המומלצות הבאות:

עקרונות בסיסיים לעיצוב הנחיות
- הוראות ספציפיות: חשוב לנסח הוראות ברורות ותמציתיות, שלא משאירות מקום לפרשנות מוטעית.
- הוספת כמה דוגמאות להנחיה: כדאי להשתמש בכמה דוגמאות ריאליסטיות כדי להמחיש את מה שרוצים להשיג.
- פירוט שלב אחר שלב: חלוקת משימות מורכבות למשימות משנה קלות לניהול, והנחיית המודל בתהליך.
- מציינים את פורמט הפלט: בהנחיה, מבקשים שהפלט יהיה בפורמט הרצוי, כמו markdown, ‏ JSON, ‏ HTML ועוד.
- כשמזינים הנחיות עם תמונה אחת, כדאי להזין את התמונה לפני הטקסט: אמנם Gemini יכול לעבד קלט של תמונות וטקסט בכל סדר, אבל כשמזינים הנחיות עם תמונה אחת, יכול להיות שהביצועים יהיו טובים יותר אם התמונה (או הסרטון) תופיע לפני הנחיית הטקסט. עם זאת, בהנחיות שבהן צריך לשלב תמונות עם טקסטים בצורה הדוקה כדי שההנחיה תהיה הגיונית, כדאי להשתמש בסדר הכי טבעי.
פתרון בעיות בהנחיה מולטימודאלית
- אם המודל לא שואב מידע מהחלק הרלוונטי בתמונה: כדאי להוסיף להנחיה רמזים לגבי ההיבטים של התמונה שמהם רוצים שהמודל ישאב מידע.
- אם הפלט של המודל גנרי מדי (לא מותאם מספיק לקלט של התמונה או הסרטון): בתחילת ההנחיה, כדאי לבקש מהמודל לתאר את התמונות או הסרטון לפני שמספקים את הוראת המשימה, או לבקש מהמודל להתייחס למה שמופיע בתמונה.
- כדי לפתור בעיות בחלק מסוים: מבקשים מהמודל לתאר את התמונה או להסביר את ההיגיון שלו, כדי להבין מה הייתה ההבנה הראשונית של המודל.
- אם ההנחיה שלכם מניבה תוכן הזוי: נסו להפחית את הגדרת הטמפרטורה או לבקש מהמודל תיאורים קצרים יותר, כדי שהסיכוי שהוא יסיק פרטים נוספים יהיה נמוך יותר.
- שינוי הפרמטרים של הדגימה: כדאי להתנסות בהגדרות שונות של טמפרטורה ובבחירות שונות של top-k כדי לשנות את רמת הקריאייטיביות של המודל.
  כשמשתמשים במודלים של Gemini 3, מומלץ מאוד להשאיר את הערך של temperature כברירת המחדל שלו, 1.0. שינוי הטמפרטורה (הגדרה של ערך מתחת ל-1.0) עלול להוביל להתנהגות לא צפויה, כמו חזרה על פעולות או ירידה בביצועים, במיוחד במשימות מורכבות שקשורות למתמטיקה או להיגיון.

הוראות ספציפיות

ההנחיות הכי מוצלחות הן אלה שברורות ומפורטות. אם יש לכם פלט ספציפי בראש, עדיף לכלול את הדרישה הזו בהנחיה כדי לקבל את הפלט הרצוי.

אם תבקשו מהמודל רק "לתאר את התמונה הזו" של לוח בשדה תעופה, הוא ייתן תיאור כללי. אם אתם רוצים שהמודל ינתח את השעה והעיר מהתמונה, אתם יכולים לכלול את הבקשה הזו ישירות בהנחיה.

הנחיה	תשובה מהמודל
מה מופיע בתמונה?	תמונה של לוח טיסות נכנסות ויוצאות בשדה תעופה.

הנחיה מעודכנת	תשובה משופרת
Parse the time and city from the airport board shown in this image into a list.	‫10:50 מוסקבה ‫11:05 אדינבורו ‫11:05 לונדון ‫11:10 בוקרשט ‫11:30 קייב ‫11:35 דבלין ‫11:45 איסט מידלנדס ‫12:15 סופיה ‫12:30 לונדון ‫12:30 ניוקאסל ‫12:40 סנט פטרסבורג ‫12:40 לונדון ‫12:45 מנצ'סטר

הנחיה מעודכנת

תשובה משופרת

Parse the time and city from the airport board shown in this image into a list.

‫10:50 מוסקבה

‫11:05 אדינבורו

‫11:05 לונדון

‫11:10 בוקרשט

‫11:30 קייב

‫11:35 דבלין

‫11:45 איסט מידלנדס

‫12:15 סופיה

‫12:30 לונדון

‫12:30 ניוקאסל

‫12:40 סנט פטרסבורג

‫12:40 לונדון

‫12:45 מנצ'סטר

הוספת כמה דוגמאות

מודל Gemini יכול לקבל כמה קלטים שאפשר להשתמש בהם כדוגמאות כדי להבין את הפלט שאתם רוצים. הוספת הדוגמאות האלה יכולה לעזור למודל לזהות את הדפוסים ולהחיל את הקשר בין התמונות והתשובות שצוינו על הדוגמה החדשה. השיטה הזו נקראת גם למידה עם מעט דוגמאות.

בדוגמה שלמטה, הפלט הראשוני כתוב בצורת משפט, והוא כולל גם את המדינה (ברזיל). נניח שאתם רוצים שהפלט יהיה בפורמט או בסגנון אחר, ושהוא יכלול רק את שם העיר ולא את שם המדינה. הוספה של דוגמאות להנחיה יכולה לעזור למודל להגיב בצורה הרצויה.

הנחיה	תשובה מהמודל
מזהים את העיר ואת נקודת הציון.	האתר המפורסם הוא פסל ישו הגואל בריו דה ז'ניירו, ברזיל.

הנחיה מעודכנת	תשובה משופרת
מזהים את העיר ואת נקודת הציון.	city: Rome, landmark: the Colosseum.
	עיר: בייג'ינג, ציון דרך: העיר האסורה
	עיר: ריו דה ז'ניירו, נקודת ציון: פסל ישו הגואל

הסבר מפורט

במשימות מורכבות שדורשות גם הבנה חזותית וגם חשיבה, כדאי לפצל את המשימה לשלבים קטנים ופשוטים יותר. אפשרות נוספת היא לבקש מהמודל ישירות בבקשה לכתוב את התשובה 'שלב אחר שלב'.

הנחיה	תשובה מהמודל
מתי ייגמר לי נייר הטואלט?	בקרוב, יישארו לך רק 3 גלילים.

הנחיה מעודכנת	תשובה משופרת
1. קודם כל, תספור כמה גלילי נייר טואלט יש בתמונה הזו. 2. אחר כך, צריך לקבוע כמה נייר טואלט אדם ממוצע משתמש ביום. ‫ 3. תחשב כמה זמן יספיקו גלילי נייר הטואלט האלה.	1. בתמונה הזו יש 3 גלילי נייר טואלט. 2. אדם ממוצע משתמש בכ-20 פיסות נייר טואלט ביום. ‫ 3. אם כל גליל מכיל 200 דפים, כל גליל יספיק לכ-10 ימים. לכן, 3 הגלילות יספיקו בערך לחודש.

הנחיה מעודכנת

תשובה משופרת

1. קודם כל, תספור כמה גלילי נייר טואלט יש בתמונה הזו.

2. אחר כך, צריך לקבוע כמה נייר טואלט אדם ממוצע משתמש ביום. ‫

3. תחשב כמה זמן יספיקו גלילי נייר הטואלט האלה.

1. בתמונה הזו יש 3 גלילי נייר טואלט.

2. אדם ממוצע משתמש בכ-20 פיסות נייר טואלט ביום. ‫

3. אם כל גליל מכיל 200 דפים, כל גליל יספיק לכ-10 ימים. לכן, 3 הגלילות יספיקו בערך לחודש.

בעיות מתמטיות או סוגים אחרים של בעיות מילוליות הן דוגמאות מצוינות לתרחישים שבהם כדאי לבקש מהמודל לחשוב שלב אחר שלב.

הנחיה	תשובה
מהו האיבר הרביעי בסדרה?	-135

הנחיה

תשובה

מהו האיבר הרביעי בסדרה?

-135

התשובה מהמודל שגויה. כדי לשפר את התשובה, אפשר לבקש מהמודל לנתח את הבעיה לפני שהוא עונה על ההנחיה.

הנחיה	תשובה
קודם מנתחים את הנוסחה שבתמונה. לאחר מכן, על סמך הנוסחה, ענו על השאלה 'מה האיבר הרביעי בסדרה?'.	לוחצים כדי להרחיב את התוצאה $$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$ מציבים את n = 4 בנוסחה: $$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ אנחנו לא יודעים את הערך של b(3), לכן נציב n = 3 בנוסחה: $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ אנחנו לא יודעים את הערך של b(2), אז נציב n = 2 בנוסחה: $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ אנחנו יודעים שהערך של b(1) הוא 15, אז נציב אותו בנוסחה: $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ עכשיו, אחרי שיש לנו את הערך של b(2), נציב אותו בנוסחה של b(3): $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ עכשיו, אחרי שיש לנו את הערך של b(3), נציב אותו בנוסחה של b(4): $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ לכן, האיבר הרביעי בסדרה הוא ‎-405.

הנחיה

תשובה

קודם מנתחים את הנוסחה שבתמונה.

לאחר מכן, על סמך הנוסחה, ענו על השאלה 'מה האיבר הרביעי בסדרה?'.

לוחצים כדי להרחיב את התוצאה

$$ b(n) = b(n-1) * (-3) $$

$$ b(1) = 15 $$

מציבים את n = 4 בנוסחה:

$$ b(4) = b(4-1) * (-3) $$

$$ b(4) = b(3) * (-3) $$

אנחנו לא יודעים את הערך של b(3), לכן נציב n = 3 בנוסחה:

$$ b(3) = b(3-1) * (-3) $$

$$ b(3) = b(2) * (-3) $$

אנחנו לא יודעים את הערך של b(2), אז נציב n = 2 בנוסחה:

$$ b(2) = b(2-1) * (-3) $$

$$ b(2) = b(1) * (-3) $$

אנחנו יודעים שהערך של b(1) הוא 15, אז נציב אותו בנוסחה:

$$ b(2) = 15 * (-3) $$

$$ b(2) = -45 $$

עכשיו, אחרי שיש לנו את הערך של b(2), נציב אותו בנוסחה של b(3):

$$ b(3) = b(2) * (-3) $$

$$ b(3) = -45 * (-3) $$

$$ b(3) = 135 $$

עכשיו, אחרי שיש לנו את הערך של b(3), נציב אותו בנוסחה של b(4):

$$ b(4) = b(3) * (-3) $$

$$ b(4) = 135 * (-3) $$

$$ b(4) = -405 $$

לכן, האיבר הרביעי בסדרה הוא ‎-405.

התשובה של המודל נכונה. כדי שהתשובה תהיה תמציתית יותר, אפשר לבקש מהמודל לחשוב שלב אחר שלב.

הנחיה מעודכנת	תשובה משופרת
מהו האיבר הרביעי בסדרה? תחשוב שלב אחרי שלב.	המונח הראשון הוא 15. האיבר השני הוא b(1) * (-3) = 15 * (-3) = -45. האיבר השלישי הוא b(2) * (-3) = -45 * (-3) = 135. האיבר הרביעי הוא b(3) * (-3) = 135 * (-3) = -405.

הנחיה מעודכנת

תשובה משופרת

מהו האיבר הרביעי בסדרה? תחשוב שלב אחרי שלב.

המונח הראשון הוא 15.

האיבר השני הוא b(1) * (-3) = 15 * (-3) = -45.

האיבר השלישי הוא b(2) * (-3) = -45 * (-3) = 135.

האיבר הרביעי הוא b(3) * (-3) = 135 * (-3) = -405.

ציון פורמט הפלט

בעיה נפוצה היא הצורך שפלט המודל יהיה בפורמט מסוים (למשל, markdown,‏ JSON,‏ HTML), במיוחד אם צריך להזין את פלט המודל למשימה במורד הזרם. אתם יכולים לנסות ליצור פלט בפורמט הזה על ידי הנחיית המודל לעשות זאת בהנחיה. בהמשך מופיעות שתי דוגמאות:

הנחיה	תשובה מהמודל
מנתח את הטבלה בתמונה הזו לפורמט Markdown	\| נושא \| סטטוס \| שעה \| תאריך התחלה \| תאריך יעד \| \| ------- \| ------ \| ---- \| ---------- \| ------ \| \| מתמטיקה \| בוצע \| שעה וחצי \| 29/11/2023 \| 1/12/2023 \| \| גיאוגרפיה \| בוצע \| 30 דקות \| 2/12/2023 \| 4/12/2023 \| \| פיזיקה \| בביצוע \| שעתיים \| 3/12/2023 \| 5/12/2023 \| \| ביולוגיה \| לא התחיל \| 6 שעות \| 2/11/2016 \| 6/12/2023 \|

הנחיה

תשובה מהמודל

מנתח את הטבלה בתמונה הזו לפורמט Markdown

| ------- | ------ | ---- | ---------- | ------ |

הנחיה תשובה מהמודל

הנחיה	תשובה מהמודל
צריך לציין את כל המאפיינים הבאים: רכיבים, סוג המטבח, צמחוני או לא, בפורמט JSON	```json `{` `"ingredients": [` `"rice",` `"shrimp",` `"clams",` `"mussels",` `"peas",` `"tomatoes",` `"onions",` `"garlic",` `"olive oil",` `"paprika",` `"salt",` `"pepper"` `],` `"type of cuisine": "Spanish",` `"vegetarian": false` `}` ```

צריך לציין את כל המאפיינים הבאים:

רכיבים, סוג המטבח, צמחוני או לא, בפורמט JSON

```json

{

"ingredients": [

"rice",

"shrimp",

"clams",

"mussels",

"peas",

"tomatoes",

"onions",

"garlic",

"olive oil",

"paprika",

"salt",

"pepper"

],

"type of cuisine": "Spanish",

"vegetarian": false

}

```

בהנחיות ליצירת תמונה אחת, כדאי להוסיף את התמונה קודם

‫Gemini יכול לפרש תמונה וטקסט בכל סדר בהנחיה, אבל יכול להיות שמיקום של תמונה אחת לפני הנחיית הטקסט יוביל לתוצאות טובות יותר. בדוגמאות הבאות, אפשר לראות שהתמונה מופיעה לפני הטקסט בכל הנחיה.

פתרון בעיות בהנחיה מרובת-אופנים

אם לא מקבלים תשובה מועילה, יכול להיות שצריך לפתור בעיות בהנחיה. הנה כמה אסטרטגיות שאפשר לנסות.

אם המודל לא שואב מידע מהחלק הרלוונטי בתמונה

כדי לקבל תשובה ספציפית יותר, אפשר לציין אילו היבטים של התמונה רוצים שההנחיה תתייחס אליהם כדי להפיק את התשובה.

הנחיה	תשובה מהמודל
לכמה ימים יספיקו החיתולים האלה לתינוק?	החיתולים יספיקו ל-198 ימים לפני שיגמרו.

הנחיה מעודכנת	תשובה משופרת
כמה זמן יספיקו החיתולים האלה עד שאצטרך לקנות חדשים? משתמשים במשקל שמופיע על האריזה כדי לקבוע את גיל הילד, ומשתמשים במספר הכולל של החיתולים באריזה. מחלקים את המספר הכולל במספר החיתולים שהילד או הילדה משתמשים בהם ביום.	הקופסה מכילה 198 חיתולים. על הקופסה מצוין שהחיתולים מיועדים לילדים במשקל 10-17 ק"ג. הגיל הממוצע של ילדים בטווח המשקל הזה הוא בדרך כלל בין שנה לשנתיים. ילד בן שנתיים משתמש בדרך כלל ב-6 חיתולים ביום, ולכן החיתולים יספיקו לכ-33 ימים (198 חלקי 6).

הנחיה מעודכנת

תשובה משופרת

כמה זמן יספיקו החיתולים האלה עד שאצטרך לקנות חדשים?

משתמשים במשקל שמופיע על האריזה כדי לקבוע את גיל הילד, ומשתמשים במספר הכולל של החיתולים באריזה.

מחלקים את המספר הכולל במספר החיתולים שהילד או הילדה משתמשים בהם ביום.

הקופסה מכילה 198 חיתולים. על הקופסה מצוין שהחיתולים מיועדים לילדים במשקל 10-17 ק"ג.

הגיל הממוצע של ילדים בטווח המשקל הזה הוא בדרך כלל בין שנה לשנתיים.

ילד בן שנתיים משתמש בדרך כלל ב-6 חיתולים ביום, ולכן החיתולים יספיקו לכ-33 ימים (198 חלקי 6).

אם הפלט של המודל גנרי מדי ולא מותאם מספיק לקלט של התמונה

כדי לעזור למודל להתאים את התשובה שלו לתמונות, כדאי לבקש ממנו לתאר את התמונות לפני שהוא מבצע את משימת הנימוק.

הנחיה	תשובה מהמודל
מה המשותף לתמונות האלה?	כל ארבע התמונות הן דוגמאות לצילום נוף.

הנחיה מעודכנת	תשובה משופרת
קודם כל, תתאר בפירוט מה רואים בכל תמונה. מה המשותף לתמונות האלה?	בתמונה הראשונה מוצג אדם אורז מזוודה. בתמונה השנייה מוצג מסדרון ריק בקניון. בתמונה השלישית מוצג גליל נייר טואלט. בתמונה הרביעית מוצג ים סוער וכהה. המשותף לכל התמונות האלה הוא שהן דוגמאות למרחבים לימינליים. מרחבים לימינליים הם מקומות או מצבים שנמצאים בין שני מקומות או מצבים אחרים. לרוב הן מתאפיינות בתחושת אי-ודאות או דו-משמעות. התמונה הראשונה מראה את האדם באמצע, כשהוא בבית וכשהוא בטיול. התמונה השנייה מראה את המסדרון בין שתי חנויות. התמונה השלישית היא של נייר טואלט, שיכול לייצג חדר אמבטיה. חדר אמבטיה הוא מרחב מעבר בין תחומים פרטיים לציבוריים. זה מקום שבו אנחנו מתכוננים להיכנס לעולם החיצוני או לצאת ממנו. בתמונה הרביעית מוצג הים בין מצב רגוע למצב סוער. מרחבים לימינליים יכולים להיות גם מרגשים וגם מטרידים. הם יכולים להיות מקום של התחלות חדשות או מקום של סיומים. הם יכולים להיות מקום למחשבה או מקום לפעולה.

הנחיה מעודכנת

תשובה משופרת

קודם כל, תתאר בפירוט מה רואים בכל תמונה. מה המשותף לתמונות האלה?

בתמונה הראשונה מוצג אדם אורז מזוודה. בתמונה השנייה מוצג מסדרון ריק בקניון. בתמונה השלישית מוצג גליל נייר טואלט. בתמונה הרביעית מוצג ים סוער וכהה.

המשותף לכל התמונות האלה הוא שהן דוגמאות למרחבים לימינליים. מרחבים לימינליים הם מקומות או מצבים שנמצאים בין שני מקומות או מצבים אחרים. לרוב הן מתאפיינות בתחושת אי-ודאות או דו-משמעות.

התמונה הראשונה מראה את האדם באמצע, כשהוא בבית וכשהוא בטיול. התמונה השנייה מראה את המסדרון בין שתי חנויות. התמונה השלישית היא של נייר טואלט, שיכול לייצג חדר אמבטיה. חדר אמבטיה הוא מרחב מעבר בין תחומים פרטיים לציבוריים. זה מקום שבו אנחנו מתכוננים להיכנס לעולם החיצוני או לצאת ממנו.

בתמונה הרביעית מוצג הים בין מצב רגוע למצב סוער.

מרחבים לימינליים יכולים להיות גם מרגשים וגם מטרידים. הם יכולים להיות מקום של התחלות חדשות או מקום של סיומים. הם יכולים להיות מקום למחשבה או מקום לפעולה.

אפשר גם לנסות לבקש מהמודל באופן מפורש להתייחס למה שרואים בתמונה.

הנחיה מעודכנת	תשובה משופרת
מה המשותף לתמונות האלה? להתייחס למה שרואים בתמונות בתשובה.	כל התמונות קשורות לנסיעות. בתמונה הראשונה רואים אדם אורז מזוודה, בתמונה השנייה רואים מסדרון ריק בקניון, בתמונה השלישית רואים ערימה של נייר טואלט ובתמונה הרביעית רואים ים סוער וחשוך. כל התמונות האלה קשורות לנסיעות כי הן מציגות דברים שאנשים צריכים או משתמשים בהם כשהם נוסעים. בתמונה הראשונה רואים אדם אורז מזוודה, וזה משהו שאנשים עושים כשהם נוסעים לטיול. בתמונה השנייה מוצג מסדרון ריק בקניון, שהוא מקום שאנשים נוהגים ללכת אליו כדי לקנות דברים לנסיעות שלהם. בתמונה השלישית מוצגת ערימה של נייר טואלט, שזה משהו שאנשים משתמשים בו לעיתים קרובות כשהם נוסעים. בתמונה הרביעית מוצג ים סוער וחשוך, שזה משהו שאנשים נתקלים בו לעיתים קרובות כשהם נוסעים.

הנחיה מעודכנת

תשובה משופרת

מה המשותף לתמונות האלה? להתייחס למה שרואים בתמונות בתשובה.

כל התמונות קשורות לנסיעות. בתמונה הראשונה רואים אדם אורז מזוודה, בתמונה השנייה רואים מסדרון ריק בקניון, בתמונה השלישית רואים ערימה של נייר טואלט ובתמונה הרביעית רואים ים סוער וחשוך.

כל התמונות האלה קשורות לנסיעות כי הן מציגות דברים שאנשים צריכים או משתמשים בהם כשהם נוסעים. בתמונה הראשונה רואים אדם אורז מזוודה, וזה משהו שאנשים עושים כשהם נוסעים לטיול. בתמונה השנייה מוצג מסדרון ריק בקניון, שהוא מקום שאנשים נוהגים ללכת אליו כדי לקנות דברים לנסיעות שלהם. בתמונה השלישית מוצגת ערימה של נייר טואלט, שזה משהו שאנשים משתמשים בו לעיתים קרובות כשהם נוסעים. בתמונה הרביעית מוצג ים סוער וחשוך, שזה משהו שאנשים נתקלים בו לעיתים קרובות כשהם נוסעים.

אותם טיפים רלוונטיים גם ליצירת קריאייטיב מתמונות. בדוגמה הבאה עם הארנב, בקשה מפורשת מהמודל לכלול היבטים מהתמונה יכולה לשפר את הפלט.

הנחיה	תשובה מהמודל
תכתוב שיר על התמונה הזו?	ארנב קטן, רך וחום, קופץ בשדה, למעלה ולמטה. האוזניים שלך כל כך ארוכות, הזנב שלך כל כך קטן, אתה היצור הכי חמוד מכולם. אתה מכרסם את העשב, כל כך ירוק ומתוק, ואז קופץ כשאתה רואה אותי. But I'll always be your friend, Little bunny, until the very end.

הנחיה

תשובה מהמודל

תכתוב שיר על התמונה הזו?

ארנב קטן, רך וחום,
קופץ בשדה, למעלה ולמטה.
האוזניים שלך כל כך ארוכות, הזנב שלך כל כך קטן,
אתה היצור הכי חמוד מכולם.

אתה מכרסם את העשב, כל כך ירוק ומתוק,
ואז קופץ כשאתה רואה אותי.
But I'll always be your friend,
Little bunny, until the very end.

הנחיה מעודכנת	תשובה משופרת
תכתוב לי שיר תיאורי ודרמטי על התמונה הזו, ותציין גם את המיקום.	ארנב קטן על הדשא, אוזניים ארוכות, חדות. מה אתה רואה שם, במרחק, לאן אתה בוהה? Is it the ocean blue, Sparkling in the sun's hue? Or the waves that crash and roar, A rhythm that you adore? ארנב קטן, תגיד לי את האמת, מה כל כך מושך את תשומת הלב שלך? Is it the salty breeze, Or the seagulls' cries that please? אולי זה הגודל של הכול, עולם כל כך גדול וקטן. מקום שבו חלומות יכולים להתגשם, ומקום שבו אפשר לצאת להרפתקאות. ארנב קטן, מעניין מה חלמת, כשאתה יושב על הדשא, כל כך רגוע. האם תרצה לחקור את המעמקים, או להישאר על היבשה, שבה תוכל לקפוץ? לא משנה מה זה, ארנב קטן, תשמור על ניצוץ התמיהה הזה בוער בעוצמה. כי בחלומות ובשאיפות שלך, יש עולם שמחכה ליצירה שלך.

הנחיה מעודכנת

תשובה משופרת

תכתוב לי שיר תיאורי ודרמטי על התמונה הזו, ותציין גם את המיקום.

ארנב קטן על הדשא,
אוזניים ארוכות, חדות.
מה אתה רואה שם,
במרחק, לאן אתה בוהה?

Is it the ocean blue,
Sparkling in the sun's hue?
Or the waves that crash and roar,
A rhythm that you adore?

ארנב קטן, תגיד לי את האמת,
מה כל כך מושך את תשומת הלב שלך?
Is it the salty breeze,
Or the seagulls' cries that please?

אולי זה הגודל של הכול,
עולם כל כך גדול וקטן.
מקום שבו חלומות יכולים להתגשם,
ומקום שבו אפשר לצאת להרפתקאות.

ארנב קטן, מעניין מה חלמת,
כשאתה יושב על הדשא, כל כך רגוע.
האם תרצה לחקור את המעמקים,
או להישאר על היבשה, שבה תוכל לקפוץ?

לא משנה מה זה, ארנב קטן,
תשמור על ניצוץ התמיהה הזה בוער בעוצמה.
כי בחלומות ובשאיפות שלך,
יש עולם שמחכה ליצירה שלך.

פתרון בעיות שקשורות לחלקים בהנחיה שנכשלו

יכול להיות שקשה לדעת אם ההנחיה נכשלה כי המודל לא הבין את התמונה מלכתחילה, או שהוא הבין את התמונה אבל לא ביצע את שלבי הנימוק הנכונים לאחר מכן. כדי להבחין בין הסיבות האלה, אפשר לבקש מהמודל לתאר את מה שמופיע בתמונה.

בדוגמה הבאה, אם המודל משיב עם חטיף שנראה מפתיע בשילוב עם תה (למשל, פופקורן), אפשר קודם לפתור את הבעיה כדי לקבוע אם המודל זיהה נכון שהתמונה מכילה תה.

הנחיה	הנחיה לפתרון בעיות
איזה נשנוש אפשר להכין בדקה שיתאים לזה?	מה רואים בתמונה?

אסטרטגיה נוספת היא לבקש מהמודל להסביר את ההיגיון שלו. כך תוכלו להבין אם יש חלק מההסבר שלא עובד, ואם כן, איזה חלק.

הנחיה	הנחיה לפתרון בעיות
תציע לי חטיף שאפשר להכין בדקה אחת ויתאים לזה.	תציע לי חטיף שאפשר להכין בדקה אחת ויתאים לזה. נשמח לקבל הסבר.

המאמרים הבאים

אתם יכולים לנסות לכתוב הנחיות מולטימודאליות משלכם באמצעות Google AI Studio.
מידע על השימוש ב-Gemini Files API להעלאת קובצי מדיה ולצירוף שלהם להנחיות זמין במדריכים בנושא Vision,‏ Audio ועיבוד מסמכים.
הנחיות נוספות לעיצוב הנחיות, כמו כוונון פרמטרים של דגימה, זמינות בדף אסטרטגיות להנחיות.

ממשק API של קבצים

העלאת קובץ

Python

JavaScript

Go

REST

אחזור מטא-נתונים של קובץ

Python

JavaScript

Go

REST

הצגת רשימה של קבצים שהועלו

Python

JavaScript

Go

REST

מחיקת קבצים שהועלו

Python

JavaScript

Go

REST

פרטי השימוש

שיטות להנחיית קבצים

עקרונות בסיסיים לעיצוב הנחיות

פתרון בעיות בהנחיה מולטימודאלית

הוראות ספציפיות

הוספת כמה דוגמאות

הסבר מפורט

ציון פורמט הפלט

בהנחיות ליצירת תמונה אחת, כדאי להוסיף את התמונה קודם

פתרון בעיות בהנחיה מרובת-אופנים

אם המודל לא שואב מידע מהחלק הרלוונטי בתמונה

אם הפלט של המודל גנרי מדי ולא מותאם מספיק לקלט של התמונה

פתרון בעיות שקשורות לחלקים בהנחיה שנכשלו

המאמרים הבאים