‫Gemini Deep Research זמין עכשיו בתצוגה מקדימה עם תכונות כמו תכנון שיתופי, ויזואליזציה, תמיכה ב-MCP ועוד.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

מה חדש ב-Gemini 3.5 Flash

הערה: הגרסה הזו של הדף מתייחסת ל-Interactions API החדש, שנמצא כרגע בגרסת בטא.
כדי להמשיך להשתמש ב-API generateContent בפריסות יציבות של מוצרים, מומלץ להמשיך להשתמש ב-API generateContent. אפשר להשתמש במתג בדף הזה כדי לעבור בין הגרסאות.

‫Gemini 3.5 Flash זמין לכלל המשתמשים (GA), יציב ומוכן לשימוש בהיקף גדול בסביבת ייצור. הוא המודל הכי חכם שלנו בסדרת Flash, והוא מספק ביצועים ברמה גבוהה באופן עקבי במשימות אג'נטיות, בכתיבת קוד ובמשימות ארוכות טווח, בקנה מידה גדול.

במדריך הזה מופיעה סקירה כללית של השיפורים, השינויים ב-API והנחיות להעברה ל-Gemini 3.5 Flash.

המודל החדש

מודל	מזהה דגם	תיאור
Gemini 3.5 Flash	`gemini-3.5-flash`	המודל הכי חכם שלנו, שמספק ביצועים מתקדמים באופן עקבי במשימות של סוכנים וקידוד.

‫Gemini 3.5 Flash תומך בחלון הקשר של מיליון טוקנים, ב-65,000 טוקנים מקסימליים של פלט, ביכולת חשיבה ובאותו סט של כלים ותכונות פלטפורמה כמו Gemini 3 Flash. בשלב הזה, אין תמיכה בשימוש במחשב.

למפרטים מלאים, אפשר לעיין בסקירה הכללית על המודלים. למידע על תמחור, אפשר לעיין בדף התמחור.

מדריך למתחילים

כל הדוגמאות במדריך הזה משתמשות ב-Interactions API. ה-API של GenerateContent נתמך גם הוא, ואותן אפשרויות הגדרה והמלצות חלות עליו.

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Explain how parallel agentic execution works in three sentences."
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

async function main() {
  const interaction = await client.interactions.create({
    model: "gemini-3.5-flash",
    input: "Explain how parallel agentic execution works in three sentences.",
  });
  console.log(interaction.output_text);
}

main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Explain how parallel agentic execution works in three sentences."
  }'

מה חדש

‫ביצועים מתקדמים וקבועים: מודל Flash הכי חכם שלנו, שעבר אופטימיזציה למשימות של סוכנים ולכתיבת קוד בהיקף נרחב.
ביצוע מבוסס-סוכן: פריסת סוכני משנה, פתרון בעיות ולולאות מהירות מבוססות-סוכן בהיקף נרחב.
תכנות: מחזורי תכנות איטרטיביים, מחקר מהיר ויצירת אב טיפוס כדי לבדוק נתיבים חלופיים ולחקור פתרונות באופן דינמי.
טווח ארוך: תהליכי עבודה מרובי-שלבים ושימוש בכלי AI בהיקף נרחב.
שמירת מחשבות: המודל שומר על שלבי הביניים של הנימוקים באופן אוטומטי לאורך שיחות מרובות. אין צורך לבצע שינויים ב-API.
רמת המאמץ החדשה שמוגדרת כברירת מחדל: רמת המאמץ של החשיבה שמוגדרת כברירת מחדל השתנתה מ-high ל-medium. פרטים נוספים זמינים במאמר בנושא רמת המאמץ החדשה שמוגדרת כברירת מחדל.
שיפור משמעותי בlow חשיבה: low עכשיו משופר משמעותית עבור קוד ומשימות שדורשות פחות שלבים, ומציע איכות גבוהה עם חביון ועלות נמוכים יותר.
גרסת GA: מודל יציב לשימוש בהפקה בהיקף נרחב.

שינויים התנהגותיים

רמת המאמץ החדשה שמוגדרת כברירת מחדל: `medium`

מאמץ החשיבה שמוגדר כברירת מחדל הוא עכשיו medium, במקום high בגרסת טרום-ההשקה של Gemini 3 Flash. ‫medium מניב תוצאות טובות מאוד במגוון רחב של משימות, וגם מהיר יותר ומשתלם יותר. לבעיות מורכבות, high המודל מעודד את המודל לחשוב לעומק.

רמת המאמץ	מתי להשתמש?
`minimal`	אופטימיזציה למהירות התגובה. תרחישי שימוש כמו צ'אט, תשובות מהירות שמבוססות על עובדות, קריאות פשוטות יותר לכלים.
`low`	קוד ומשימות מבוססות-סוכנים שדורשות זמן אחזור נמוך יותר ופחות שלבים. הוא גם מתאים לניתוח ולכתיבה של משימות שדורשות חשיבה.
`medium` (ברירת מחדל)	האיכות הכי טובה לרוב המשימות. מומלץ לשימוש בקוד מורכב ולתרחישי שימוש אקטיביים.
`high`	ממקסמת את היכולת של המודל לחשוב ולהשתמש בכלים. הכי מתאים לחשיבה רציונלית מורכבת, למתמטיקה קשה ולמשימות הקשות ביותר שקשורות לקוד או לסוכנים. מאפשר חשיבה מעמיקה וקריאות לפונקציות.

כדי לשנות את ברירת המחדל, מגדירים את thinking_level בקובץ ההגדרות:

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Prove that the square root of 2 is irrational.",
    generation_config={"thinking_level": "high"},
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

async function main() {
  const interaction = await client.interactions.create({
    model: "gemini-3.5-flash",
    input: "Prove that the square root of 2 is irrational.",
    generationConfig: { thinkingLevel: "high" },
  });
  console.log(interaction.output_text);
}

main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Prove that the square root of 2 is irrational.",
    "generation_config": {"thinking_level": "high"}
  }'

שימור מחשבות

המודל שומר על חשיבה רציונלית ביניים בשיחות מרובות תפניות באופן אוטומטי. אם ההקשר של החשיבה הרציונלית מופיע בהיסטוריית השיחות, הוא נשמר וממשיך הלאה, וכך משפר את הביצועים במשימות מורכבות שכוללות כמה שלבים, כמו ניפוי באגים איטרטיבי וארגון הקוד מחדש. אין צורך לבצע שינויים ב-API:

‫Interactions API: המחשבות כבר נשמרות אוטומטית. אין שינוי בהתנהגות.
‫GenerateContent API: החל מ-Gemini 3.5 Flash, המודל משתמש בהקשר של חשיבה רציונלית מכל התורות הקודמות, אם חתימות של מחשבות מופיעות בהיסטוריית השיחות. כדי להפעיל את האפשרות הזו, צריך להעביר את היסטוריית השיחות המלאה והלא משתנה (כולל חתימות המחשבה) ב-contents. ה-SDKs מטפלים בזה באופן אוטומטי.

עדכוני פרמטרים ושיטות מומלצות ב-Gemini 3.x

ההגבלות הבאות חלות על כל המודלים של Gemini 3.x, כולל Gemini 3.5 Flash.

‫temperature, top_p, top_k: מומלץ מאוד לא לשנות את ערכי ברירת המחדל. יכולות ההסקה של Gemini 3 מותאמות להגדרות ברירת המחדל.
במקום זאת, צריך להשתמש ב-thinking_level.thinking_budget
התאמה של תגובות לקריאות לפונקציות: הערכים id, name ומספר התגובות צריכים להיות זהים לקריאות הקודמות.
תשובות פונקציה מולטי-מודאליות: כוללות תוכן מולטי-מודאלי בתוך תשובת הפונקציה, ולא מחוצה לה.
הוראות בגוף התשובות של הפונקציות: יש להוסיף אותן לטקסט של תשובת הפונקציה, ולא כחלקים נפרדים.
הפחתת קריאות מיותרות לכלים: כדי להפחית את מספר הקריאות לכלים בתהליכי עבודה מבוססי-סוכנים, אפשר להשתמש ברמות חשיבה נמוכות יותר או להתנסות בהוראות מערכת.

בקטעים הבאים מוסבר איך לעדכן את הקוד.

פרמטרים של דגימה (לא מומלץ יותר)

לא מומלץ יותר להשתמש ב-temperature, top_p ו-top_k בכל המודלים של Gemini 3.x. יכולות ההסקה של Gemini 3 מותאמות להגדרות ברירת המחדל. הסרת הפרמטרים האלה מכל הבקשות

# ⚠️ Remove these parameters (not recommended)
generation_config = {
    "temperature": 0.7,
    "top_p": 0.9,
    "top_k": 40,
}

כדי להבטיח דטרמיניזם, מומלץ להגדיר הוראה למערכת עם כללים מפורשים לתרחיש השימוש הספציפי שלכם.

‫`thinking_budget` (לא מומלץ יותר)

לא מומלץ יותר להשתמש בפרמטר המספרי הגולמי thinking_budget בכל המודלים של Gemini 3.x. במקום זאת, צריך להשתמש ב-enum של מחרוזת thinking_level.

# ⚠️ Before (not recommended)
generation_config = {
    "thinking": {"thinking_budget": 7500},
}

# ✅ After
generation_config = {
    "thinking": {"thinking_level": "medium"},
}

הערכים האפשריים: minimal,‏ low,‏ medium (ברירת מחדל) ו-high.

בקשה להפעלת פונקציה: התאמה מדויקת של תשובות

ממשק ה-API של האינטראקציות כבר מחזיר שגיאה אם יש אי התאמה בתגובות לפונקציות. ה-API של GenerateContent עדיין לא מחזיר שגיאה, אבל תגובות לא תואמות גורמות למודל להחזיר תגובות ריקות עם finish_reason: STOP ברוב המקרים. חשוב להקפיד על המוסכמות הבאות:

דרישה	פרטים
`id` כלול	כל `FunctionResponse` חייב לכלול את `id` מה-`FunctionCall` המתאים
משחק `name`	הערך של `name` בתגובה צריך להיות זהה לערך של `name` בשיחה
ספירת התאמות	מחזירה בדיוק `FunctionResponse` אחד לכל `FunctionCall` שהתקבל

Python

# ✅ Include matching call_id and name in the function_result
final_interaction = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction.id,
    tools=[my_tool],
    input=[{
        "type": "function_result",
        "name": fc_step.name,
        "call_id": fc_step.id,
        "result": [{"type": "text", "text": json.dumps(result)}],
    }],
)

JavaScript

// ✅ Include matching call_id and name in the function_result
const finalInteraction = await client.interactions.create({
  model: "gemini-3.5-flash",
  previousInteractionId: interaction.id,
  tools: [myTool],
  input: [{
    type: "function_result",
    name: fcStep.name,
    call_id: fcStep.id,
    result: [{ type: "text", text: JSON.stringify(result) }],
  }],
});

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "previous_interaction_id": "<INTERACTION_ID>",
    "tools": [...],
    "input": [{
      "type": "function_result",
      "name": "my_function",
      "call_id": "<CALL_ID>",
      "result": [{"type": "text", "text": "..."}]
    }]
  }'

תשובות של פונקציות רב-אופניות

לעתים קרובות אנחנו רואים לקוחות שמספקים תמונות מחוץ לתגובה של הפונקציה. הדבר עלול להוביל להתנהגות לא צפויה של המודל (למשל, חשיפת מחשבות) ולתוצאות באיכות נמוכה יותר. במקום זאת, פועלים לפי ההמלצה במסמכי ה-API של תגובות פונקציות מרובות מצבים וכוללים תוכן מרובה מצבים בחלקים של תגובת הפונקציה ששולחים למודל. המודל יכול לעבד את התוכן הרב-מודאלי הזה בתור הבא כדי לספק תשובה מושכלת יותר.

Python

# ✅ Include multimodal content in the function response
final_interaction = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction.id,
    input=[
        {
            "type": "function_result",
            "name": tool_call.name,
            "call_id": tool_call.id,
            "result": [
                {"type": "text", "text": "instrument.jpg"},
                {
                    "type": "image",
                    "mime_type": "image/jpeg",
                    "data": base64_image_data,
                },
            ],
        }
    ],
)

JavaScript

// ✅ Include multimodal content in the function response
const finalInteraction = await client.interactions.create({
  model: "gemini-3.5-flash",
  previousInteractionId: interaction.id,
  input: [{
    type: "function_result",
    name: toolCall.name,
    call_id: toolCall.id,
    result: [
      { type: "text", text: "instrument.jpg" },
      {
        type: "image",
        mime_type: "image/jpeg",
        data: base64ImageData,
      },
    ],
  }],
});

הוראות מוטמעות בתשובות של פונקציות

לעתים קרובות אנחנו רואים לקוחות שמספקים הוראות נוספות יחד עם תגובות לפונקציות כאשר Parts. זה עלול להוביל להתנהגות לא צפויה של המודל (למשל, חשיפת מחשבות) ולפלט באיכות נמוכה יותר. במקום זאת, מוסיפים את ההוראות הנוספות לסוף הטקסט של תשובת הפונקציה, כשהן מופרדות בשתי שורות חדשות.

Python

# ✅ Append inline instructions to the end of the function response separated by two newlines
result_text = f"{json.dumps(result)}\n\n<your inline instructions>"

final_interaction = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction.id,
    tools=[my_tool],
    input=[{
        "type": "function_result",
        "name": fc_step.name,
        "call_id": fc_step.id,
        "result": [{"type": "text", "text": result_text}],
    }],
)

JavaScript

// ✅ Append inline instructions to the end of the function response separated by two newlines
const resultText = `${JSON.stringify(result)}\n\n<your inline instructions>`;

const finalInteraction = await client.interactions.create({
  model: "gemini-3.5-flash",
  previousInteractionId: interaction.id,
  tools: [myTool],
  input: [{
    type: "function_result",
    name: fcStep.name,
    call_id: fcStep.id,
    result: [{ type: "text", text: resultText }],
  }],
});

הפחתת קריאות מיותרות לכלים

אם אתם נתקלים בשימוש מוגזם בקריאות לכלים, יש שתי טכניקות שיעזרו לכם לצמצם את השימוש הזה:

מתחילים בהפחתת רמת החשיבה (medium,‏ low או minimal): רמות חשיבה גבוהות יותר מעודדות את המודל להשתמש ביותר כלים כדי לחקור ולאמת, ולכן הורדת הרמה יכולה להפחית את הקריאות לכלים.
הוספת הוראה למערכת: אם השימוש המוגזם נמשך אחרי שינוי רמת החשיבה, כדאי להוסיף הנחיה שמגבילה את השימוש בכלי. לדוגמה:
```
You have a limited action budget of <n> tool calls. Use them efficiently.
```

רשימת משימות להעברה

מומלץ מאוד לעדכן לגרסה 2.0.0 של google-genai SDK ואילך. בגרסה הזו בוצעו שינויים שעלולים לשבור את התאימות לאחור של Interactions API. פרטים נוספים זמינים במדריך להעברת נתונים (מיגרציה) בנושא שינויים שעלולים לשבור את התאימות.

העברה מגרסת טרום-השקה של Gemini 3 Flash

עדכון שם הדגם: gemini-3-flash-preview ← gemini-3.5-flash
בדיקת התמחור. ‫Gemini 3.5 Flash יקר יותר מ-Gemini 3 Flash Preview. פרטים נוספים מופיעים בדף התמחור.
מסירים את temperature, ‏ top_p, ‏ top_k מההגדרה (לא מומלץ יותר).
מחליפים את thinking_budget ב-thinking_level.
הוספת id ו-name תואמים לכל חלקי FunctionResponse.
בודקים את ההנחיות. מאמץ ברירת המחדל השתנה מ-high ל-medium. צריך לבדוק את האיכות, המהירות והעלות.
התכונה 'שמירת מחשבות' מופעלת עכשיו כברירת מחדל. ההקשר של הנימוקים נשמר בין תורות, מה שמשפר את הביצועים אבל עשוי להגדיל את השימוש בטוקנים.
צמצום הקריאות המיותרות לכלים: מתחילים בצמצום רמת החשיבה (medium,‏ low או minimal); מוסיפים הוראה למערכת כדי להגביל את השימוש בכלים אם השימוש המוגזם נמשך.
בשלב הזה, שימוש במחשב לא אפשרי ב-Gemini 3.5 Flash. לגבי עומסי עבודה של שימוש במחשב, צריך להמשיך להשתמש בגרסת טרום-ההשקה של Gemini 3 Flash.

העברה מ-Gemini 2.5

כל האפשרויות שצוינו למעלה, וגם:

מפשטים את ההנחיות. אם השתמשתם בטכניקת הנחיה של שרשור מחשבות כדי לאלץ את המודל להסיק מסקנות, נסו להשתמש ב-thinking_level: "medium" או ב-"high" עם הנחיות פשוטות יותר.
בדיקת עומסי עבודה של קובצי PDF ומדיה. אם הסתמכתם על התנהגות ספציפית של ניתוח מסמכים צפופים, כדאי לבדוק את ההגדרה media_resolution_high כדי לוודא שהדיוק נשמר. המעבר להגדרות ברירת המחדל של Gemini 3 עשוי גם להגדיל את השימוש בטוקנים בקובצי PDF, אבל להקטין אותו בסרטונים. אם הבקשות חורגות מחלון ההקשר, צריך להקטין את media_resolution באופן מפורש. פרטים נוספים זמינים במאמר בנושא רזולוציית מדיה.
השתמשו בשילוב של כלים. אפשר להשתמש בחיפוש Google, בהקשר של כתובת URL, בהרצת קוד ובפונקציות מותאמות אישית באותה בקשה.
אם משתמשים בתשובות מולטי-מודאליות של פונקציות, צריך להעביר את התוכן המולטי-מודאלי בתוך חלקי התשובה של הפונקציה, ולא לצדם.
אם משתמשים בהוראות מוטבעות עם תשובות לפונקציות, צריך להוסיף אותן לטקסט של התשובה לפונקציה, מופרדות בשתי שורות חדשות, ולא כחלקים נפרדים.
מודל Gemini 3.x לא תומך בפילוח תמונות. למשימות פילוח, אפשר להמשיך להשתמש ב-Gemini 2.5 Flash עם השבתת המצב 'חשיבה', או ב-Gemini Robotics-ER 1.6.

תכונות של Gemini 3 למשפחה

‫Gemini 3.5 Flash כולל את כל היכולות של משפחת Gemini 3, למעט שימוש במחשב. תכונות שהוצגו ב-Gemini 3 ועדיין זמינות:

חשיבה: הקשר של החשיבה הרציונלית מוצפן ונשמר בכל הקריאות ל-API. אוטומטי ב-Interactions API; משתמע ב-GenerateContent.
פלט מובנה באמצעות כלים: אפשר לשלב את מצב JSON עם כלים מובנים (חיפוש, הקשר של כתובת URL, הרצת קוד, קריאה לפונקציה).
תגובות מולטי-מודאליות של פונקציות: החזרת תמונות, אודיו ומדיה אחרת בתוצאות של בקשות להפעלת פונקציות.
הרצת קוד עם תמונות: הרצת קוד שמעבד ומפיק תמונות.
שימוש משולב בכלים: שימוש בכלים מובנים ובקריאות לפונקציות מותאמות אישית באותה בקשה.

השלבים הבאים

מידע נוסף על משפחת Gemini 3 ב מדריך למפתחים של Gemini 3
מידע נוסף על אסטרטגיות לעיצוב הנחיות זמין במדריך להנדסת הנחיות.
איך מתחילים להשתמש ב-Gemini 3 Cookbook
מידע על אופטימיזציה והסקת מסקנות ב-Gemini API

מה חדש ב-Gemini 3.5 Flash

המודל החדש

מדריך למתחילים

Python

JavaScript

REST

מה חדש

שינויים התנהגותיים

רמת המאמץ החדשה שמוגדרת כברירת מחדל: medium

Python

JavaScript

REST

שימור מחשבות

עדכוני פרמטרים ושיטות מומלצות ב-Gemini 3.x

פרמטרים של דגימה (לא מומלץ יותר)

‫thinking_budget (לא מומלץ יותר)

בקשה להפעלת פונקציה: התאמה מדויקת של תשובות

Python

JavaScript

REST

תשובות של פונקציות רב-אופניות

Python

JavaScript

הוראות מוטמעות בתשובות של פונקציות

Python

JavaScript

הפחתת קריאות מיותרות לכלים

רשימת משימות להעברה

העברה מגרסת טרום-השקה של Gemini 3 Flash

העברה מ-Gemini 2.5

תכונות של Gemini 3 למשפחה

השלבים הבאים

רמת המאמץ החדשה שמוגדרת כברירת מחדל: `medium`

‫`thinking_budget` (לא מומלץ יותר)