מה חדש ב-Gemini 3.5 Flash
Gemini 3.5 Flash זמין לכלל המשתמשים (GA), יציב ומוכן לשימוש בהיקף גדול בסביבת ייצור. הוא המודל הכי חכם שלנו בסדרת Flash, והוא מספק ביצועים ברמה גבוהה באופן עקבי במשימות אג'נטיות, בכתיבת קוד ובמשימות ארוכות טווח, בקנה מידה גדול.
במדריך הזה מופיעה סקירה כללית של השיפורים, השינויים ב-API והנחיות להעברה ל-Gemini 3.5 Flash.
המודל החדש
| מודל | מזהה דגם | תיאור |
|---|---|---|
| Gemini 3.5 Flash | gemini-3.5-flash |
המודל הכי חכם שלנו, שמספק ביצועים מתקדמים באופן עקבי במשימות של סוכנים וקידוד. |
Gemini 3.5 Flash תומך בחלון הקשר של מיליון טוקנים, ב-65,000 טוקנים מקסימליים של פלט, ביכולת חשיבה ובאותו סט של כלים ותכונות פלטפורמה כמו Gemini 3 Flash. בשלב הזה, אין תמיכה בשימוש במחשב.
למפרטים מלאים, אפשר לעיין בסקירה הכללית על המודלים. למידע על תמחור, אפשר לעיין בדף התמחור.
מדריך למתחילים
כל הדוגמאות במדריך הזה משתמשות ב-Interactions API. ה-API של GenerateContent נתמך גם הוא, ואותן אפשרויות הגדרה והמלצות חלות עליו.
Python
from google import genai
client = genai.Client()
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Explain how parallel agentic execution works in three sentences."
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const client = new GoogleGenAI({});
async function main() {
const interaction = await client.interactions.create({
model: "gemini-3.5-flash",
input: "Explain how parallel agentic execution works in three sentences.",
});
console.log(interaction.output_text);
}
main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Explain how parallel agentic execution works in three sentences."
}'
מה חדש
- ביצועים מתקדמים וקבועים: מודל Flash הכי חכם שלנו, שעבר אופטימיזציה למשימות של סוכנים ולכתיבת קוד בהיקף נרחב.
- ביצוע מבוסס-סוכן: פריסת סוכני משנה, פתרון בעיות ולולאות מהירות מבוססות-סוכן בהיקף נרחב.
- תכנות: מחזורי תכנות איטרטיביים, מחקר מהיר ויצירת אב טיפוס כדי לבדוק נתיבים חלופיים ולחקור פתרונות באופן דינמי.
- טווח ארוך: תהליכי עבודה מרובי-שלבים ושימוש בכלי AI בהיקף נרחב.
- שמירת מחשבות: המודל שומר על שלבי הביניים של הנימוקים באופן אוטומטי לאורך שיחות מרובות. אין צורך לבצע שינויים ב-API.
- רמת המאמץ החדשה שמוגדרת כברירת מחדל: רמת המאמץ של החשיבה שמוגדרת כברירת מחדל השתנתה מ-
highל-medium. פרטים נוספים זמינים במאמר בנושא רמת המאמץ החדשה שמוגדרת כברירת מחדל. - שיפור משמעותי ב
lowחשיבה:lowעכשיו משופר משמעותית עבור קוד ומשימות שדורשות פחות שלבים, ומציע איכות גבוהה עם חביון ועלות נמוכים יותר. - גרסת GA: מודל יציב לשימוש בהפקה בהיקף נרחב.
שינויים התנהגותיים
רמת המאמץ החדשה שמוגדרת כברירת מחדל: medium
מאמץ החשיבה שמוגדר כברירת מחדל הוא עכשיו medium, במקום high בגרסת טרום-ההשקה של Gemini 3 Flash. medium מניב תוצאות טובות מאוד במגוון רחב של משימות, וגם מהיר יותר ומשתלם יותר. לבעיות מורכבות, high
המודל מעודד את המודל לחשוב לעומק.
| רמת המאמץ | מתי להשתמש? |
|---|---|
minimal |
אופטימיזציה למהירות התגובה. תרחישי שימוש כמו צ'אט, תשובות מהירות שמבוססות על עובדות, קריאות פשוטות יותר לכלים. |
low |
קוד ומשימות מבוססות-סוכנים שדורשות זמן אחזור נמוך יותר ופחות שלבים. הוא גם מתאים לניתוח ולכתיבה של משימות שדורשות חשיבה. |
medium (ברירת מחדל) |
האיכות הכי טובה לרוב המשימות. מומלץ לשימוש בקוד מורכב ולתרחישי שימוש אקטיביים. |
high |
ממקסמת את היכולת של המודל לחשוב ולהשתמש בכלים. הכי מתאים לחשיבה רציונלית מורכבת, למתמטיקה קשה ולמשימות הקשות ביותר שקשורות לקוד או לסוכנים. מאפשר חשיבה מעמיקה וקריאות לפונקציות. |
כדי לשנות את ברירת המחדל, מגדירים את thinking_level בקובץ ההגדרות:
Python
from google import genai
client = genai.Client()
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Prove that the square root of 2 is irrational.",
generation_config={"thinking_level": "high"},
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const client = new GoogleGenAI({});
async function main() {
const interaction = await client.interactions.create({
model: "gemini-3.5-flash",
input: "Prove that the square root of 2 is irrational.",
generationConfig: { thinkingLevel: "high" },
});
console.log(interaction.output_text);
}
main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Prove that the square root of 2 is irrational.",
"generation_config": {"thinking_level": "high"}
}'
שימור מחשבות
המודל שומר על חשיבה רציונלית ביניים בשיחות מרובות תפניות באופן אוטומטי. אם ההקשר של החשיבה הרציונלית מופיע בהיסטוריית השיחות, הוא נשמר וממשיך הלאה, וכך משפר את הביצועים במשימות מורכבות שכוללות כמה שלבים, כמו ניפוי באגים איטרטיבי וארגון הקוד מחדש. אין צורך לבצע שינויים ב-API:
- Interactions API: המחשבות כבר נשמרות אוטומטית. אין שינוי בהתנהגות.
- GenerateContent API: החל מ-Gemini 3.5 Flash, המודל משתמש בהקשר של חשיבה רציונלית מכל התורות הקודמות, אם חתימות של מחשבות מופיעות בהיסטוריית השיחות. כדי להפעיל את האפשרות הזו, צריך להעביר את היסטוריית השיחות המלאה והלא משתנה (כולל חתימות המחשבה) ב-
contents. ה-SDKs מטפלים בזה באופן אוטומטי.
עדכוני פרמטרים ושיטות מומלצות ב-Gemini 3.x
ההגבלות הבאות חלות על כל המודלים של Gemini 3.x, כולל Gemini 3.5 Flash.
-
temperature,top_p,top_k: מומלץ מאוד לא לשנות את ערכי ברירת המחדל. יכולות ההסקה של Gemini 3 מותאמות להגדרות ברירת המחדל. - במקום זאת, צריך להשתמש ב-
thinking_level.thinking_budget - התאמה של תגובות לקריאות לפונקציות: הערכים
id,nameומספר התגובות צריכים להיות זהים לקריאות הקודמות. - תשובות פונקציה מולטי-מודאליות: כוללות תוכן מולטי-מודאלי בתוך תשובת הפונקציה, ולא מחוצה לה.
- הוראות בגוף התשובות של הפונקציות: יש להוסיף אותן לטקסט של תשובת הפונקציה, ולא כחלקים נפרדים.
- הפחתת קריאות מיותרות לכלים: כדי להפחית את מספר הקריאות לכלים בתהליכי עבודה מבוססי-סוכנים, אפשר להשתמש ברמות חשיבה נמוכות יותר או להתנסות בהוראות מערכת.
בקטעים הבאים מוסבר איך לעדכן את הקוד.
פרמטרים של דגימה (לא מומלץ יותר)
לא מומלץ יותר להשתמש ב-temperature, top_p ו-top_k בכל המודלים של Gemini 3.x. יכולות ההסקה של Gemini 3 מותאמות להגדרות ברירת המחדל. הסרת הפרמטרים האלה מכל הבקשות
# ⚠️ Remove these parameters (not recommended)
generation_config = {
"temperature": 0.7,
"top_p": 0.9,
"top_k": 40,
}
כדי להבטיח דטרמיניזם, מומלץ להגדיר הוראה למערכת עם כללים מפורשים לתרחיש השימוש הספציפי שלכם.
thinking_budget (לא מומלץ יותר)
לא מומלץ יותר להשתמש בפרמטר המספרי הגולמי thinking_budget בכל המודלים של Gemini 3.x. במקום זאת, צריך להשתמש ב-enum של מחרוזת thinking_level.
# ⚠️ Before (not recommended)
generation_config = {
"thinking": {"thinking_budget": 7500},
}
# ✅ After
generation_config = {
"thinking": {"thinking_level": "medium"},
}
הערכים האפשריים: minimal, low, medium (ברירת מחדל) ו-high.
בקשה להפעלת פונקציה: התאמה מדויקת של תשובות
ממשק ה-API של האינטראקציות כבר מחזיר שגיאה אם יש אי התאמה בתגובות לפונקציות. ה-API של GenerateContent עדיין לא מחזיר שגיאה, אבל תגובות לא תואמות גורמות למודל להחזיר תגובות ריקות עם finish_reason: STOP ברוב המקרים. חשוב להקפיד על המוסכמות הבאות:
| דרישה | פרטים |
|---|---|
id כלול |
כל FunctionResponse חייב לכלול את id מה-FunctionCall המתאים |
משחק name |
הערך של name בתגובה צריך להיות זהה לערך של name בשיחה |
| ספירת התאמות | מחזירה בדיוק FunctionResponse אחד לכל FunctionCall שהתקבל |
Python
# ✅ Include matching call_id and name in the function_result
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
tools=[my_tool],
input=[{
"type": "function_result",
"name": fc_step.name,
"call_id": fc_step.id,
"result": [{"type": "text", "text": json.dumps(result)}],
}],
)
JavaScript
// ✅ Include matching call_id and name in the function_result
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
tools: [myTool],
input: [{
type: "function_result",
name: fcStep.name,
call_id: fcStep.id,
result: [{ type: "text", text: JSON.stringify(result) }],
}],
});
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"previous_interaction_id": "<INTERACTION_ID>",
"tools": [...],
"input": [{
"type": "function_result",
"name": "my_function",
"call_id": "<CALL_ID>",
"result": [{"type": "text", "text": "..."}]
}]
}'
תשובות של פונקציות רב-אופניות
לעתים קרובות אנחנו רואים לקוחות שמספקים תמונות מחוץ לתגובה של הפונקציה. הדבר עלול להוביל להתנהגות לא צפויה של המודל (למשל, חשיפת מחשבות) ולתוצאות באיכות נמוכה יותר. במקום זאת, פועלים לפי ההמלצה במסמכי ה-API של תגובות פונקציות מרובות מצבים וכוללים תוכן מרובה מצבים בחלקים של תגובת הפונקציה ששולחים למודל. המודל יכול לעבד את התוכן הרב-מודאלי הזה בתור הבא כדי לספק תשובה מושכלת יותר.
Python
# ✅ Include multimodal content in the function response
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
input=[
{
"type": "function_result",
"name": tool_call.name,
"call_id": tool_call.id,
"result": [
{"type": "text", "text": "instrument.jpg"},
{
"type": "image",
"mime_type": "image/jpeg",
"data": base64_image_data,
},
],
}
],
)
JavaScript
// ✅ Include multimodal content in the function response
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
input: [{
type: "function_result",
name: toolCall.name,
call_id: toolCall.id,
result: [
{ type: "text", text: "instrument.jpg" },
{
type: "image",
mime_type: "image/jpeg",
data: base64ImageData,
},
],
}],
});
הוראות מוטמעות בתשובות של פונקציות
לעתים קרובות אנחנו רואים לקוחות שמספקים הוראות נוספות יחד עם תגובות לפונקציות
כאשר Parts. זה עלול להוביל להתנהגות לא צפויה של המודל (למשל, חשיפת מחשבות) ולפלט באיכות נמוכה יותר. במקום זאת, מוסיפים את ההוראות הנוספות לסוף הטקסט של תשובת הפונקציה, כשהן מופרדות בשתי שורות חדשות.
Python
# ✅ Append inline instructions to the end of the function response separated by two newlines
result_text = f"{json.dumps(result)}\n\n<your inline instructions>"
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
tools=[my_tool],
input=[{
"type": "function_result",
"name": fc_step.name,
"call_id": fc_step.id,
"result": [{"type": "text", "text": result_text}],
}],
)
JavaScript
// ✅ Append inline instructions to the end of the function response separated by two newlines
const resultText = `${JSON.stringify(result)}\n\n<your inline instructions>`;
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
tools: [myTool],
input: [{
type: "function_result",
name: fcStep.name,
call_id: fcStep.id,
result: [{ type: "text", text: resultText }],
}],
});
הפחתת קריאות מיותרות לכלים
אם אתם נתקלים בשימוש מוגזם בקריאות לכלים, יש שתי טכניקות שיעזרו לכם לצמצם את השימוש הזה:
מתחילים בהפחתת רמת החשיבה (
medium,lowאוminimal): רמות חשיבה גבוהות יותר מעודדות את המודל להשתמש ביותר כלים כדי לחקור ולאמת, ולכן הורדת הרמה יכולה להפחית את הקריאות לכלים.הוספת הוראה למערכת: אם השימוש המוגזם נמשך אחרי שינוי רמת החשיבה, כדאי להוסיף הנחיה שמגבילה את השימוש בכלי. לדוגמה:
You have a limited action budget of <n> tool calls. Use them efficiently.
רשימת משימות להעברה
מומלץ מאוד לעדכן לגרסה 2.0.0 של google-genai SDK ואילך. בגרסה הזו בוצעו שינויים שעלולים לשבור את התאימות לאחור של Interactions API. פרטים נוספים זמינים במדריך להעברת נתונים (מיגרציה) בנושא שינויים שעלולים לשבור את התאימות.
העברה מגרסת טרום-השקה של Gemini 3 Flash
- עדכון שם הדגם:
gemini-3-flash-preview←gemini-3.5-flash - בדיקת התמחור. Gemini 3.5 Flash יקר יותר מ-Gemini 3 Flash Preview. פרטים נוספים מופיעים בדף התמחור.
- מסירים את
temperature, top_p, top_kמההגדרה (לא מומלץ יותר). - מחליפים את
thinking_budgetב-thinking_level. - הוספת
idו-nameתואמים לכל חלקיFunctionResponse. - בודקים את ההנחיות. מאמץ ברירת המחדל השתנה מ-
highל-medium. צריך לבדוק את האיכות, המהירות והעלות. - התכונה 'שמירת מחשבות' מופעלת עכשיו כברירת מחדל. ההקשר של הנימוקים נשמר בין תורות, מה שמשפר את הביצועים אבל עשוי להגדיל את השימוש בטוקנים.
- צמצום הקריאות המיותרות לכלים: מתחילים בצמצום רמת החשיבה (
medium,lowאוminimal); מוסיפים הוראה למערכת כדי להגביל את השימוש בכלים אם השימוש המוגזם נמשך. - בשלב הזה, שימוש במחשב לא אפשרי ב-Gemini 3.5 Flash. לגבי עומסי עבודה של שימוש במחשב, צריך להמשיך להשתמש בגרסת טרום-ההשקה של Gemini 3 Flash.
העברה מ-Gemini 2.5
כל האפשרויות שצוינו למעלה, וגם:
- מפשטים את ההנחיות. אם השתמשתם בטכניקת הנחיה של שרשור מחשבות כדי לאלץ את המודל להסיק מסקנות, נסו להשתמש ב-
thinking_level: "medium"או ב-"high"עם הנחיות פשוטות יותר. - בדיקת עומסי עבודה של קובצי PDF ומדיה. אם הסתמכתם על התנהגות ספציפית של ניתוח מסמכים צפופים, כדאי לבדוק את ההגדרה
media_resolution_highכדי לוודא שהדיוק נשמר. המעבר להגדרות ברירת המחדל של Gemini 3 עשוי גם להגדיל את השימוש בטוקנים בקובצי PDF, אבל להקטין אותו בסרטונים. אם הבקשות חורגות מחלון ההקשר, צריך להקטין אתmedia_resolutionבאופן מפורש. פרטים נוספים זמינים במאמר בנושא רזולוציית מדיה. - השתמשו בשילוב של כלים. אפשר להשתמש בחיפוש Google, בהקשר של כתובת URL, בהרצת קוד ובפונקציות מותאמות אישית באותה בקשה.
- אם משתמשים בתשובות מולטי-מודאליות של פונקציות, צריך להעביר את התוכן המולטי-מודאלי בתוך חלקי התשובה של הפונקציה, ולא לצדם.
- אם משתמשים בהוראות מוטבעות עם תשובות לפונקציות, צריך להוסיף אותן לטקסט של התשובה לפונקציה, מופרדות בשתי שורות חדשות, ולא כחלקים נפרדים.
- מודל Gemini 3.x לא תומך בפילוח תמונות. למשימות פילוח, אפשר להמשיך להשתמש ב-Gemini 2.5 Flash עם השבתת המצב 'חשיבה', או ב-Gemini Robotics-ER 1.6.
תכונות של Gemini 3 למשפחה
Gemini 3.5 Flash כולל את כל היכולות של משפחת Gemini 3, למעט שימוש במחשב. תכונות שהוצגו ב-Gemini 3 ועדיין זמינות:
- חשיבה: הקשר של החשיבה הרציונלית מוצפן ונשמר בכל הקריאות ל-API. אוטומטי ב-Interactions API; משתמע ב-GenerateContent.
- פלט מובנה באמצעות כלים: אפשר לשלב את מצב JSON עם כלים מובנים (חיפוש, הקשר של כתובת URL, הרצת קוד, קריאה לפונקציה).
- תגובות מולטי-מודאליות של פונקציות: החזרת תמונות, אודיו ומדיה אחרת בתוצאות של בקשות להפעלת פונקציות.
- הרצת קוד עם תמונות: הרצת קוד שמעבד ומפיק תמונות.
- שימוש משולב בכלים: שימוש בכלים מובנים ובקריאות לפונקציות מותאמות אישית באותה בקשה.
השלבים הבאים
- מידע נוסף על משפחת Gemini 3 ב מדריך למפתחים של Gemini 3
- מידע נוסף על אסטרטגיות לעיצוב הנחיות זמין במדריך להנדסת הנחיות.
- איך מתחילים להשתמש ב-Gemini 3 Cookbook
- מידע על אופטימיזציה והסקת מסקנות ב-Gemini API