Gemini 3.5 Flash זמין לכלל המשתמשים (GA), יציב ומוכן לשימוש בהיקף נרחב בסביבת ייצור. הוא המודל הכי חכם שלנו בסדרת Flash, והוא מספק ביצועים ברמה גבוהה באופן עקבי במשימות אג'נטיות, בכתיבת קוד ובמשימות ארוכות טווח, בקנה מידה גדול.
במדריך הזה מופיעה סקירה כללית של השיפורים, השינויים ב-API והנחיות להעברה ל-Gemini 3.5 Flash.
המודל החדש
| מודל | מזהה דגם | תיאור |
|---|---|---|
| Gemini 3.5 Flash | gemini-3.5-flash |
המודל הכי חכם שלנו, שמספק ביצועים מתקדמים באופן עקבי במשימות שקשורות לסוכנים ולקידוד. |
Gemini 3.5 Flash תומך בחלון הקשר של מיליון טוקנים, ב-65,000 טוקנים מקסימליים של פלט, בחשיבה ובאותו סט של כלים ותכונות פלטפורמה כמו Gemini 3 Flash. בשלב הזה, אין תמיכה בשימוש במחשב.
למפרטים מלאים, אפשר לעיין בסקירה הכללית על המודלים. למידע על תמחור, אפשר לעיין בדף התמחור.
מדריך למתחילים
כל הדוגמאות במדריך הזה משתמשות ב-Interactions API. ה-API של GenerateContent נתמך גם הוא, ואותן אפשרויות הגדרה והמלצות חלות עליו.
Python
from google import genai
client = genai.Client()
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Explain how parallel agentic execution works in three sentences."
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const client = new GoogleGenAI({});
async function main() {
const interaction = await client.interactions.create({
model: "gemini-3.5-flash",
input: "Explain how parallel agentic execution works in three sentences.",
});
console.log(interaction.output_text);
}
main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Explain how parallel agentic execution works in three sentences."
}'
מה חדש
- ביצועים מתקדמים לאורך זמן: מודל Flash הכי חכם שלנו, שעבר אופטימיזציה למשימות של סוכנים ולכתיבת קוד בהיקף נרחב.
- ביצוע מבוסס-סוכן: פריסת סוכני משנה, פתרון בעיות ולולאות מהירות מבוססות-סוכן בהיקף נרחב.
- תכנות: מחזורי תכנות איטרטיביים, מחקר מהיר ויצירת אב טיפוס כדי לבדוק נתיבים חלופיים ולחקור פתרונות באופן דינמי.
- טווח ארוך: תהליכי עבודה מרובי-שלבים ושימוש בכלי AI בהיקף נרחב.
- שמירת מחשבות: המודל שומר על שלבי הביניים של הנימוקים באופן אוטומטי לאורך שיחות מרובות. אין צורך לבצע שינויים ב-API.
- רמת המאמץ החדשה שמוגדרת כברירת מחדל: רמת המאמץ של החשיבה שמוגדרת כברירת מחדל השתנתה מ-
highל-medium. פרטים נוספים זמינים במאמר בנושא רמת המאמץ החדשה שמוגדרת כברירת מחדל. - שיפור משמעותי ב
lowחשיבה:lowעכשיו משופר משמעותית עבור קוד ומשימות שדורשות פחות שלבים, ומציע איכות גבוהה עם חביון ועלות נמוכים יותר. - גרסת GA: מודל יציב לשימוש בהפקה בהיקף נרחב.
בחירת המודל הנכון של Flash
Gemini 3.5 Flash הוא מודל ה-Flash הכי חכם ומתקדם שלנו. עם זאת, יכול להיות שלתרחישי שימוש שונים יהיו דרישות שונות לגבי עלות וזמן אחזור.
- Gemini 3.1 Flash-Lite: למשימות בהיקף גדול שלא דורשות את עומק החשיבה הרציונלית המשופרת של 3.5 Flash, מומלץ להשתמש ב-Gemini 3.1 Flash-Lite. זהו מודל יציב לטווח ארוך שעבר אופטימיזציה ליעילות. פרטים נוספים זמינים במדריך למפתחים בנושא Flash-Lite.
- Gemini 3 Flash (גרסת טרום-השקה): אנחנו ממליצים לעבור ל-3.5 Flash כדי ליהנות מיציבות של זמינות כללית ומחשיבה רציונלית משופרת, אבל Gemini 3 Flash (גרסת טרום-השקה) עדיין זמין למפתחים שרוצים להמשיך לבצע בדיקות באמצעות מודל טרום-ההשקה.
שינויים התנהגותיים
רמת המאמץ החדשה שמוגדרת כברירת מחדל: medium
מאמץ החשיבה שמוגדר כברירת מחדל הוא עכשיו medium, במקום high בגרסת טרום-ההשקה של Gemini 3 Flash. medium מניב תוצאות טובות מאוד במגוון רחב של משימות, והוא מהיר ומשתלם יותר. לבעיות מורכבות, high
המודל מעודד את המודל לחשוב לעומק.
| רמת המאמץ | מתי להשתמש? |
|---|---|
minimal |
אופטימיזציה למהירות התגובה. תרחישי שימוש כמו צ'אט, תשובות מהירות שמבוססות על עובדות, קריאות פשוטות יותר לכלים. |
low |
קוד ומשימות מבוססות-סוכן שדורשות זמן אחזור נמוך יותר ופחות שלבים. הוא גם מתאים לניתוח ולכתיבה של משימות שדורשות חשיבה. |
medium (ברירת מחדל) |
האיכות הכי טובה לרוב המשימות. מומלץ לשימוש בקוד מורכב ולתרחישי שימוש אקטיביים. |
high |
ממקסמת את היכולת של המודל לחשוב ולהשתמש בכלים. הכי מתאים לחשיבה רציונלית מורכבת, למתמטיקה קשה ולמשימות הכי מסובכות של קוד או סוכנים. מאפשר חשיבה מעמיקה וקריאות לפונקציות. |
כדי לשנות את ברירת המחדל, מגדירים את thinking_level בקובץ ההגדרות:
Python
from google import genai
client = genai.Client()
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Prove that the square root of 2 is irrational.",
generation_config={"thinking_level": "high"},
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const client = new GoogleGenAI({});
async function main() {
const interaction = await client.interactions.create({
model: "gemini-3.5-flash",
input: "Prove that the square root of 2 is irrational.",
generationConfig: { thinkingLevel: "high" },
});
console.log(interaction.output_text);
}
main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Prove that the square root of 2 is irrational.",
"generation_config": {"thinking_level": "high"}
}'
בטבלה הבאה מוצגות רמות החשיבה שנתמכות בכל מודל:
| רמת ההעמקה | Gemini 3.5 Flash | Gemini 3.1 Pro | Gemini 3.1 Flash-Lite | Gemini 3 Flash | תיאור |
|---|---|---|---|---|---|
minimal |
נתמך | לא נתמך | נתמך (ברירת מחדל) | נתמך | מתאים להגדרה 'ללא חשיבה' ברוב השאילתות. הערה: minimal לא מבטיח שהחשיבה מושבתת, יכול להיות שהמודל יבצע נימוקים מינימליים מאוד למשימות מורכבות. |
low |
נתמך | נתמך | נתמך | נתמך | מצמצם את זמן האחזור ואת העלות. |
medium |
נתמך (ברירת מחדל) | נתמך | נתמך | נתמך | חשיבה מאוזנת לרוב המשימות. |
high |
נתמך (דינמי) | נתמך (ברירת מחדל, דינמי) | נתמך (דינמי) | נתמך (ברירת מחדל, דינמי) | העומק המקסימלי של החשיבה הרציונלית. |
שימור מחשבות
המודל שומר על חשיבה רציונלית ביניים בשיחות מרובות תפניות באופן אוטומטי. אם ההקשר של החשיבה הרציונלית מופיע בהיסטוריית השיחות, הוא נשמר וממשיך, וכך משפר את הביצועים במשימות מורכבות שכוללות כמה שלבים, כמו ניפוי באגים איטרטיבי וארגון הקוד מחדש (Refactoring). אין צורך לבצע שינויים ב-API:
- Interactions API: המחשבות כבר נשמרות אוטומטית. אין שינוי בהתנהגות.
- GenerateContent API: החל מ-Gemini 3.5 Flash, המודל משתמש בהקשר של חשיבה רציונלית מכל התורות הקודמות, אם חתימות של מחשבות מופיעות בהיסטוריית השיחות. כדי להפעיל את האפשרות הזו, צריך להעביר את היסטוריית השיחות המלאה והלא משתנה (כולל חתימות המחשבה) ב-
contents. ה-SDKs מטפלים בזה באופן אוטומטי.
עדכוני פרמטרים ושיטות מומלצות ב-Gemini 3.x
ההגבלות הבאות חלות על כל המודלים של Gemini 3.x, כולל Gemini 3.5 Flash.
-
temperature,top_p,top_k: מומלץ מאוד לא לשנות את ערכי ברירת המחדל. יכולות ההסקה של Gemini 3 מותאמות להגדרות ברירת המחדל. - במקום זאת, צריך להשתמש ב-
thinking_level.thinking_budget - התאמה של תגובות לקריאות לפונקציות: הערכים
id,nameומספר התגובות צריכים להיות זהים לקריאות הקודמות. - תשובות פונקציה מולטי-מודאליות: כוללות תוכן מולטי-מודאלי בתוך תשובת הפונקציה, ולא מחוצה לה.
- הוראות בגוף התשובות של הפונקציות: מצורפות לטקסט של תשובת הפונקציה, ולא כחלקים נפרדים.
- הפחתת קריאות מיותרות לכלים: כדי להפחית את מספר הקריאות לכלים בתהליכי עבודה של סוכנים, אפשר להשתמש ברמות חשיבה נמוכות יותר או להתנסות בהוראות מערכת.
בקטעים הבאים מוסבר איך לעדכן את הקוד.
פרמטרים של דגימה (לא מומלץ יותר)
לא מומלץ יותר להשתמש ב-temperature, top_p ו-top_k בכל המודלים של Gemini 3.x. יכולות ההיגיון של Gemini 3 מותאמות להגדרות ברירת המחדל. הסרת הפרמטרים האלה מכל הבקשות
# ⚠️ Remove these parameters (not recommended)
generation_config = {
"temperature": 0.7,
"top_p": 0.9,
"top_k": 40,
}
כדי להבטיח דטרמיניזם, מומלץ להגדיר הוראה למערכת עם כללים מפורשים לתרחיש השימוש הספציפי שלכם.
thinking_budget (לא מומלץ יותר)
לא מומלץ יותר להשתמש בפרמטר thinking_budget של מספר גולמי בכל המודלים של Gemini 3.x. במקום זאת, צריך להשתמש ב-enum של מחרוזת thinking_level.
# ⚠️ Before (not recommended)
generation_config = {
"thinking": {"thinking_budget": 7500},
}
# ✅ After
generation_config = {
"thinking": {"thinking_level": "medium"},
}
הערכים האפשריים: minimal, low, medium (ברירת מחדל) ו-high.
בקשה להפעלת פונקציה: התאמה מדויקת של תשובות
ממשק ה-API של האינטראקציות כבר מחזיר שגיאה אם יש אי התאמה בתגובות של הפונקציות. ה-API של GenerateContent עדיין לא מחזיר שגיאה, אבל תגובות לא תואמות גורמות למודל להחזיר תגובות ריקות עם finish_reason: STOP ברוב המקרים. חשוב להקפיד על המוסכמות הבאות:
| דרישה | פרטים |
|---|---|
id כלול |
כל FunctionResponse חייב לכלול את id מה-FunctionCall המתאים |
משחק name |
הערך של name בתגובה צריך להיות זהה לערך של name בשיחה |
| ספירת התאמות | מחזירה בדיוק FunctionResponse אחד לכל FunctionCall שהתקבל |
Python
# ✅ Include matching call_id and name in the function_result
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
tools=[my_tool],
input=[{
"type": "function_result",
"name": fc_step.name,
"call_id": fc_step.id,
"result": [{"type": "text", "text": json.dumps(result)}],
}],
)
JavaScript
// ✅ Include matching call_id and name in the function_result
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
tools: [myTool],
input: [{
type: "function_result",
name: fcStep.name,
call_id: fcStep.id,
result: [{ type: "text", text: JSON.stringify(result) }],
}],
});
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"previous_interaction_id": "<INTERACTION_ID>",
"tools": [...],
"input": [{
"type": "function_result",
"name": "my_function",
"call_id": "<CALL_ID>",
"result": [{"type": "text", "text": "..."}]
}]
}'
תשובות של פונקציות רב-אופניות
לעתים קרובות אנחנו רואים לקוחות שמספקים תמונות מחוץ לתגובה של הפונקציה. הדבר עלול להוביל להתנהגות לא צפויה של המודל (למשל, חשיפת מחשבות) ולתוצאות באיכות נמוכה יותר. במקום זאת, פועלים לפי ההמלצה במסמכי ה-API של תשובות לפונקציות מרובות מצבים וכוללים תוכן מרובה מצבים בחלקי התשובה של הפונקציה ששולחים למודל. המודל יכול לעבד את התוכן הרב-מודאלי הזה בתור הבא כדי לספק תשובה מושכלת יותר.
Python
# ✅ Include multimodal content in the function response
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
input=[
{
"type": "function_result",
"name": tool_call.name,
"call_id": tool_call.id,
"result": [
{"type": "text", "text": "instrument.jpg"},
{
"type": "image",
"mime_type": "image/jpeg",
"data": base64_image_data,
},
],
}
],
)
JavaScript
// ✅ Include multimodal content in the function response
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
input: [{
type: "function_result",
name: toolCall.name,
call_id: toolCall.id,
result: [
{ type: "text", text: "instrument.jpg" },
{
type: "image",
mime_type: "image/jpeg",
data: base64ImageData,
},
],
}],
});
הוראות מוטמעות בתשובות של פונקציות
לעתים קרובות אנחנו רואים לקוחות שמספקים הוראות נוספות יחד עם תגובות לפונקציות
כאשר Parts. זה עלול להוביל להתנהגות לא צפויה של המודל (למשל, חשיפת מחשבות) ולפלט באיכות נמוכה יותר. במקום זאת, מוסיפים את ההוראות הנוספות לסוף הטקסט של תגובת הפונקציה, כשהן מופרדות בשתי שורות חדשות.
Python
# ✅ Append inline instructions to the end of the function response separated by two newlines
result_text = f"{json.dumps(result)}\n\n<your inline instructions>"
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
tools=[my_tool],
input=[{
"type": "function_result",
"name": fc_step.name,
"call_id": fc_step.id,
"result": [{"type": "text", "text": result_text}],
}],
)
JavaScript
// ✅ Append inline instructions to the end of the function response separated by two newlines
const resultText = `${JSON.stringify(result)}\n\n<your inline instructions>`;
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
tools: [myTool],
input: [{
type: "function_result",
name: fcStep.name,
call_id: fcStep.id,
result: [{ type: "text", text: resultText }],
}],
});
הפחתת קריאות מיותרות לכלים
אם אתם נתקלים בשימוש מוגזם בקריאות לכלים, יש שתי טכניקות שיעזרו לכם לצמצם את השימוש הזה:
מתחילים בהפחתת רמת החשיבה (
medium,lowאוminimal): רמות חשיבה גבוהות יותר מעודדות את המודל להשתמש ביותר כלים כדי לחקור ולאמת, ולכן הורדת הרמה יכולה להפחית את הקריאות לכלים.הוספת הוראה למערכת: אם השימוש המוגזם נמשך אחרי שינוי רמת החשיבה, כדאי להוסיף הנחיה שמגבילה את השימוש בכלי. לדוגמה:
You have a limited action budget of <n> tool calls. Use them efficiently.
רשימת משימות להעברה
מומלץ מאוד לעדכן לגרסה 2.0.0 של google-genai SDK ואילך. בגרסה הזו בוצעו שינויים שעלולים לשבור את התאימות לאחור של Interactions API. פרטים נוספים זמינים במדריך להעברת נתונים (מיגרציה) בנושא שינויים שעלולים לשבור את התאימות.
העברה מגרסת טרום-השקה של Gemini 3 Flash
- עדכון שם הדגם:
gemini-3-flash-preview←gemini-3.5-flash - בדיקת התמחור. Gemini 3.5 Flash יקר יותר מ-Gemini 3 Flash Preview. אם העלות היא שיקול חשוב בתרחיש השימוש שלכם, כדאי לשקול מעבר ל-Gemini 3.1 Flash-Lite. פרטים נוספים מופיעים בדף התמחור.
- מסירים את
temperature, top_p, top_kמההגדרה (לא מומלץ יותר). - מחליפים את
thinking_budgetב-thinking_level. - הוספת
idו-nameתואמים לכל חלקיFunctionResponse. - בודקים את ההנחיות. מאמץ ברירת המחדל השתנה מ-
highל-medium. צריך לבדוק את האיכות, המהירות והעלות. - התכונה 'שמירת מחשבות' מופעלת עכשיו כברירת מחדל. ההקשר של הנימוקים נשמר בין תורות, מה שמשפר את הביצועים אבל עשוי להגדיל את השימוש בטוקנים.
- צמצום הקריאות המיותרות לכלים: מתחילים בצמצום רמת החשיבה (
medium,lowאוminimal); מוסיפים הוראה למערכת כדי להגביל את השימוש בכלים אם השימוש המוגזם נמשך. - בשלב הזה, שימוש במחשב לא אפשרי ב-Gemini 3.5 Flash. לגבי עומסי עבודה של שימוש במחשב, צריך להמשיך להשתמש בגרסת טרום-ההשקה של Gemini 3 Flash.
העברה מ-Gemini 2.5
כל האפשרויות שצוינו למעלה, וגם:
- מפשטים את ההנחיות. אם השתמשתם בטכניקת הנחיה של שרשור מחשבות כדי לאלץ את המודל להסיק מסקנות, נסו להשתמש ב-
thinking_level: "medium"או ב-"high"עם הנחיות פשוטות יותר. - בדיקת עומסי עבודה של קובצי PDF ומדיה. אם הסתמכתם על התנהגות ספציפית של ניתוח מסמכים צפופים, כדאי לבדוק את ההגדרה
media_resolution_highכדי לוודא שהדיוק נשמר. המעבר להגדרות ברירת המחדל של Gemini 3 עשוי גם להגדיל את השימוש בטוקנים בקובצי PDF, אבל להקטין אותו בסרטונים. אם הבקשות חורגות מחלון ההקשר, צריך להקטין אתmedia_resolutionבאופן מפורש. פרטים נוספים זמינים במאמר בנושא רזולוציית מדיה. - השתמשו בשילוב של כלים. אפשר להשתמש בחיפוש Google, בהקשר של כתובת URL, בהרצת קוד ובפונקציות מותאמות אישית באותה בקשה.
- אם משתמשים בתשובות של פונקציות מולטי-מודאליות, צריך להעביר את התוכן המולטי-מודאלי בתוך חלקי התשובה של הפונקציה, ולא לצדם.
- אם משתמשים בהוראות מוטבעות עם תשובות לפונקציות, צריך להוסיף אותן לטקסט של התשובה לפונקציה, מופרדות בשתי שורות חדשות, ולא כחלקים נפרדים.
- מודל Gemini 3.x לא תומך בפילוח תמונות. למשימות פילוח, אפשר להמשיך להשתמש ב-Gemini 2.5 Flash עם השבתת המצב 'חשיבה', או ב-Gemini Robotics-ER 1.6.
תכונות של Gemini 3 למשפחה
Gemini 3.5 Flash כולל את כל היכולות של משפחת Gemini 3, למעט שימוש במחשב. תכונות שהוצגו ב-Gemini 3 וזמינות גם בגרסה הנוכחית:
- חשיבה: הקשר של החשיבה הרציונלית מוצפן ונשמר בכל הקריאות ל-API. אוטומטי ב-Interactions API; משתמע ב-GenerateContent.
- פלט מובנה באמצעות כלים: אפשר לשלב את מצב JSON עם כלים מובנים (חיפוש, הקשר של כתובת URL, הרצת קוד, קריאה לפונקציה).
- תגובות מולטי-מודאליות של פונקציות: החזרת תמונות, אודיו ומדיה אחרת בתוצאות של בקשות להפעלת פונקציות.
- הרצת קוד עם תמונות: הרצת קוד שמעבד ומפיק תמונות.
- שימוש משולב בכלים: שימוש בכלים מובנים ובקריאות לפונקציות מותאמות אישית באותה בקשה.
- רזולוציית מדיה:
שליטה מדויקת בהקצאת טוקנים לקלט של תמונות, סרטונים וקובצי PDF.
מודלים של Gemini 3 תומכים בהגדרות רזולוציה לכל פריט תוכן (
low,medium, high, ultra_high) להנחיות עם רמות דיוק שונות. - חתימות של מחשבות: ייצוגים מוצפנים של ההיגיון הפנימי של המודל. נדרש לשימוש בפונקציות מרובות תורות במצב חסר מצב (stateless). מנוהל באופן אוטומטי על ידי Interactions API וערכות ה-SDK הרשמיות.
שיטות מומלצות לכתיבת הנחיות
מודלים של Gemini 3.x הם מודלים של חשיבה רציונלית, ולכן צריך לשנות את ההנחיות שנותנים להם.
- הוראות מדויקות: הקפידו על תמציתיות. התשובות של Gemini 3.x הכי טובות כשנותנים לו הוראות ישירות וברורות. טכניקות מורכבות או מפורטות של ניסוח הנחיות שנועדו למודלים ישנים יותר עלולות לגרום למודל לבצע ניתוח יתר.
- פירוט הפלט: כברירת מחדל, Gemini 3 ו-3.1 פחות מפורטים ומעדיפים תשובות ישירות ויעילות. אם התרחיש לדוגמה שלכם מחייב טון שיחה, צריך להנחות את המודל במפורש בהנחיה (לדוגמה, "תסביר את זה כאילו אתה עוזר ידידותי ופטפטן").
- ניהול הקשר: כשעובדים עם מערכי נתונים גדולים (כמו ספרים שלמים, בסיסי קוד או סרטונים ארוכים), כדאי למקם את ההוראות או השאלות הספציפיות בסוף ההנחיה, אחרי הקשר של הנתונים. כדי לעגן את החשיבה הרציונלית של המודל, מתחילים את השאלה בניסוח כמו "בהתבסס על המידע שלמעלה...".
מידע נוסף על אסטרטגיות לעיצוב הנחיות זמין במדריך להנדסת הנחיות.
מגבלות
- מודל Gemini 3.x לא תומך בפילוח תמונות. למשימות פילוח, אפשר להמשיך להשתמש ב-Gemini 2.5 Flash עם השבתת המצב 'חשיבה', או ב-Gemini Robotics-ER 1.6.
שאלות נפוצות
מהו תאריך סף הידע של Gemini 3.5 Flash? ל-Gemini 3.5 Flash יש תאריך סף ידע של ינואר 2025. כדי לקבל מידע עדכני יותר, אפשר להשתמש בכלי הארקה של חיפוש.
מהן המגבלות של חלון ההקשר? Gemini 3.5 Flash תומך בחלון הקשר של מיליון טוקנים ובפלט של עד 65,000 טוקנים.
האם הקוד הישן שלי של
thinking_budgetעדיין יעבוד? כן, עדיין יש תמיכה ב-thinking_budgetלצורך תאימות לאחור, אבל מומלץ לעבור ל-thinking_levelכדי לקבל ביצועים צפויים יותר. אל תשתמשו בשניהם באותה בקשה.האם Gemini 3.5 Flash תומך ב-Batch API? כן. פרטים נוספים זמינים במדריך בנושא Batch API.
האם יש תמיכה בשמירת נתונים במטמון לפי הקשר? כן, יש תמיכה בשמירת מטמון של הקשר.
אילו כלים נתמכים? Gemini 3.5 Flash תומך בחיפוש Google, בהצגת מידע מבוסס-מיקום באמצעות מפות Google, בחיפוש קבצים, בהרצת קוד, בהקשר של כתובת URL ובקריאה לפונקציות רגילה, כולל שימוש משולב בכלים. Computer Use לא נתמך ב-Gemini 3.5 Flash.
השלבים הבאים
- מידע נוסף על אסטרטגיות לעיצוב הנחיות זמין במדריך להנדסת הנחיות.
- איך מתחילים להשתמש ב-Gemini 3 Cookbook
- מידע על אופטימיזציה והסקת מסקנות ב-Gemini API