Nouveautés de Gemini 3.5 Flash
Gemini 3.5 Flash est disponible pour tous les utilisateurs, stable et prêt à être utilisé en production à grande échelle. En tant que modèle Flash le plus intelligent, il offre des performances de pointe durables dans l'exécution agentique, le codage et les tâches à long terme à grande échelle.
Ce guide présente un aperçu des améliorations, des modifications apportées à l'API et des conseils de migration pour Gemini 3.5 Flash.
Nouveau modèle
| Modèle | ID du modèle | Description |
|---|---|---|
| Gemini 3.5 Flash | gemini-3.5-flash |
Notre modèle le plus intelligent pour des performances de pointe durables dans les tâches agentiques et de codage. |
Gemini 3.5 Flash est compatible avec la fenêtre de contexte d'un million de jetons, 65 000 jetons de sortie maximum, le raisonnement et le même ensemble d'outils et de fonctionnalités de plate-forme que Gemini 3 Flash. L'utilisation de l'ordinateur n'est pas prise en charge pour le moment.
Pour obtenir les spécifications complètes, consultez la présentation des modèles. Pour connaître les tarifs, consultez la page des tarifs.
Guide de démarrage rapide
Tous les exemples de ce guide utilisent l'API Interactions. L'API GenerateContent est également compatible. Les mêmes options de configuration et recommandations s'appliquent.
Python
from google import genai
client = genai.Client()
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Explain how parallel agentic execution works in three sentences."
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const client = new GoogleGenAI({});
async function main() {
const interaction = await client.interactions.create({
model: "gemini-3.5-flash",
input: "Explain how parallel agentic execution works in three sentences.",
});
console.log(interaction.output_text);
}
main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Explain how parallel agentic execution works in three sentences."
}'
Nouveautés
- Performances de pointe durables : notre modèle Flash le plus intelligent, optimisé pour les tâches agentiques et de codage à grande échelle.
- Exécution agentique : déploiement de sous-agents, résolution de problèmes et boucles agentiques rapides à grande échelle.
- Codage : cycles de codage itératifs, exploration rapide et prototypage pour tester d'autres chemins et explorer dynamiquement des solutions.
- Long terme : workflows multi-étapes et utilisation d'outils à grande échelle.
- Préservation de la pensée : le modèle conserve automatiquement le raisonnement intermédiaire dans les conversations multitours. Aucune modification de l'API n'est nécessaire.
- Nouveau niveau d'effort par défaut : l'effort de réflexion par défaut est passé de
highàmedium. Pour en savoir plus, consultez Nouveau niveau d'effort par défaut. - Amélioration de la réflexion
low:lowest désormais considérablement amélioré pour le code et les tâches agentiques qui nécessitent moins d’étapes, offrant une qualité élevée à une latence et un coût inférieurs. - Version disponible pour tous les utilisateurs : modèle stable pour une utilisation en production à grande échelle.
Changements de comportement
Nouveau niveau d'effort par défaut : medium
L'effort de réflexion par défaut est désormais medium, au lieu de high dans Gemini 3
Flash Preview. medium donne de très bons résultats pour un large éventail de tâches tout en étant plus rapide et plus rentable. Pour les problèmes complexes, high encourage le modèle à réfléchir plus en profondeur.
| Niveau d'effort | Quand les utiliser ? |
|---|---|
minimal |
Optimisé pour la vitesse de réponse. Cas d'utilisation de type chat, réponses factuelles rapides, appels d'outils plus simples. |
low |
Tâches de codage et agentiques qui nécessitent une latence plus faible et moins d'étapes. Fonctionne également bien pour les tâches d'analyse et d'écriture qui nécessitent une certaine réflexion. |
medium (par défaut) |
Meilleure qualité pour la plupart des tâches. Recommandé pour les cas d'utilisation complexes de codage et agentiques. |
high |
Maximise la capacité du modèle à réfléchir et à utiliser des outils. Idéal pour le raisonnement complexe, les mathématiques difficiles et les tâches de codage ou agentiques les plus difficiles. Permet des réflexions et des appels de fonction étendus. |
Pour remplacer la valeur par défaut, définissez thinking_level dans votre configuration :
Python
from google import genai
client = genai.Client()
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Prove that the square root of 2 is irrational.",
generation_config={"thinking_level": "high"},
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const client = new GoogleGenAI({});
async function main() {
const interaction = await client.interactions.create({
model: "gemini-3.5-flash",
input: "Prove that the square root of 2 is irrational.",
generationConfig: { thinkingLevel: "high" },
});
console.log(interaction.output_text);
}
main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Prove that the square root of 2 is irrational.",
"generation_config": {"thinking_level": "high"}
}'
Préservation de la pensée
Le modèle conserve automatiquement le raisonnement intermédiaire dans les conversations multitours. Lorsqu'il est présent dans l'historique des conversations, le contexte de raisonnement est conservé, ce qui améliore les performances pour les tâches complexes en plusieurs étapes, telles que le débogage itératif et la refactorisation du code. Aucune modification de l'API n'est nécessaire :
- API Interactions : les réflexions sont déjà conservées automatiquement. Aucun changement de comportement.
- API GenerateContent : à partir de Gemini 3.5 Flash, le modèle utilise
le contexte de raisonnement de tous les tours précédents lorsque des signatures de pensée sont
présentes dans l'historique des conversations. Pour activer cette fonctionnalité, transmettez l'historique complet et
non modifié des conversations (y compris les
signatures de pensée) dans
contents. Les SDK gèrent cela automatiquement.
Mises à jour des paramètres et bonnes pratiques dans Gemini 3.x
Les éléments suivants s'appliquent à tous les modèles Gemini 3.x, y compris Gemini 3.5 Flash.
temperature,top_p,top_k: nous vous recommandons vivement de ne pas modifier les valeurs par défaut. Les capacités de raisonnement de Gemini 3 sont optimisées pour les paramètres par défaut.- Utilisez
thinking_levelau lieu dethinking_budget. - Correspondance des réponses d'appel de fonction :
id,nameet le nombre de réponses doivent correspondre aux appels précédents. - Réponses de fonction multimodales : incluez le contenu multimodal dans la réponse de la fonction, et non en dehors.
- Instructions intégrées dans les réponses de fonction : ajoutez-les au texte de la réponse de la fonction, et non en tant que parties distinctes.
- Réduisez les appels d'outils inutiles : utilisez des niveaux de réflexion inférieurs ou expérimentez avec des instructions système pour réduire les appels d'outils dans les workflows agentiques.
Consultez les sections ci-dessous pour savoir comment mettre à jour votre code.
Paramètres d'échantillonnage (non recommandés)
temperature, top_p et top_k ne sont plus recommandés pour tous les modèles Gemini 3.x. Les capacités de raisonnement de Gemini 3 sont optimisées pour les paramètres par défaut. Supprimez ces paramètres de toutes les requêtes.
# ⚠️ Remove these parameters (not recommended)
generation_config = {
"temperature": 0.7,
"top_p": 0.9,
"top_k": 40,
}
Pour garantir le déterminisme, nous vous recommandons de définir une instruction système avec des règles explicites pour votre cas d'utilisation spécifique.
thinking_budget (non recommandé)
Le paramètre numérique brut thinking_budget n'est plus recommandé pour tous les modèles Gemini 3.x. Utilisez plutôt l'énumération de chaînes thinking_level.
# ⚠️ Before (not recommended)
generation_config = {
"thinking": {"thinking_budget": 7500},
}
# ✅ After
generation_config = {
"thinking": {"thinking_level": "medium"},
}
Valeurs disponibles : minimal, low, medium (par défaut) et high.
Appel de fonction : correspondance stricte des réponses
L'API Interactions génère déjà une erreur en cas de réponses de fonction non concordantes. L'API GenerateContent ne génère pas encore d'erreur, mais les réponses non concordantes entraînent le renvoi de réponses vides par le modèle avec finish_reason: STOP dans la plupart des cas. Suivez toujours ces conventions :
| Exigence | Détails |
|---|---|
Inclure id |
Chaque FunctionResponse doit inclure l'id du FunctionCall correspondant. |
Faire correspondre name |
Le name de la réponse doit correspondre au name de l'appel. |
| Faire correspondre les nombres | Renvoie exactement un FunctionResponse pour chaque FunctionCall reçu. |
Python
# ✅ Include matching call_id and name in the function_result
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
tools=[my_tool],
input=[{
"type": "function_result",
"name": fc_step.name,
"call_id": fc_step.id,
"result": [{"type": "text", "text": json.dumps(result)}],
}],
)
JavaScript
// ✅ Include matching call_id and name in the function_result
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
tools: [myTool],
input: [{
type: "function_result",
name: fcStep.name,
call_id: fcStep.id,
result: [{ type: "text", text: JSON.stringify(result) }],
}],
});
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"previous_interaction_id": "<INTERACTION_ID>",
"tools": [...],
"input": [{
"type": "function_result",
"name": "my_function",
"call_id": "<CALL_ID>",
"result": [{"type": "text", "text": "..."}]
}]
}'
Réponses de fonction multimodales
Nous constatons souvent que les clients fournissent des images en dehors de la réponse de la fonction. Cela peut entraîner un comportement inattendu du modèle (par exemple, une fuite de pensée) et des sorties de qualité inférieure. Suivez plutôt la recommandation de la documentation de l'API Réponses de fonction multimodales et incluez le contenu multimodal dans les parties de la réponse de la fonction que vous envoyez au modèle. Le modèle peut traiter ce contenu multimodal lors de son prochain tour pour produire une réponse plus éclairée.
Python
# ✅ Include multimodal content in the function response
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
input=[
{
"type": "function_result",
"name": tool_call.name,
"call_id": tool_call.id,
"result": [
{"type": "text", "text": "instrument.jpg"},
{
"type": "image",
"mime_type": "image/jpeg",
"data": base64_image_data,
},
],
}
],
)
JavaScript
// ✅ Include multimodal content in the function response
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
input: [{
type: "function_result",
name: toolCall.name,
call_id: toolCall.id,
result: [
{ type: "text", text: "instrument.jpg" },
{
type: "image",
mime_type: "image/jpeg",
data: base64ImageData,
},
],
}],
});
Instructions intégrées dans les réponses de fonction
Nous constatons souvent que les clients fournissent des instructions supplémentaires avec les réponses de fonction en tant que Parts ultérieures. Cela peut entraîner un comportement inattendu du modèle (par exemple, une fuite de pensée) et des sorties de qualité inférieure. Ajoutez plutôt des instructions supplémentaires à la fin du texte de la réponse de la fonction, séparées par deux sauts de ligne.
Python
# ✅ Append inline instructions to the end of the function response separated by two newlines
result_text = f"{json.dumps(result)}\n\n<your inline instructions>"
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
tools=[my_tool],
input=[{
"type": "function_result",
"name": fc_step.name,
"call_id": fc_step.id,
"result": [{"type": "text", "text": result_text}],
}],
)
JavaScript
// ✅ Append inline instructions to the end of the function response separated by two newlines
const resultText = `${JSON.stringify(result)}\n\n<your inline instructions>`;
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
tools: [myTool],
input: [{
type: "function_result",
name: fcStep.name,
call_id: fcStep.id,
result: [{ type: "text", text: resultText }],
}],
});
Réduire les appels d'outils inutiles
Si vous constatez une utilisation excessive des appels d'outils, deux techniques permettent de les minimiser :
Commencez par réduire le niveau de réflexion (
medium,lowouminimal) : des niveaux de réflexion plus élevés encouragent le modèle à utiliser davantage d'outils pour explorer et vérifier. La réduction du niveau peut donc réduire les appels d'outils.Ajoutez une instruction système : si l'utilisation excessive persiste après avoir ajusté le niveau de réflexion, envisagez un prompt qui limite l'utilisation des outils. Exemple :
You have a limited action budget of <n> tool calls. Use them efficiently.
Checklist de migration
Nous vous recommandons vivement de passer au SDK google-genai v2.0.0 ou version ultérieure. Cette version introduit des modifications destructives dans l'API Interactions. Pour en savoir plus, consultez le
guide de migration des modifications destructives.
Migrer depuis Gemini 3 Flash Preview
- Mettre à jour le nom du modèle :
gemini-3-flash-preview→gemini-3.5-flash - Consultez les tarifs. Gemini 3.5 Flash est plus cher que Gemini 3 Flash Preview. Consultez la page des tarifs pour plus d'informations.
- Supprimez
temperature,top_pettop_kde votre configuration (non recommandé). - Remplacez
thinking_budgetparthinking_level. - Ajoutez
idetnamecorrespondants à toutes les partiesFunctionResponse. - Testez vos requêtes. L'effort par défaut est passé de
highàmedium. Vérifiez la qualité, la vitesse et le coût. - La préservation de la pensée est désormais activée par défaut. Le contexte de raisonnement est conservé d'un tour à l'autre, ce qui améliore les performances, mais peut augmenter l'utilisation des jetons.
- Réduisez les appels d'outils inutiles : commencez par réduire le niveau de réflexion (
medium,lowouminimal). Ajoutez une instruction système pour limiter l'utilisation des outils si l'utilisation excessive persiste. - L'utilisation de l'ordinateur n'est pas prise en charge dans Gemini 3.5 Flash pour le moment. Pour les charges de travail d'utilisation de l'ordinateur, continuez à utiliser Gemini 3 Flash Preview.
Migrer depuis Gemini 2.5
Toutes les actions ci-dessus, ainsi que les suivantes :
- Simplifiez les requêtes. Si vous avez utilisé le prompt engineering en chaîne de pensée pour forcer le raisonnement, essayez
thinking_level: "medium"ou"high"avec des prompts plus simples à la place. - Testez les charges de travail PDF et multimédias. Si vous vous êtes appuyé sur un comportement spécifique pour l'analyse de documents denses, testez le paramètre
media_resolution_highpour garantir une précision continue. La migration vers les paramètres par défaut de Gemini 3 peut également augmenter l'utilisation des jetons pour les PDF, mais la réduire pour les vidéos. Si les requêtes dépassent la fenêtre de contexte, réduisez explicitement lamedia_resolution. Pour en savoir plus, consultez la documentation sur la résolution des médias pour détails. - Tirez parti de l'utilisation combinée des outils. La recherche Google, le contexte d'URL, l'exécution de code et les fonctions personnalisées peuvent être utilisés dans la même requête.
- Si vous utilisez des réponses de fonction multimodales, déplacez le contenu multimodal à l'intérieur des parties de la réponse de la fonction, et non à côté.
- Si vous utilisez des instructions intégrées avec des réponses de fonction, ajoutez-les au texte de la réponse de la fonction, séparées par deux sauts de ligne, et non en tant que parties distinctes.
- La segmentation d'images n'est pas prise en charge dans Gemini 3.x. Pour les charges de travail de segmentation , continuez à utiliser Gemini 2.5 Flash avec la réflexion désactivée ou Gemini Robotics-ER 1.6.
Fonctionnalités de la famille Gemini 3
Gemini 3.5 Flash hérite de toutes les fonctionnalités de la famille Gemini 3, à l'exception de l'utilisation de l'ordinateur. Fonctionnalités introduites dans Gemini 3 et conservées :
- Réflexion: contexte de raisonnement chiffré conservé lors des appels d'API. Automatique dans l'API Interactions ; implicite dans GenerateContent.
- Sorties structurées avec des outils: combinez le mode JSON avec des outils intégrés (recherche, contexte d'URL, exécution de code, appel de fonction).
- Réponses de fonction multimodales: renvoyez des images, de l'audio et d'autres médias dans les résultats d'appel de fonction.
- Exécution de code avec des images: Exécutez du code qui traite et génère des images.
- Utilisation combinée des outils: utilisez des outils intégrés et des appels de fonction personnalisés dans la même requête.
Étapes suivantes
- Pour en savoir plus sur la famille Gemini 3, consultez le guide du développeur Gemini 3.
- Pour en savoir plus sur les stratégies de conception de requêtes, consultez le guide d'ingénierie de requêtes.
- Premiers pas avec le Cookbook Gemini 3
- En savoir plus sur l'optimisation et l'inférence de l'API Gemini