Nouveautés de Gemini 3.5 Flash

Gemini 3.5 Flash est disponible pour tous les utilisateurs, stable et prêt à être utilisé en production à grande échelle. En tant que modèle Flash le plus intelligent, il offre des performances de pointe durables dans l'exécution agentique, le codage et les tâches à long terme à grande échelle.

Ce guide présente un aperçu des améliorations, des modifications apportées à l'API et des conseils de migration pour Gemini 3.5 Flash.

Nouveau modèle

Modèle ID du modèle Description
Gemini 3.5 Flash gemini-3.5-flash Notre modèle le plus intelligent pour des performances de pointe durables dans les tâches agentiques et de codage.

Gemini 3.5 Flash est compatible avec la fenêtre de contexte d'un million de jetons, 65 000 jetons de sortie maximum, le raisonnement et le même ensemble d'outils et de fonctionnalités de plate-forme que Gemini 3 Flash. L'utilisation de l'ordinateur n'est pas prise en charge pour le moment.

Pour obtenir les spécifications complètes, consultez la présentation des modèles. Pour connaître les tarifs, consultez la page des tarifs.

Guide de démarrage rapide

Tous les exemples de ce guide utilisent l'API Interactions. L'API GenerateContent est également compatible. Les mêmes options de configuration et recommandations s'appliquent.

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Explain how parallel agentic execution works in three sentences."
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

async function main() {
  const interaction = await client.interactions.create({
    model: "gemini-3.5-flash",
    input: "Explain how parallel agentic execution works in three sentences.",
  });
  console.log(interaction.output_text);
}

main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Explain how parallel agentic execution works in three sentences."
  }'

Nouveautés

  • Performances de pointe durables : notre modèle Flash le plus intelligent, optimisé pour les tâches agentiques et de codage à grande échelle.
  • Exécution agentique : déploiement de sous-agents, résolution de problèmes et boucles agentiques rapides à grande échelle.
  • Codage : cycles de codage itératifs, exploration rapide et prototypage pour tester d'autres chemins et explorer dynamiquement des solutions.
  • Long terme : workflows multi-étapes et utilisation d'outils à grande échelle.
  • Préservation de la pensée : le modèle conserve automatiquement le raisonnement intermédiaire dans les conversations multitours. Aucune modification de l'API n'est nécessaire.
  • Nouveau niveau d'effort par défaut : l'effort de réflexion par défaut est passé de high à medium. Pour en savoir plus, consultez Nouveau niveau d'effort par défaut.
  • Amélioration de la réflexion low : low est désormais considérablement amélioré pour le code et les tâches agentiques qui nécessitent moins d’étapes, offrant une qualité élevée à une latence et un coût inférieurs.
  • Version disponible pour tous les utilisateurs : modèle stable pour une utilisation en production à grande échelle.

Changements de comportement

Nouveau niveau d'effort par défaut : medium

L'effort de réflexion par défaut est désormais medium, au lieu de high dans Gemini 3 Flash Preview. medium donne de très bons résultats pour un large éventail de tâches tout en étant plus rapide et plus rentable. Pour les problèmes complexes, high encourage le modèle à réfléchir plus en profondeur.

Niveau d'effort Quand les utiliser ?
minimal Optimisé pour la vitesse de réponse. Cas d'utilisation de type chat, réponses factuelles rapides, appels d'outils plus simples.
low Tâches de codage et agentiques qui nécessitent une latence plus faible et moins d'étapes. Fonctionne également bien pour les tâches d'analyse et d'écriture qui nécessitent une certaine réflexion.
medium (par défaut) Meilleure qualité pour la plupart des tâches. Recommandé pour les cas d'utilisation complexes de codage et agentiques.
high Maximise la capacité du modèle à réfléchir et à utiliser des outils. Idéal pour le raisonnement complexe, les mathématiques difficiles et les tâches de codage ou agentiques les plus difficiles. Permet des réflexions et des appels de fonction étendus.

Pour remplacer la valeur par défaut, définissez thinking_level dans votre configuration :

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Prove that the square root of 2 is irrational.",
    generation_config={"thinking_level": "high"},
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

async function main() {
  const interaction = await client.interactions.create({
    model: "gemini-3.5-flash",
    input: "Prove that the square root of 2 is irrational.",
    generationConfig: { thinkingLevel: "high" },
  });
  console.log(interaction.output_text);
}

main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Prove that the square root of 2 is irrational.",
    "generation_config": {"thinking_level": "high"}
  }'

Préservation de la pensée

Le modèle conserve automatiquement le raisonnement intermédiaire dans les conversations multitours. Lorsqu'il est présent dans l'historique des conversations, le contexte de raisonnement est conservé, ce qui améliore les performances pour les tâches complexes en plusieurs étapes, telles que le débogage itératif et la refactorisation du code. Aucune modification de l'API n'est nécessaire :

  • API Interactions : les réflexions sont déjà conservées automatiquement. Aucun changement de comportement.
  • API GenerateContent : à partir de Gemini 3.5 Flash, le modèle utilise le contexte de raisonnement de tous les tours précédents lorsque des signatures de pensée sont présentes dans l'historique des conversations. Pour activer cette fonctionnalité, transmettez l'historique complet et non modifié des conversations (y compris les signatures de pensée) dans contents. Les SDK gèrent cela automatiquement.

Mises à jour des paramètres et bonnes pratiques dans Gemini 3.x

Les éléments suivants s'appliquent à tous les modèles Gemini 3.x, y compris Gemini 3.5 Flash.

  • temperature, top_p, top_k : nous vous recommandons vivement de ne pas modifier les valeurs par défaut. Les capacités de raisonnement de Gemini 3 sont optimisées pour les paramètres par défaut.
  • Utilisez thinking_level au lieu de thinking_budget.
  • Correspondance des réponses d'appel de fonction : id, name et le nombre de réponses doivent correspondre aux appels précédents.
  • Réponses de fonction multimodales : incluez le contenu multimodal dans la réponse de la fonction, et non en dehors.
  • Instructions intégrées dans les réponses de fonction : ajoutez-les au texte de la réponse de la fonction, et non en tant que parties distinctes.
  • Réduisez les appels d'outils inutiles : utilisez des niveaux de réflexion inférieurs ou expérimentez avec des instructions système pour réduire les appels d'outils dans les workflows agentiques.

Consultez les sections ci-dessous pour savoir comment mettre à jour votre code.

Paramètres d'échantillonnage (non recommandés)

temperature, top_p et top_k ne sont plus recommandés pour tous les modèles Gemini 3.x. Les capacités de raisonnement de Gemini 3 sont optimisées pour les paramètres par défaut. Supprimez ces paramètres de toutes les requêtes.

# ⚠️ Remove these parameters (not recommended)
generation_config = {
    "temperature": 0.7,
    "top_p": 0.9,
    "top_k": 40,
}

Pour garantir le déterminisme, nous vous recommandons de définir une instruction système avec des règles explicites pour votre cas d'utilisation spécifique.

thinking_budget (non recommandé)

Le paramètre numérique brut thinking_budget n'est plus recommandé pour tous les modèles Gemini 3.x. Utilisez plutôt l'énumération de chaînes thinking_level.

# ⚠️ Before (not recommended)
generation_config = {
    "thinking": {"thinking_budget": 7500},
}

# ✅ After
generation_config = {
    "thinking": {"thinking_level": "medium"},
}

Valeurs disponibles : minimal, low, medium (par défaut) et high.

Appel de fonction : correspondance stricte des réponses

L'API Interactions génère déjà une erreur en cas de réponses de fonction non concordantes. L'API GenerateContent ne génère pas encore d'erreur, mais les réponses non concordantes entraînent le renvoi de réponses vides par le modèle avec finish_reason: STOP dans la plupart des cas. Suivez toujours ces conventions :

Exigence Détails
Inclure id Chaque FunctionResponse doit inclure l'id du FunctionCall correspondant.
Faire correspondre name Le name de la réponse doit correspondre au name de l'appel.
Faire correspondre les nombres Renvoie exactement un FunctionResponse pour chaque FunctionCall reçu.

Python

# ✅ Include matching call_id and name in the function_result
final_interaction = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction.id,
    tools=[my_tool],
    input=[{
        "type": "function_result",
        "name": fc_step.name,
        "call_id": fc_step.id,
        "result": [{"type": "text", "text": json.dumps(result)}],
    }],
)

JavaScript

// ✅ Include matching call_id and name in the function_result
const finalInteraction = await client.interactions.create({
  model: "gemini-3.5-flash",
  previousInteractionId: interaction.id,
  tools: [myTool],
  input: [{
    type: "function_result",
    name: fcStep.name,
    call_id: fcStep.id,
    result: [{ type: "text", text: JSON.stringify(result) }],
  }],
});

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "previous_interaction_id": "<INTERACTION_ID>",
    "tools": [...],
    "input": [{
      "type": "function_result",
      "name": "my_function",
      "call_id": "<CALL_ID>",
      "result": [{"type": "text", "text": "..."}]
    }]
  }'

Réponses de fonction multimodales

Nous constatons souvent que les clients fournissent des images en dehors de la réponse de la fonction. Cela peut entraîner un comportement inattendu du modèle (par exemple, une fuite de pensée) et des sorties de qualité inférieure. Suivez plutôt la recommandation de la documentation de l'API Réponses de fonction multimodales et incluez le contenu multimodal dans les parties de la réponse de la fonction que vous envoyez au modèle. Le modèle peut traiter ce contenu multimodal lors de son prochain tour pour produire une réponse plus éclairée.

Python

# ✅ Include multimodal content in the function response
final_interaction = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction.id,
    input=[
        {
            "type": "function_result",
            "name": tool_call.name,
            "call_id": tool_call.id,
            "result": [
                {"type": "text", "text": "instrument.jpg"},
                {
                    "type": "image",
                    "mime_type": "image/jpeg",
                    "data": base64_image_data,
                },
            ],
        }
    ],
)

JavaScript

// ✅ Include multimodal content in the function response
const finalInteraction = await client.interactions.create({
  model: "gemini-3.5-flash",
  previousInteractionId: interaction.id,
  input: [{
    type: "function_result",
    name: toolCall.name,
    call_id: toolCall.id,
    result: [
      { type: "text", text: "instrument.jpg" },
      {
        type: "image",
        mime_type: "image/jpeg",
        data: base64ImageData,
      },
    ],
  }],
});

Instructions intégrées dans les réponses de fonction

Nous constatons souvent que les clients fournissent des instructions supplémentaires avec les réponses de fonction en tant que Parts ultérieures. Cela peut entraîner un comportement inattendu du modèle (par exemple, une fuite de pensée) et des sorties de qualité inférieure. Ajoutez plutôt des instructions supplémentaires à la fin du texte de la réponse de la fonction, séparées par deux sauts de ligne.

Python

# ✅ Append inline instructions to the end of the function response separated by two newlines
result_text = f"{json.dumps(result)}\n\n<your inline instructions>"

final_interaction = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction.id,
    tools=[my_tool],
    input=[{
        "type": "function_result",
        "name": fc_step.name,
        "call_id": fc_step.id,
        "result": [{"type": "text", "text": result_text}],
    }],
)

JavaScript

// ✅ Append inline instructions to the end of the function response separated by two newlines
const resultText = `${JSON.stringify(result)}\n\n<your inline instructions>`;

const finalInteraction = await client.interactions.create({
  model: "gemini-3.5-flash",
  previousInteractionId: interaction.id,
  tools: [myTool],
  input: [{
    type: "function_result",
    name: fcStep.name,
    call_id: fcStep.id,
    result: [{ type: "text", text: resultText }],
  }],
});

Réduire les appels d'outils inutiles

Si vous constatez une utilisation excessive des appels d'outils, deux techniques permettent de les minimiser :

  1. Commencez par réduire le niveau de réflexion (medium, low ou minimal) : des niveaux de réflexion plus élevés encouragent le modèle à utiliser davantage d'outils pour explorer et vérifier. La réduction du niveau peut donc réduire les appels d'outils.

  2. Ajoutez une instruction système : si l'utilisation excessive persiste après avoir ajusté le niveau de réflexion, envisagez un prompt qui limite l'utilisation des outils. Exemple :

    You have a limited action budget of <n> tool calls. Use them efficiently.
    

Checklist de migration

Nous vous recommandons vivement de passer au SDK google-genai v2.0.0 ou version ultérieure. Cette version introduit des modifications destructives dans l'API Interactions. Pour en savoir plus, consultez le guide de migration des modifications destructives.

Migrer depuis Gemini 3 Flash Preview

  • Mettre à jour le nom du modèle : gemini-3-flash-previewgemini-3.5-flash
  • Consultez les tarifs. Gemini 3.5 Flash est plus cher que Gemini 3 Flash Preview. Consultez la page des tarifs pour plus d'informations.
  • Supprimez temperature, top_p et top_k de votre configuration (non recommandé).
  • Remplacez thinking_budget par thinking_level.
  • Ajoutez id et name correspondants à toutes les parties FunctionResponse.
  • Testez vos requêtes. L'effort par défaut est passé de high à medium. Vérifiez la qualité, la vitesse et le coût.
  • La préservation de la pensée est désormais activée par défaut. Le contexte de raisonnement est conservé d'un tour à l'autre, ce qui améliore les performances, mais peut augmenter l'utilisation des jetons.
  • Réduisez les appels d'outils inutiles : commencez par réduire le niveau de réflexion (medium, low ou minimal). Ajoutez une instruction système pour limiter l'utilisation des outils si l'utilisation excessive persiste.
  • L'utilisation de l'ordinateur n'est pas prise en charge dans Gemini 3.5 Flash pour le moment. Pour les charges de travail d'utilisation de l'ordinateur, continuez à utiliser Gemini 3 Flash Preview.

Migrer depuis Gemini 2.5

Toutes les actions ci-dessus, ainsi que les suivantes :

  • Simplifiez les requêtes. Si vous avez utilisé le prompt engineering en chaîne de pensée pour forcer le raisonnement, essayez thinking_level: "medium" ou "high" avec des prompts plus simples à la place.
  • Testez les charges de travail PDF et multimédias. Si vous vous êtes appuyé sur un comportement spécifique pour l'analyse de documents denses, testez le paramètre media_resolution_high pour garantir une précision continue. La migration vers les paramètres par défaut de Gemini 3 peut également augmenter l'utilisation des jetons pour les PDF, mais la réduire pour les vidéos. Si les requêtes dépassent la fenêtre de contexte, réduisez explicitement la media_resolution. Pour en savoir plus, consultez la documentation sur la résolution des médias pour détails.
  • Tirez parti de l'utilisation combinée des outils. La recherche Google, le contexte d'URL, l'exécution de code et les fonctions personnalisées peuvent être utilisés dans la même requête.
  • Si vous utilisez des réponses de fonction multimodales, déplacez le contenu multimodal à l'intérieur des parties de la réponse de la fonction, et non à côté.
  • Si vous utilisez des instructions intégrées avec des réponses de fonction, ajoutez-les au texte de la réponse de la fonction, séparées par deux sauts de ligne, et non en tant que parties distinctes.
  • La segmentation d'images n'est pas prise en charge dans Gemini 3.x. Pour les charges de travail de segmentation , continuez à utiliser Gemini 2.5 Flash avec la réflexion désactivée ou Gemini Robotics-ER 1.6.

Fonctionnalités de la famille Gemini 3

Gemini 3.5 Flash hérite de toutes les fonctionnalités de la famille Gemini 3, à l'exception de l'utilisation de l'ordinateur. Fonctionnalités introduites dans Gemini 3 et conservées :

Étapes suivantes