Aperçu en direct de Gemini 3.1 Flash

Gemini 3.1 Flash Live Preview est notre modèle audio-audio à faible latence, optimisé pour les dialogues en temps réel et les applications d'IA vocales avec détection des nuances acoustiques, précision numérique et conscience multimodale.

Documentation

Consultez le guide de l'API Live pour obtenir une couverture complète des fonctionnalités.

gemini-3.1-flash-live-preview

Propriété Description
Code du modèle gemini-3.1-flash-live-preview
Types de données acceptés

Entrées

Texte, images, audio, vidéo

Résultat

Texte et audio

Limites de jetons[*]

Limite de jetons d'entrée

131 072

Limite de jetons de sortie

65 536

Fonctionnalités

Génération audio

Compatible

API par lot

Non compatible

Mise en cache

Non compatible

Exécution de code

Non compatible

Recherche de fichiers

Non compatible

Appel de fonction

Compatible

Ancrage avec Google Maps

Non compatible

Génération d'images

Non compatible

API Live

Compatible

Ancrage de recherche

Compatible

Sorties structurées

Non compatible

Raisonnement

Compatible

Contexte d'URL

Non compatible

Versions
Pour en savoir plus, consultez la section Schémas de version de modèle.
  • Aperçu : gemini-3.1-flash-live-preview
Dernière mise à jour Mars 2026
Date limite des connaissances (ou "knowledge cutoff") Janvier 2025

Migrer depuis Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview est optimisé pour les dialogues en temps réel à faible latence. Lorsque vous migrez depuis gemini-2.5-flash-native-audio-preview-12-2025, tenez compte des points suivants :

  • Chaîne de modèle : remplacez votre chaîne de modèle gemini-2.5-flash-native-audio-preview-12-2025 par gemini-3.1-flash-live-preview.
  • Configuration du raisonnement : Gemini 3.1 utilise thinkingLevel (avec des paramètres tels que minimal, low, medium, et high) au lieu de thinkingBudget. La valeur par défaut est minimal pour optimiser la latence la plus faible. Consultez Niveaux et budgets de raisonnement.
  • Événements de serveur : un seul BidiGenerateContentServerContent événement peut désormais contenir plusieurs parties de contenu simultanément (par exemple, des segments audio et une transcription). Mettez à jour votre code pour traiter toutes les parties de chaque événement afin d'éviter de manquer du contenu.
  • Contenu client : send_client_content n'est compatible que pour l'amorçage de l'historique du contexte initial (nécessite de définir initial_history_in_client_content dans history_config). Utilisez send_realtime_input pour envoyer des mises à jour de texte pendant la conversation. Consultez Mises à jour incrémentielles du contenu.
  • Couverture des tours : la valeur par défaut est TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO au lieu de TURN_INCLUDES_ONLY_ACTIVITY. Le tour du modèle inclut désormais l'activité audio détectée et toutes les images vidéo. Si votre application envoie actuellement un flux constant d'images vidéo, vous pouvez la mettre à jour pour n'envoyer des images vidéo que lorsqu'il y a une activité audio afin d'éviter des coûts supplémentaires.
  • Appel de fonction asynchrone : pas encore compatible. L'appel de fonction n'est que synchrone. Le modèle ne commencera à répondre que lorsque vous aurez envoyé la réponse de l'outil. Consultez Appel de fonction asynchrone.
  • Audio proactif et dialogue affectif : ces fonctionnalités ne sont pas encore compatibles avec Gemini 3.1 Flash Live. Supprimez toute configuration de ces fonctionnalités de votre code. Consultez Audio proactif et Dialogue affectif.

Pour une comparaison détaillée des fonctionnalités, consultez le tableau de comparaison des modèles dans le guide des fonctionnalités.