Aperçu en direct de Gemini 3.1 Flash

Gemini 3.1 Flash Live Preview est notre modèle audio-vers-audio à faible latence optimisé pour les applications d'IA vocales et de dialogue en temps réel, avec détection des nuances acoustiques, précision numérique et conscience multimodale.

Documentation

Consultez le guide de l'API Live pour obtenir une couverture complète des fonctionnalités.

gemini-3.1-flash-live-preview

Propriété Description
Code du modèle gemini-3.1-flash-live-preview
Types de données acceptés pour

Entrées

Texte, images, audio, vidéo

Résultat

Texte et audio

Limites de jetons[*]

Limite de jetons d'entrée

131 072

Limite de jetons de sortie

65 536

 Fonctionnalités

Génération audio

Compatible

API Batch

Not supported

Mise en cache

Not supported

Exécution de code

Not supported

Recherche de fichiers

Non compatible

Appel de fonction

Compatible

Ancrage avec Google Maps

Not supported

Génération d'images

Not supported

API Live

Compatible

Ancrage de recherche

Compatible

Sorties structurées

Not supported

Raisonnement

Compatible

Contexte de l'URL

Not supported

Versions
Pour en savoir plus, consultez les schémas de version de modèle.
  • Aperçu : gemini-3.1-flash-live-preview
Dernière mise à jour Mars 2026
Date limite des connaissances Janvier 2025

Migrer depuis Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview est optimisé pour le dialogue en temps réel à faible latence. Lorsque vous migrez depuis gemini-2.5-flash-native-audio-preview-12-2025, tenez compte des points suivants :

  • Chaîne de modèle : remplacez la chaîne de modèle gemini-2.5-flash-native-audio-preview-12-2025 par gemini-3.1-flash-live-preview.
  • Configuration de la réflexion : Gemini 3.1 utilise thinkingLevel (avec des paramètres tels que minimal, low, medium et high) au lieu de thinkingBudget. La valeur par défaut est minimal pour optimiser la latence la plus faible. Consultez Niveaux de réflexion et budgets.
  • Événements serveur : un seul événement BidiGenerateContentServerContent peut désormais contenir plusieurs parties de contenu simultanément (par exemple, des extraits audio et une transcription). Mettez à jour votre code pour traiter toutes les parties de chaque événement afin d'éviter de manquer du contenu.
  • Contenu client : send_client_content n'est compatible que pour l'amorçage de l'historique du contexte initial (nécessite de définir initial_history_in_client_content dans history_config). Utilisez send_realtime_input pour envoyer des mises à jour de texte pendant la conversation. Consultez Mises à jour incrémentielles du contenu.
  • Couverture des tours : la valeur par défaut est TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO au lieu de TURN_INCLUDES_ONLY_ACTIVITY. Le tour du modèle inclut désormais l'activité audio détectée et toutes les images vidéo. Si votre application envoie actuellement un flux constant d'images vidéo, vous pouvez la mettre à jour pour qu'elle n'envoie des images vidéo que lorsqu'il y a une activité audio, afin d'éviter des frais supplémentaires.
  • Appel de fonction asynchrone : pas encore disponible. L'appel de fonction est uniquement synchrone. Le modèle ne commencera à répondre que lorsque vous aurez envoyé la réponse de l'outil. Consultez Appel de fonction asynchrone.
  • Audio proactif et dialogue affectif : ces fonctionnalités ne sont pas encore disponibles dans Gemini 3.1 Flash Live. Supprimez toute configuration de ces fonctionnalités de votre code. Consultez Audio proactif et Dialogue affectif.

Pour une comparaison détaillée des fonctionnalités, consultez le tableau Comparaison des modèles dans le guide des fonctionnalités.