Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview ist unser Audio-zu-Audio-Modell mit niedriger Latenz, das für Echtzeitdialoge und sprachgesteuerte KI-Anwendungen optimiert ist. Es bietet eine Erkennung akustischer Nuancen, numerische Präzision und multimodale Wahrnehmung.

Dokumentation

Im Live API-Leitfaden finden Sie eine vollständige Beschreibung der Funktionen und Möglichkeiten.

gemini-3.1-flash-live-preview

Attribut Beschreibung
Modellcode gemini-3.1-flash-live-preview
Unterstützte Datentypen

Eingaben

Text, Bilder, Audio, Video

Ausgabe

Text und Audio

Token-Limits[*]

Eingabetokenlimit

131.072

Tokenausgabelimit

65.536

Funktionen

Audiogenerierung

Unterstützt

Caching

Nicht unterstützt

Code-Ausführung

Nicht unterstützt

Dateisuche

Nicht unterstützt

Funktionsaufrufe

Unterstützt

Fundierung mit Google Maps

Nicht unterstützt

Bildgenerierung

Nicht unterstützt

Live API

Unterstützt

Suchfundierung

Unterstützt

Strukturierte Ausgaben

Nicht unterstützt

Denken

Unterstützt

URL-Kontext

Nicht unterstützt

Nutzungsoptionen

Batch API

Nicht unterstützt

-Versionen
Weitere Informationen finden Sie unter Muster für Modellversionen.
  • Vorschau für: gemini-3.1-flash-live-preview
Letzte Aktualisierung März 2026
Wissensstichtag Januar 2025

Migration von Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview ist für Echtzeitdialoge mit niedriger Latenz optimiert. Bei der Migration von gemini-2.5-flash-native-audio-preview-12-2025 ist Folgendes zu beachten:

  • Modellstring: Aktualisieren Sie Ihren Modellstring von gemini-2.5-flash-native-audio-preview-12-2025 auf gemini-3.1-flash-live-preview.
  • Konfiguration von „Thinking“: Gemini 3.1 verwendet thinkingLevel (mit Einstellungen wie minimal, low, medium und high) anstelle von thinkingBudget. Die Standardeinstellung ist minimal, um die Latenz zu minimieren. Weitere Informationen zu Denkebenen und Budgets
  • Serverereignisse: Ein einzelnes BidiGenerateContentServerContent-Ereignis kann jetzt mehrere Inhaltsteile gleichzeitig enthalten, z. B. Audio-Chunks und Transkript. Aktualisieren Sie Ihren Code so, dass alle Teile in jedem Ereignis verarbeitet werden, um fehlende Inhalte zu vermeiden.
  • Clientinhalte: send_client_content wird nur für das Seeding des anfänglichen Kontexthistorie unterstützt. Dazu muss initial_history_in_client_content in history_config festgelegt werden. Verwenden Sie send_realtime_input, um während der Unterhaltung Textaktualisierungen zu senden. Weitere Informationen finden Sie unter Inkrementelle Aktualisierungen von Inhalten.
  • Turn coverage (Abdeckung für Abbiegungen): Standardmäßig wird TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO anstelle von TURN_INCLUDES_ONLY_ACTIVITY verwendet. Der Zug des Modells umfasst jetzt erkannte Audioaktivitäten und alle Videoframes. Wenn Ihre Anwendung derzeit einen konstanten Stream von Videoframes sendet, sollten Sie sie so aktualisieren, dass Videoframes nur gesendet werden, wenn Audioaktivität vorhanden ist, um zusätzliche Kosten zu vermeiden.
  • Asynchrone Funktionsaufrufe: Werden noch nicht unterstützt. Funktionsaufrufe sind nur synchron. Das Modell beginnt erst mit der Antwort, wenn Sie die Tool-Antwort gesendet haben. Weitere Informationen
  • Proaktive Audioausgabe und affektiver Dialog: Diese Funktionen werden in Gemini 3.1 Flash Live noch nicht unterstützt. Entfernen Sie alle Konfigurationen für diese Funktionen aus Ihrem Code. Weitere Informationen finden Sie unter Proaktive Audioeingabe und Affektiver Dialog.

Einen detaillierten Vergleich der Funktionen finden Sie in der Tabelle Modellvergleich im Leitfaden zu den Funktionen.