Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview ist unser Audio-zu-Audio-Modell mit niedriger Latenz, das für Echtzeitdialoge und sprachgesteuerte KI-Anwendungen optimiert ist. Es bietet eine Erkennung akustischer Nuancen, numerische Präzision und multimodale Wahrnehmung.

Dokumentation

Im Leitfaden zur Live API finden Sie eine vollständige Beschreibung der Funktionen und Möglichkeiten.

gemini-3.1-flash-live-preview

Attribut Beschreibung
Modellcode gemini-3.1-flash-live-preview
Unterstützte Datentypen

Eingaben

Text, Bilder, Audio, Video

Ausgabe

Text und Audio

Token limits[*]

Tokenlimit für Eingaben

131.072

Tokenlimit für Ausgaben

65.536

Funktionen

Audioerstellung

Unterstützt

Batch API

Nicht unterstützt

Caching

Nicht unterstützt

Codeausführung

Nicht unterstützt

Dateisuche

Nicht unterstützt

Funktionsaufrufe

Unterstützt

Fundierung mit Google Maps

Nicht unterstützt

Bildgenerierung

Nicht unterstützt

Live API

Unterstützt

Suchfundierung

Unterstützt

Strukturierte Ausgaben

Nicht unterstützt

Denken

Unterstützt

URL-Kontext

Nicht unterstützt

Versionen
Weitere Informationen finden Sie unter Muster für Modellversionen.
  • Vorschau für: gemini-3.1-flash-live-preview
Letzte Aktualisierung März 2026
Wissensstichtag Januar 2025

Von Gemini 2.5 Flash Live migrieren

Gemini 3.1 Flash Live Preview ist für Echtzeitdialoge mit niedriger Latenz optimiert. Beachten Sie bei der Migration von gemini-2.5-flash-native-audio-preview-12-2025 Folgendes:

  • Modellstring: Aktualisieren Sie den Modellstring von gemini-2.5-flash-native-audio-preview-12-2025 zu gemini-3.1-flash-live-preview.
  • Konfiguration für das Denken: Gemini 3.1 verwendet thinkingLevel (mit Einstellungen wie minimal, low, medium, und high) anstelle von thinkingBudget. Die Standardeinstellung ist minimal, um die Latenz zu optimieren. Weitere Informationen finden Sie unter Denkebenen und Budgets.
  • Serverereignisse: Ein einzelnes BidiGenerateContentServerContent -Ereignis kann jetzt mehrere Inhaltsteile gleichzeitig enthalten (z. B. Audio-Chunks und Transkript). Aktualisieren Sie Ihren Code, um alle Teile in jedem Ereignis zu verarbeiten, damit keine Inhalte verloren gehen.
  • Clientinhalte: send_client_content wird nur für das Seeding des anfänglichen Kontexthistorie unterstützt. Dazu muss initial_history_in_client_content in history_config festgelegt werden. Verwenden Sie send_realtime_input, um Textaktualisierungen während der Unterhaltung zu senden. Weitere Informationen finden Sie unter Inkrementelle Aktualisierungen von Inhalten.
  • Umfang der Runde: Standardmäßig wird TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO anstelle von TURN_INCLUDES_ONLY_ACTIVITY verwendet. Die Runde des Modells umfasst jetzt die erkannte Audioaktivität und alle Videoframes. Wenn Ihre Anwendung derzeit einen konstanten Stream von Videoframes sendet, sollten Sie sie so aktualisieren, dass Videoframes nur gesendet werden, wenn Audioaktivität vorhanden ist, um zusätzliche Kosten zu vermeiden.
  • Asynchrone Funktionsaufrufe: Noch nicht unterstützt. Funktionsaufrufe sind nur synchron. Das Modell antwortet erst, wenn Sie die Toolantwort gesendet haben. Weitere Informationen finden Sie unter Asynchrone Funktionsaufrufe.
  • Proaktives Audio und affektiver Dialog: Diese Funktionen werden in Gemini 3.1 Flash Live noch nicht unterstützt. Entfernen Sie alle Konfigurationen für diese Funktionen aus Ihrem Code. Weitere Informationen finden Sie unter Proaktives Audio und affektiver Dialog.

Einen detaillierten Vergleich der Funktionen finden Sie in der Tabelle zum Modellvergleich im Leitfaden zu den Funktionen.