Podgląd na żywo Gemini 3.1 Flash

Gemini 3.1 Flash Live Preview to nasz model audio-audio o niskim opóźnieniu, zoptymalizowany pod kątem dialogu w czasie rzeczywistym i aplikacji AI opartych na głosie, z wykrywaniem niuansów akustycznych, precyzją numeryczną i świadomością multimodalną.

Dokumentacja

Więcej informacji o funkcjach i możliwościach znajdziesz w przewodniku po interfejsie Live API.

gemini-3.1-flash-live-preview

Właściwość Opis
Kod modelu gemini-3.1-flash-live-preview
Obsługiwane typy danych

Dane wejściowe

Tekst, obrazy, dźwięk, film

Dane wyjściowe

Tekst i dźwięk

Limity tokenów[*]

Limit tokenów wejściowych

131 072

Limit tokenów wyjściowych

65 536

Możliwości

Generowanie dźwięku

Obsługiwane

Interfejs Batch API

Nieobsługiwane

Zapisywanie w pamięci podręcznej

Nieobsługiwane

Wykonywanie kodu

Nieobsługiwane

Wyszukiwanie plików

Nieobsługiwane

Wywoływanie funkcji

Obsługiwane

Powiązanie ze źródłem informacji przy użyciu Map Google

Nieobsługiwane

Generowanie obrazów

Nieobsługiwane

Interfejs Live API

Obsługiwane

Szukaj groundingu

Obsługiwane

Ustrukturyzowane dane wyjściowe

Nieobsługiwane

Myślę

Obsługiwane

Kontekst adresu URL

Nieobsługiwane

Wersje
Więcej informacji znajdziesz w artykule Wzorce wersji modelu.
  • Wersja testowa: gemini-3.1-flash-live-preview
Ostatnia aktualizacja Marzec 2026 r.
Granica wiedzy Styczeń 2025 r.

Migracja z Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview jest zoptymalizowany pod kątem dialogu w czasie rzeczywistym z niskim opóźnieniem. Podczas migracji z gemini-2.5-flash-native-audio-preview-12-2025 weź pod uwagę te kwestie:

  • Ciąg znaków modelu: zaktualizuj ciąg znaków modelu z gemini-2.5-flash-native-audio-preview-12-2025 na gemini-3.1-flash-live-preview.
  • Konfiguracja myślenia: Gemini 3.1 używa thinkingLevel (z ustawieniami takimi jak minimal, low, medium, i high) zamiast thinkingBudget. Domyślnie jest ustawiona wartość minimal, aby zoptymalizować opóźnienie. Zobacz Poziomy i budżety myślenia.
  • Zdarzenia serwera: pojedyncze zdarzenie BidiGenerateContentServerContent może teraz zawierać jednocześnie wiele części treści (np. fragmenty dźwięku i transkrypcję). Zaktualizuj kod, aby przetwarzać wszystkie części w każdym zdarzeniu, aby nie pominąć treści.
  • Treść klienta: send_client_content jest obsługiwana tylko w przypadku początkowego wypełniania historii kontekstu (wymaga ustawienia initial_history_in_client_content w history_config). Użyj send_realtime_input, aby wysyłać aktualizacje tekstu podczas rozmowy. Zobacz Przyrostowe aktualizacje treści.
  • Pokrycie tury: domyślnie ustawiona jest wartość TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO zamiast TURN_INCLUDES_ONLY_ACTIVITY. Tura modelu obejmuje teraz wykrytą aktywność audio i wszystkie klatki wideo. Jeśli Twoja aplikacja wysyła obecnie stały strumień klatek wideo, możesz ją zaktualizować, aby wysyłać klatki wideo tylko wtedy, gdy występuje aktywność audio, aby uniknąć dodatkowych kosztów.
  • Asynchroniczne wywoływanie funkcji: nie jest jeszcze obsługiwane. Wywoływanie funkcji jest tylko synchroniczne. Model nie zacznie odpowiadać, dopóki nie wyślesz odpowiedzi narzędzia. Zobacz Asynchroniczne wywoływanie funkcji.
  • Proaktywny dźwięk i dialog afektywny: te funkcje nie są jeszcze obsługiwane w Gemini 3.1 Flash Live. Usuń z kodu konfigurację tych funkcji. Zobacz Proaktywny dźwięk i dialog afektywny.

Szczegółowe porównanie funkcji znajdziesz w tabeli porównania modeli w przewodniku po możliwościach.