Podgląd na żywo Gemini 3.1 Flash

Gemini 3.1 Flash Live Preview to nasz model audio-to-audio o niskim opóźnieniu, zoptymalizowany pod kątem dialogów w czasie rzeczywistym i aplikacji AI opartych na głosie. Wykrywa niuanse akustyczne, zapewnia precyzję numeryczną i rozpoznawanie multimodalne.

Dokumentacja

Więcej informacji o funkcjach i możliwościach znajdziesz w przewodniku po interfejsie Live API.

gemini-3.1-flash-live-preview

Właściwość Opis
Kod modelu gemini-3.1-flash-live-preview
Obsługiwane typy danych

Dane wejściowe

tekst, obrazy, dźwięk, wideo;

Dane wyjściowe

Tekst i dźwięk

Limity tokenów[*]

Limit tokenów wejściowych

131 072

Limit tokenów wyjściowych

65 536

Uprawnienia

Generowanie dźwięku

Obsługiwane

Batch API

Nieobsługiwane

Zapisywanie w pamięci podręcznej

Nieobsługiwane

Wykonanie kodu

Nieobsługiwane

Wyszukiwanie plików

Nieobsługiwane

Wywoływanie funkcji

Obsługiwane

Powiązanie ze źródłem informacji przy użyciu Map Google

Nieobsługiwane

Generowanie obrazów

Nieobsługiwane

Live API

Obsługiwane

Oparcie wyszukiwania na faktach

Obsługiwane

Ustrukturyzowane dane wyjściowe

Nieobsługiwane

Myślenie

Obsługiwane

Kontekst adresu URL

Nieobsługiwane

Wersje
Więcej informacji znajdziesz w wzorcach wersji modelu.
  • Podgląd: gemini-3.1-flash-live-preview
Ostatnia aktualizacja Marzec 2026 r.
Granica wiedzy Styczeń 2025 r.

Przechodzenie z Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview jest zoptymalizowany pod kątem dialogów w czasie rzeczywistym z krótkim czasem oczekiwania. Jeśli przenosisz dane z gemini-2.5-flash-native-audio-preview-12-2025, weź pod uwagę te kwestie:

  • Ciąg znaków modelu: zaktualizuj ciąg znaków modelu z gemini-2.5-flash-native-audio-preview-12-2025 na gemini-3.1-flash-live-preview.
  • Konfiguracja myślenia: Gemini 3.1 używa thinkingLevel (z ustawieniami takimi jak minimal, low, mediumhigh) zamiast thinkingBudget. Domyślnie jest to minimal, aby zoptymalizować opóźnienie. Zobacz Poziomy myślenia i budżety.
  • Zdarzenia serwera: jedno zdarzenieBidiGenerateContentServerContent może teraz zawierać jednocześnie wiele części treści (np. fragmenty audio i transkrypcję). Aby uniknąć pominięcia treści, zaktualizuj kod, tak aby w każdym zdarzeniu przetwarzał wszystkie części.
  • Treści klienta: parametr send_client_content jest obsługiwany tylko w przypadku inicjowania historii kontekstu początkowego (wymaga ustawienia parametru initial_history_in_client_content w parametrze history_config). Użyj parametru send_realtime_input, aby wysyłać aktualizacje tekstowe podczas rozmowy. Zobacz przyrostowe aktualizacje treści.
  • Turn coverage: domyślnie ma wartość TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO zamiast TURN_INCLUDES_ONLY_ACTIVITY. Odpowiedź modelu obejmuje teraz wykrytą aktywność audio i wszystkie klatki wideo. Jeśli Twoja aplikacja obecnie wysyła stały strumień klatek wideo, możesz ją zaktualizować, aby wysyłała klatki wideo tylko wtedy, gdy występuje aktywność audio. Pozwoli to uniknąć dodatkowych kosztów.
  • Asynchroniczne wywoływanie funkcji: nie jest jeszcze obsługiwane. Wywoływanie funkcji jest tylko synchroniczne. Model nie zacznie odpowiadać, dopóki nie wyślesz odpowiedzi narzędzia. Zapoznaj się z sekcją o asynchronicznym wywoływaniu funkcji w tym artykule.
  • Aktywny dźwięk i dialog afektywny: te funkcje nie są jeszcze obsługiwane w Gemini 3.1 Flash Live. Usuń z kodu wszystkie konfiguracje tych funkcji. Zobacz Proaktywny dźwiękAfektywny dialog.

Szczegółowe porównanie funkcji znajdziesz w tabeli Porównanie modeli w przewodniku po możliwościach.