Gemini 3.1 Flash Live Preview to nasz model audio-to-audio o niskim opóźnieniu, zoptymalizowany pod kątem dialogów w czasie rzeczywistym i aplikacji AI opartych na głosie. Wykrywa niuanse akustyczne, zapewnia precyzję numeryczną i rozpoznawanie multimodalne.
Dokumentacja
Więcej informacji o funkcjach i możliwościach znajdziesz w przewodniku po interfejsie Live API.
gemini-3.1-flash-live-preview
| Właściwość | Opis |
|---|---|
| Kod modelu |
gemini-3.1-flash-live-preview
|
| Obsługiwane typy danych |
Dane wejściowe tekst, obrazy, dźwięk, wideo; Dane wyjściowe Tekst i dźwięk |
| Limity tokenów[*] |
Limit tokenów wejściowych 131 072 Limit tokenów wyjściowych 65 536 |
| Uprawnienia |
Generowanie dźwięku Obsługiwane Batch API Nieobsługiwane Zapisywanie w pamięci podręcznej Nieobsługiwane Wykonanie kodu Nieobsługiwane Wyszukiwanie plików Nieobsługiwane Wywoływanie funkcji Obsługiwane Powiązanie ze źródłem informacji przy użyciu Map Google Nieobsługiwane Generowanie obrazów Nieobsługiwane Live API Obsługiwane Oparcie wyszukiwania na faktach Obsługiwane Ustrukturyzowane dane wyjściowe Nieobsługiwane Myślenie Obsługiwane Kontekst adresu URL Nieobsługiwane |
| Wersje |
|
| Ostatnia aktualizacja | Marzec 2026 r. |
| Granica wiedzy | Styczeń 2025 r. |
Przechodzenie z Gemini 2.5 Flash Live
Gemini 3.1 Flash Live Preview jest zoptymalizowany pod kątem dialogów w czasie rzeczywistym z krótkim czasem oczekiwania.
Jeśli przenosisz dane z gemini-2.5-flash-native-audio-preview-12-2025, weź pod uwagę te kwestie:
- Ciąg znaków modelu: zaktualizuj ciąg znaków modelu z
gemini-2.5-flash-native-audio-preview-12-2025nagemini-3.1-flash-live-preview. - Konfiguracja myślenia: Gemini 3.1 używa
thinkingLevel(z ustawieniami takimi jakminimal,low,mediumihigh) zamiastthinkingBudget. Domyślnie jest tominimal, aby zoptymalizować opóźnienie. Zobacz Poziomy myślenia i budżety. - Zdarzenia serwera: jedno zdarzenie
BidiGenerateContentServerContentmoże teraz zawierać jednocześnie wiele części treści (np. fragmenty audio i transkrypcję). Aby uniknąć pominięcia treści, zaktualizuj kod, tak aby w każdym zdarzeniu przetwarzał wszystkie części. - Treści klienta: parametr
send_client_contentjest obsługiwany tylko w przypadku inicjowania historii kontekstu początkowego (wymaga ustawienia parametruinitial_history_in_client_contentw parametrzehistory_config). Użyj parametrusend_realtime_input, aby wysyłać aktualizacje tekstowe podczas rozmowy. Zobacz przyrostowe aktualizacje treści. - Turn coverage: domyślnie ma wartość
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEOzamiastTURN_INCLUDES_ONLY_ACTIVITY. Odpowiedź modelu obejmuje teraz wykrytą aktywność audio i wszystkie klatki wideo. Jeśli Twoja aplikacja obecnie wysyła stały strumień klatek wideo, możesz ją zaktualizować, aby wysyłała klatki wideo tylko wtedy, gdy występuje aktywność audio. Pozwoli to uniknąć dodatkowych kosztów. - Asynchroniczne wywoływanie funkcji: nie jest jeszcze obsługiwane. Wywoływanie funkcji jest tylko synchroniczne. Model nie zacznie odpowiadać, dopóki nie wyślesz odpowiedzi narzędzia. Zapoznaj się z sekcją o asynchronicznym wywoływaniu funkcji w tym artykule.
- Aktywny dźwięk i dialog afektywny: te funkcje nie są jeszcze obsługiwane w Gemini 3.1 Flash Live. Usuń z kodu wszystkie konfiguracje tych funkcji. Zobacz Proaktywny dźwięk i Afektywny dialog.
Szczegółowe porównanie funkcji znajdziesz w tabeli Porównanie modeli w przewodniku po możliwościach.