Gemini 3.1 Flash Live Preview to nasz model audio-audio o niskim opóźnieniu, zoptymalizowany pod kątem dialogu w czasie rzeczywistym i aplikacji AI opartych na głosie, z wykrywaniem niuansów akustycznych, precyzją numeryczną i świadomością multimodalną.
Dokumentacja
Więcej informacji o funkcjach i możliwościach znajdziesz w przewodniku po interfejsie Live API.
gemini-3.1-flash-live-preview
| Właściwość | Opis |
|---|---|
| Kod modelu |
gemini-3.1-flash-live-preview
|
| Obsługiwane typy danych |
Dane wejściowe Tekst, obrazy, dźwięk, film Dane wyjściowe Tekst i dźwięk |
| Limity tokenów[*] |
Limit tokenów wejściowych 131 072 Limit tokenów wyjściowych 65 536 |
| Możliwości |
Generowanie dźwięku Obsługiwane Interfejs Batch API Nieobsługiwane Zapisywanie w pamięci podręcznej Nieobsługiwane Wykonywanie kodu Nieobsługiwane Wyszukiwanie plików Nieobsługiwane Wywoływanie funkcji Obsługiwane Powiązanie ze źródłem informacji przy użyciu Map Google Nieobsługiwane Generowanie obrazów Nieobsługiwane Interfejs Live API Obsługiwane Szukaj groundingu Obsługiwane Ustrukturyzowane dane wyjściowe Nieobsługiwane Myślę Obsługiwane Kontekst adresu URL Nieobsługiwane |
| Wersje |
|
| Ostatnia aktualizacja | Marzec 2026 r. |
| Granica wiedzy | Styczeń 2025 r. |
Migracja z Gemini 2.5 Flash Live
Gemini 3.1 Flash Live Preview jest zoptymalizowany pod kątem dialogu w czasie rzeczywistym z niskim opóźnieniem.
Podczas migracji z gemini-2.5-flash-native-audio-preview-12-2025 weź pod uwagę te kwestie:
- Ciąg znaków modelu: zaktualizuj ciąg znaków modelu z
gemini-2.5-flash-native-audio-preview-12-2025nagemini-3.1-flash-live-preview. - Konfiguracja myślenia: Gemini 3.1 używa
thinkingLevel(z ustawieniami takimi jakminimal,low,medium, ihigh) zamiastthinkingBudget. Domyślnie jest ustawiona wartośćminimal, aby zoptymalizować opóźnienie. Zobacz Poziomy i budżety myślenia. - Zdarzenia serwera: pojedyncze zdarzenie
BidiGenerateContentServerContentmoże teraz zawierać jednocześnie wiele części treści (np. fragmenty dźwięku i transkrypcję). Zaktualizuj kod, aby przetwarzać wszystkie części w każdym zdarzeniu, aby nie pominąć treści. - Treść klienta:
send_client_contentjest obsługiwana tylko w przypadku początkowego wypełniania historii kontekstu (wymaga ustawieniainitial_history_in_client_contentwhistory_config). Użyjsend_realtime_input, aby wysyłać aktualizacje tekstu podczas rozmowy. Zobacz Przyrostowe aktualizacje treści. - Pokrycie tury: domyślnie ustawiona jest wartość
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEOzamiastTURN_INCLUDES_ONLY_ACTIVITY. Tura modelu obejmuje teraz wykrytą aktywność audio i wszystkie klatki wideo. Jeśli Twoja aplikacja wysyła obecnie stały strumień klatek wideo, możesz ją zaktualizować, aby wysyłać klatki wideo tylko wtedy, gdy występuje aktywność audio, aby uniknąć dodatkowych kosztów. - Asynchroniczne wywoływanie funkcji: nie jest jeszcze obsługiwane. Wywoływanie funkcji jest tylko synchroniczne. Model nie zacznie odpowiadać, dopóki nie wyślesz odpowiedzi narzędzia. Zobacz Asynchroniczne wywoływanie funkcji.
- Proaktywny dźwięk i dialog afektywny: te funkcje nie są jeszcze obsługiwane w Gemini 3.1 Flash Live. Usuń z kodu konfigurację tych funkcji. Zobacz Proaktywny dźwięk i dialog afektywny.
Szczegółowe porównanie funkcji znajdziesz w tabeli porównania modeli w przewodniku po możliwościach.