Gemini 3.1 Flash Live Preview to model audio-to-audio z krótkim czasem oczekiwania, zoptymalizowany pod kątem dialogów w czasie rzeczywistym i aplikacji AI opartych na głosie, z wykrywaniem niuansów akustycznych, precyzją numeryczną i świadomością multimodalną.
Dokumentacja
Pełne informacje o funkcjach i możliwościach znajdziesz w przewodniku po interfejsie Live API.
gemini-3.1-flash-live-preview
| Właściwość | Opis |
|---|---|
| Kod modelu |
gemini-3.1-flash-live-preview
|
| Obsługiwane typy danych |
Dane wejściowe Tekst, obrazy, dźwięk, film Dane wyjściowe Tekst i dźwięk |
| Limity tokenów[*] |
Limit tokenów wejściowych 131 072 Limit tokenów wyjściowych 65 536 |
| Uprawnienia |
Obsługiwane Zapisywanie w pamięci podręcznej Nieobsługiwane Nieobsługiwane Nieobsługiwane Obsługiwane Powiązanie ze źródłami informacji przy użyciu Map Google Nieobsługiwane Nieobsługiwane Obsługiwane Obsługiwane Ustrukturyzowane dane wyjściowe Nieobsługiwane Obsługiwane Nieobsługiwane |
| Opcje wykorzystania |
Nieobsługiwane |
| Wersje |
|
| Ostatnia aktualizacja | Marzec 2026 r. |
| Granica wiedzy | Styczeń 2025 r. |
Migracja z Gemini 2.5 Flash Live
Gemini 3.1 Flash Live Preview jest zoptymalizowany pod kątem dialogów w czasie rzeczywistym z krótkim czasem oczekiwania.
Podczas migracji z gemini-2.5-flash-native-audio-preview-12-2025 weź pod uwagę te kwestie:
- Ciąg znaków modelu: zaktualizuj ciąg znaków modelu z
gemini-2.5-flash-native-audio-preview-12-2025nagemini-3.1-flash-live-preview. - Konfiguracja myślenia: Gemini 3.1 używa
thinkingLevel(z ustawieniami takimi jakminimal,low,medium, ihigh) zamiastthinkingBudget. Domyślnie jest ustawiona wartośćminimal, aby zoptymalizować czas oczekiwania. Zobacz Poziomy i budżety myślenia. - Zdarzenia serwera: pojedyncze zdarzenie
BidiGenerateContentServerContentmoże teraz zawierać jednocześnie wiele części treści (np. fragmenty dźwięku i transkrypcję). Zaktualizuj kod, aby przetwarzać wszystkie części w każdym zdarzeniu, aby nie pominąć treści. - Treść klienta:
send_client_contentjest obsługiwana tylko w przypadku inicjowania początkowej historii kontekstu (wymaga ustawieniainitial_history_in_client_contentwhistory_config). Użyjsend_realtime_input, aby wysyłać aktualizacje tekstu podczas rozmowy. Zobacz Przyrostowe aktualizacje treści. - Pokrycie tury: domyślnie ustawiona jest wartość
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEOzamiastTURN_INCLUDES_ONLY_ACTIVITY. Tura modelu obejmuje teraz wykrytą aktywność audio i wszystkie klatki wideo. Jeśli Twoja aplikacja wysyła obecnie stały strumień klatek wideo, możesz ją zaktualizować, aby wysyłać klatki wideo tylko wtedy, gdy występuje aktywność audio, aby uniknąć dodatkowych kosztów. - Asynchroniczne wywoływanie funkcji: nie jest jeszcze obsługiwane. Wywoływanie funkcji jest tylko synchroniczne. Model nie zacznie odpowiadać, dopóki nie wyślesz odpowiedzi narzędzia. Zobacz Asynchroniczne wywoływanie funkcji.
- Proaktywny dźwięk i dialog afektywny: te funkcje nie są jeszcze obsługiwane w Gemini 3.1 Flash Live. Usuń z kodu konfigurację tych funkcji. Zobacz Proaktywny dźwięk i Dialog afektywny.
Szczegółowe porównanie funkcji znajdziesz w tabeli Porównanie modeli (atrybucji) w przewodniku po uprawnieniach.