Gemini Deep Research jest teraz dostępna w wersji testowej z funkcjami planowania współpracy, wizualizacji, obsługi MCP i nie tylko.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Podgląd na żywo Gemini 3.1 Flash

Gemini 3.1 Flash Live Preview to nasz model audio-audio o niskim opóźnieniu, zoptymalizowany pod kątem dialogu w czasie rzeczywistym i aplikacji AI opartych na głosie, z wykrywaniem niuansów akustycznych, precyzją numeryczną i świadomością multimodalną.

Wypróbuj w Google AI Studio

Dokumentacja

Więcej informacji o funkcjach i możliwościach znajdziesz w przewodniku po interfejsie Live API.

gemini-3.1-flash-live-preview

Właściwość	Opis
Kod modelu	`gemini-3.1-flash-live-preview`
Obsługiwane typy danych	Dane wejściowe Tekst, obrazy, dźwięk, film Dane wyjściowe Tekst i dźwięk
Limity tokenów^[*]	Limit tokenów wejściowych 131 072 Limit tokenów wyjściowych 65 536
Możliwości	Generowanie dźwięku Obsługiwane Interfejs Batch API Nieobsługiwane Zapisywanie w pamięci podręcznej Nieobsługiwane Wykonywanie kodu Nieobsługiwane Wyszukiwanie plików Nieobsługiwane Wywoływanie funkcji Obsługiwane Powiązanie ze źródłem informacji przy użyciu Map Google Nieobsługiwane Generowanie obrazów Nieobsługiwane Interfejs Live API Obsługiwane Szukaj groundingu Obsługiwane Ustrukturyzowane dane wyjściowe Nieobsługiwane Myślę Obsługiwane Kontekst adresu URL Nieobsługiwane
Wersje	Więcej informacji znajdziesz w artykule Wzorce wersji modelu. Wersja testowa: `gemini-3.1-flash-live-preview`
Ostatnia aktualizacja	Marzec 2026 r.
Granica wiedzy	Styczeń 2025 r.

Migracja z Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview jest zoptymalizowany pod kątem dialogu w czasie rzeczywistym z niskim opóźnieniem. Podczas migracji z gemini-2.5-flash-native-audio-preview-12-2025 weź pod uwagę te kwestie:

Ciąg znaków modelu: zaktualizuj ciąg znaków modelu z gemini-2.5-flash-native-audio-preview-12-2025 na gemini-3.1-flash-live-preview.
Konfiguracja myślenia: Gemini 3.1 używa thinkingLevel (z ustawieniami takimi jak minimal, low, medium, i high) zamiast thinkingBudget. Domyślnie jest ustawiona wartość minimal, aby zoptymalizować opóźnienie. Zobacz Poziomy i budżety myślenia.
Zdarzenia serwera: pojedyncze zdarzenie BidiGenerateContentServerContent może teraz zawierać jednocześnie wiele części treści (np. fragmenty dźwięku i transkrypcję). Zaktualizuj kod, aby przetwarzać wszystkie części w każdym zdarzeniu, aby nie pominąć treści.
Treść klienta: send_client_content jest obsługiwana tylko w przypadku początkowego wypełniania historii kontekstu (wymaga ustawienia initial_history_in_client_content w history_config). Użyj send_realtime_input, aby wysyłać aktualizacje tekstu podczas rozmowy. Zobacz Przyrostowe aktualizacje treści.
Pokrycie tury: domyślnie ustawiona jest wartość TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO zamiast TURN_INCLUDES_ONLY_ACTIVITY. Tura modelu obejmuje teraz wykrytą aktywność audio i wszystkie klatki wideo. Jeśli Twoja aplikacja wysyła obecnie stały strumień klatek wideo, możesz ją zaktualizować, aby wysyłać klatki wideo tylko wtedy, gdy występuje aktywność audio, aby uniknąć dodatkowych kosztów.
Asynchroniczne wywoływanie funkcji: nie jest jeszcze obsługiwane. Wywoływanie funkcji jest tylko synchroniczne. Model nie zacznie odpowiadać, dopóki nie wyślesz odpowiedzi narzędzia. Zobacz Asynchroniczne wywoływanie funkcji.
Proaktywny dźwięk i dialog afektywny: te funkcje nie są jeszcze obsługiwane w Gemini 3.1 Flash Live. Usuń z kodu konfigurację tych funkcji. Zobacz Proaktywny dźwięk i dialog afektywny.

Szczegółowe porównanie funkcji znajdziesz w tabeli porównania modeli w przewodniku po możliwościach.