Gemini 3.1 Flash TTS (zamiana tekstu na mowę) – wersja testowa

Model Gemini 3.1 Flash TTS Preview zapewnia wydajne generowanie mowy z krótkim czasem oczekiwania, naturalnymi danymi wyjściowymi, sterowalnymi promptami i nowymi ekspresyjnymi tagami audio, które umożliwiają precyzyjne sterowanie narracją.

Dokumentacja

Model Gemini 3.1 Flash TTS Preview wprowadza ekspresyjne tagi audio do sterowania narracją, a także ogólne ulepszenia w zakresie naturalności, sterowalności i wielojęzyczności.

Więcej informacji o funkcjach i możliwościach znajdziesz w przewodniku po syntezie mowy.

gemini-3.1-flash-tts-preview

Właściwość Opis
Kod modelu gemini-3.1-flash-tts-preview
Obsługiwane typy danych

Dane wejściowe

Tekst

Dane wyjściowe

Audio

Limity tokenów[*]

Limit tokenów wejściowych

8192

Limit tokenów wyjściowych

16384

Możliwości

Generowanie dźwięku

Obsługiwane

Interfejs Batch API

Obsługiwane

Zapisywanie w pamięci podręcznej

Nieobsługiwane

Wykonywanie kodu

Nieobsługiwane

Wyszukiwanie plików

Nieobsługiwane

Wywoływanie funkcji

Nieobsługiwane

Powiązanie ze źródłem informacji przy użyciu Map Google

Nieobsługiwane

Generowanie obrazów

Nieobsługiwane

Interfejs Live API

Nieobsługiwane

Szukaj groundingu

Nieobsługiwane

Ustrukturyzowane dane wyjściowe

Nieobsługiwane

Myślę

Nieobsługiwane

Kontekst adresu URL

Nieobsługiwane

Wersje
Więcej informacji znajdziesz w artykule Wzorce wersji modelu.
  • gemini-3.1-flash-tts-preview
Ostatnia aktualizacja Kwiecień 2026 r.
Granica wiedzy Styczeń 2025 r.