Interfejs Gemini API może przekształcać tekst wejściowy w dźwięk z jednego lub wielu głośników za pomocą natywnych funkcji zamiany tekstu na mowę. Generowanie tekstu na mowę (TTS) jest kontrolowane, co oznacza, że możesz używać języka naturalnego do strukturyzowania interakcji i określania stylu, akcentu, tempa i tonu dźwięku.
Funkcja TTS różni się od generowania mowy za pomocą interfejsu Live API, który jest przeznaczony do interaktywnych, nieustrukturyzowanych danych audio oraz wejść i wyjść multimodalnych. Interfejs Live API sprawdza się w dynamicznych kontekstach konwersacyjnych, a TTS za pomocą interfejsu Gemini API jest dostosowany do scenariuszy, które wymagają dokładnego odczytania tekstu z precyzyjną kontrolą stylu i dźwięku, np. podczas generowania podcastów lub audiobooków.
Z tego przewodnika dowiesz się, jak generować dźwięk z tekstu dla jednego lub wielu mówców.
Zanim zaczniesz
Używaj wariantu modelu Gemini 2.5 z natywną funkcją zamiany tekstu na mowę (TTS), jak podano w sekcji Obsługiwane modele. Aby uzyskać optymalne wyniki, zastanów się, który model najlepiej pasuje do Twojego konkretnego przypadku użycia.
Przed rozpoczęciem tworzenia możesz przetestować modele TTS Gemini 2.5 w AI Studio.
Zamiana tekstu na mowę z jednym głosem
Aby przekonwertować tekst na dźwięk z jednym mówcą, ustaw tryb odpowiedzi na „audio” i przekaż obiekt SpeechConfig z ustawionym parametrem VoiceConfig.
Musisz wybrać nazwę głosu z gotowych głosów wyjściowych.
W tym przykładzie zapisujemy wyjściowy dźwięk z modelu w pliku wave:
Python
from google import genai
from google.genai import types
import wave
# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
with wave.open(filename, "wb") as wf:
wf.setnchannels(channels)
wf.setsampwidth(sample_width)
wf.setframerate(rate)
wf.writeframes(pcm)
client = genai.Client()
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents="Say cheerfully: Have a wonderful day!",
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore',
)
)
),
)
)
data = response.candidates[0].content.parts[0].inline_data.data
file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory
JavaScript
import {GoogleGenAI} from '@google/genai';
import wav from 'wav';
async function saveWaveFile(
filename,
pcmData,
channels = 1,
rate = 24000,
sampleWidth = 2,
) {
return new Promise((resolve, reject) => {
const writer = new wav.FileWriter(filename, {
channels,
sampleRate: rate,
bitDepth: sampleWidth * 8,
});
writer.on('finish', resolve);
writer.on('error', reject);
writer.write(pcmData);
writer.end();
});
}
async function main() {
const ai = new GoogleGenAI({});
const response = await ai.models.generateContent({
model: "gemini-2.5-flash-preview-tts",
contents: [{ parts: [{ text: 'Say cheerfully: Have a wonderful day!' }] }],
config: {
responseModalities: ['AUDIO'],
speechConfig: {
voiceConfig: {
prebuiltVoiceConfig: { voiceName: 'Kore' },
},
},
},
});
const data = response.candidates?.[0]?.content?.parts?.[0]?.inlineData?.data;
const audioBuffer = Buffer.from(data, 'base64');
const fileName = 'out.wav';
await saveWaveFile(fileName, audioBuffer);
}
await main();
REST
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-X POST \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{
"text": "Say cheerfully: Have a wonderful day!"
}]
}],
"generationConfig": {
"responseModalities": ["AUDIO"],
"speechConfig": {
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Kore"
}
}
}
},
"model": "gemini-2.5-flash-preview-tts",
}' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
base64 --decode >out.pcm
# You may need to install ffmpeg.
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav
Zamiana tekstu na mowę z wieloma głosami
W przypadku dźwięku z wielu głośników potrzebujesz obiektu MultiSpeakerVoiceConfig, w którym każdy głośnik (maksymalnie 2) jest skonfigurowany jako SpeakerVoiceConfig.
Każdy element speaker musisz zdefiniować za pomocą tych samych nazw, które zostały użyte w prompcie:
Python
from google import genai
from google.genai import types
import wave
# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
with wave.open(filename, "wb") as wf:
wf.setnchannels(channels)
wf.setsampwidth(sample_width)
wf.setframerate(rate)
wf.writeframes(pcm)
client = genai.Client()
prompt = """TTS the following conversation between Joe and Jane:
Joe: How's it going today Jane?
Jane: Not too bad, how about you?"""
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
types.SpeakerVoiceConfig(
speaker='Joe',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore',
)
)
),
types.SpeakerVoiceConfig(
speaker='Jane',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Puck',
)
)
),
]
)
)
)
)
data = response.candidates[0].content.parts[0].inline_data.data
file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory
JavaScript
import {GoogleGenAI} from '@google/genai';
import wav from 'wav';
async function saveWaveFile(
filename,
pcmData,
channels = 1,
rate = 24000,
sampleWidth = 2,
) {
return new Promise((resolve, reject) => {
const writer = new wav.FileWriter(filename, {
channels,
sampleRate: rate,
bitDepth: sampleWidth * 8,
});
writer.on('finish', resolve);
writer.on('error', reject);
writer.write(pcmData);
writer.end();
});
}
async function main() {
const ai = new GoogleGenAI({});
const prompt = `TTS the following conversation between Joe and Jane:
Joe: How's it going today Jane?
Jane: Not too bad, how about you?`;
const response = await ai.models.generateContent({
model: "gemini-2.5-flash-preview-tts",
contents: [{ parts: [{ text: prompt }] }],
config: {
responseModalities: ['AUDIO'],
speechConfig: {
multiSpeakerVoiceConfig: {
speakerVoiceConfigs: [
{
speaker: 'Joe',
voiceConfig: {
prebuiltVoiceConfig: { voiceName: 'Kore' }
}
},
{
speaker: 'Jane',
voiceConfig: {
prebuiltVoiceConfig: { voiceName: 'Puck' }
}
}
]
}
}
}
});
const data = response.candidates?.[0]?.content?.parts?.[0]?.inlineData?.data;
const audioBuffer = Buffer.from(data, 'base64');
const fileName = 'out.wav';
await saveWaveFile(fileName, audioBuffer);
}
await main();
REST
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-X POST \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{
"text": "TTS the following conversation between Joe and Jane:
Joe: Hows it going today Jane?
Jane: Not too bad, how about you?"
}]
}],
"generationConfig": {
"responseModalities": ["AUDIO"],
"speechConfig": {
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [{
"speaker": "Joe",
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Kore"
}
}
}, {
"speaker": "Jane",
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Puck"
}
}
}]
}
}
},
"model": "gemini-2.5-flash-preview-tts",
}' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
base64 --decode > out.pcm
# You may need to install ffmpeg.
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav
Sterowanie stylem mowy za pomocą promptów
Możesz kontrolować styl, ton, akcent i tempo za pomocą promptów w języku naturalnym w przypadku zamiany tekstu na mowę z jednym lub wieloma mówcami. Na przykład w prompcie z jednym mówcą możesz powiedzieć:
Say in an spooky whisper:
"By the pricking of my thumbs...
Something wicked this way comes"
W prompcie z wieloma osobami mówiącymi podaj modelowi imię każdej z nich i odpowiednią transkrypcję. Możesz też podać wskazówki dla każdego głośnika z osobna:
Make Speaker1 sound tired and bored, and Speaker2 sound excited and happy:
Speaker1: So... what's on the agenda today?
Speaker2: You're never going to guess!
Aby jeszcze bardziej podkreślić styl lub emocje, które chcesz przekazać, użyj opcji głosu, która do nich pasuje. Na przykład w poprzednim prompcie oddech Enceladusa może podkreślać „zmęczenie” i „znudzenie”, a radosny ton Pucka może uzupełniać „podekscytowanie” i „radość”.
Generowanie promptu do przekształcenia tekstu w audio
Modele TTS generują tylko dźwięk, ale możesz użyć innych modeli, aby najpierw wygenerować transkrypcję, a potem przekazać ją do modelu TTS, który ją odczyta.
Python
from google import genai
from google.genai import types
client = genai.Client()
transcript = client.models.generate_content(
model="gemini-2.0-flash",
contents="""Generate a short transcript around 100 words that reads
like it was clipped from a podcast by excited herpetologists.
The hosts names are Dr. Anya and Liam.""").text
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents=transcript,
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
types.SpeakerVoiceConfig(
speaker='Dr. Anya',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore',
)
)
),
types.SpeakerVoiceConfig(
speaker='Liam',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Puck',
)
)
),
]
)
)
)
)
# ...Code to stream or save the output
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const transcript = await ai.models.generateContent({
model: "gemini-2.0-flash",
contents: "Generate a short transcript around 100 words that reads like it was clipped from a podcast by excited herpetologists. The hosts names are Dr. Anya and Liam.",
})
const response = await ai.models.generateContent({
model: "gemini-2.5-flash-preview-tts",
contents: transcript,
config: {
responseModalities: ['AUDIO'],
speechConfig: {
multiSpeakerVoiceConfig: {
speakerVoiceConfigs: [
{
speaker: "Dr. Anya",
voiceConfig: {
prebuiltVoiceConfig: {voiceName: "Kore"},
}
},
{
speaker: "Liam",
voiceConfig: {
prebuiltVoiceConfig: {voiceName: "Puck"},
}
}
]
}
}
}
});
}
// ..JavaScript code for exporting .wav file for output audio
await main();
Opcje głosowe
Modele TTS obsługują te 30 opcji głosowych w polu voice_name:
| Zephyr – jasny | Puck – Upbeat | Charon – zawiera przydatne informacje |
| Kore – firma | Fenrir – pobudliwy | Leda – młodzieńczy |
| Orus – firma | Aoede – Breezy | Callirrhoe – spokojny |
| Autonoe – jasny | Enceladus – Breathy | Iapetus – Wyczyść |
| Umbriel – spokojny | Algieba – gładka | Despina – Smooth |
| Erinome – Wyczyść | Algenib – Gravelly | Rasalgethi – zawiera przydatne informacje |
| Laomedeia – Upbeat | Achernar – Soft | Alnilam – Firm |
| Schedar – Równomierna | Gacrux – treści dla dorosłych | Pulcherrima – przekaż dalej |
| Achird – przyjazny | Zubenelgenubi – zwykłe | Vindemiatrix – delikatny |
| Sadachbia – Lively | Sadaltager – znający się na rzeczy | Sulafat – ciepły |
Wszystkie opcje głosowe możesz usłyszeć w AI Studio.
Obsługiwane języki
Modele TTS automatycznie wykrywają język wejściowy. Obsługują one te 24 języki:
| Język | Kod BCP-47 | Język | Kod BCP-47 |
|---|---|---|---|
| arabski (egipski), | ar-EG |
niemiecki (Niemcy) | de-DE |
| angielski (USA) | en-US |
hiszpański (USA) | es-US |
| francuski (Francja) | fr-FR |
hindi (Indie) | hi-IN |
| indonezyjski (Indonezja) | id-ID |
włoski (Włochy) | it-IT |
| japoński (Japonia) | ja-JP |
koreański (Korea) | ko-KR |
| portugalski (Brazylia) | pt-BR |
rosyjski (Rosja) | ru-RU |
| niderlandzki (Holandia) | nl-NL |
polski (Polska) | pl-PL |
| tajski (Tajlandia) | th-TH |
turecki (Turcja) | tr-TR |
| wietnamski (Wietnam) | vi-VN |
rumuński (Rumunia) | ro-RO |
| ukraiński (Ukraina) | uk-UA |
bengalski (Bangladesz) | bn-BD |
| angielski (Indie) | Pakiet en-IN i hi-IN |
marathi (Indie) | mr-IN |
| tamilski (Indie) | ta-IN |
telugu (Indie) | te-IN |
Obsługiwane modele
| Model | Pojedynczy rozmówca | Wielogłośnikowy |
|---|---|---|
| Gemini 2.5 Flash Preview TTS | ✔️ | ✔️ |
| Wersja testowa Gemini 2.5 Pro TTS | ✔️ | ✔️ |
Ograniczenia
- Modele TTS mogą otrzymywać tylko dane wejściowe w postaci tekstu i generować dane wyjściowe w postaci dźwięku.
- Sesja TTS ma limit okna kontekstu wynoszący 32 tys. tokenów.
- W sekcji Języki znajdziesz informacje o obsługiwanych językach.
Przewodnik po promptach
Model Gemini Native Audio Generation Text-to-Speech (TTS) różni się od tradycyjnych modeli TTS tym, że korzysta z dużego modelu językowego, który wie nie tylko, co powiedzieć, ale też jak to zrobić.
Aby odblokować tę funkcję, użytkownicy mogą wyobrazić sobie, że są reżyserami, którzy przygotowują scenę dla wirtualnego aktora głosowego. Aby utworzyć prompt, zalecamy uwzględnienie tych elementów: profilu audio, który określa podstawową tożsamość i archetyp postaci; opisu sceny, który określa środowisko fizyczne oraz emocjonalny „klimat”; oraz notatek reżysera, które zawierają bardziej precyzyjne wskazówki dotyczące stylu, akcentu i tempa.
Dzięki podawaniu szczegółowych instrukcji, takich jak precyzyjny akcent regionalny, określone cechy paralingwistyczne (np. oddechowość) lub tempo, użytkownicy mogą wykorzystywać świadomość kontekstu modelu do generowania wysoce dynamicznych, naturalnych i ekspresyjnych nagrań audio. Aby uzyskać optymalną skuteczność, zalecamy, aby transkrypcja i wskazówki reżyserskie były zgodne, czyli aby „kto to mówi” odpowiadało „co jest mówione” i „jak to jest mówione”.
Celem tego przewodnika jest dostarczenie podstawowych wskazówek i inspiracji podczas tworzenia treści audio z wykorzystaniem generowania dźwięku za pomocą technologii Gemini TTS. Z niecierpliwością czekamy na Twoje dzieła.
Struktura promptu
Dobry prompt powinien zawierać te elementy, które razem tworzą świetny wynik:
- Profil audio – określa profil głosu, definiując tożsamość postaci, archetyp i inne cechy, takie jak wiek, pochodzenie itp.
- Scena – przygotowuje scenę. Opisuje zarówno środowisko fizyczne, jak i „klimat”.
- Notatki reżysera – wskazówki dotyczące skuteczności, w których możesz określić, na które instrukcje wirtualny talent powinien zwrócić uwagę. Są to m.in. styl, oddech, tempo, artykulacja i akcent.
- Przykładowy kontekst – zapewnia modelowi kontekstowy punkt wyjścia, dzięki czemu wirtualny aktor wchodzi na scenę w naturalny sposób.
- Transkrypcja – tekst, który model odczyta na głos. Aby uzyskać najlepsze wyniki, pamiętaj, że temat transkrypcji i styl pisania powinny być powiązane z podawanymi przez Ciebie wskazówkami.
Przykładowy pełny prompt:
# AUDIO PROFILE: Jaz R.
## "The Morning Hype"
## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to wake
up an entire nation.
### DIRECTOR'S NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
* Dynamics: High projection without shouting. Punchy consonants and elongated
vowels on excitement words (e.g., "Beauuutiful morning").
Pace: Speaks at an energetic pace, keeping up with the fast music. Speaks
with A "bouncing" cadence. High-speed delivery with fluid transitions — no dead
air, no gaps.
Accent: Jaz is from Brixton, London
### SAMPLE CONTEXT
Jaz is the industry standard for Top 40 radio, high-octane event promos, or any
script that requires a charismatic Estuary accent and 11/10 infectious energy.
#### TRANSCRIPT
Yes, massive vibes in the studio! You are locked in and it is absolutely
popping off in London right now. If you're stuck on the tube, or just sat
there pretending to work... stop it. Seriously, I see you. Turn this up!
We've got the project roadmap landing in three, two... let's go!
Szczegółowe strategie dotyczące promptów
Przyjrzyjmy się bliżej każdemu elementowi prompta.
Profil audio
Krótko opisz osobowość postaci.
- Nazwa Nadanie postaci imienia pomoże modelowi i zwiększy spójność wyników. Odwołuj się do postaci po imieniu, gdy opisujesz scenę i kontekst.
- Rola Podstawowa tożsamość i archetyp postaci, która występuje w scenie, np. DJ radiowy, podcaster, reporter itp.
Przykłady:
# AUDIO PROFILE: Jaz R.
## "The Morning Hype"
# AUDIO PROFILE: Monica A.
## "The Beauty Influencer"
Sceneria
Określ kontekst sceny, w tym lokalizację, nastrój i szczegóły środowiska, które nadają ton i klimat. Opisz, co dzieje się wokół postaci i jak to na nią wpływa. Scena zapewnia kontekst środowiskowy dla całej interakcji i w subtelny, naturalny sposób kieruje grą aktorską.
Przykłady:
## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to
wake up an entire nation.
## THE SCENE: Homegrown Studio
A meticulously sound-treated bedroom in a suburban home. The space is
deadened by plush velvet curtains and a heavy rug, but there is a
distinct "proximity effect."
Notatki reżysera
Ta ważna sekcja zawiera szczegółowe wskazówki dotyczące skuteczności. Możesz pominąć wszystkie inne elementy, ale zalecamy uwzględnienie tego elementu.
Określ tylko to, co jest ważne dla skuteczności, uważając, aby nie przesadzić. Zbyt wiele ścisłych reguł ograniczy kreatywność modeli i może pogorszyć ich skuteczność. Zrównoważ opis roli i sceny z konkretnymi zasadami wykonania.
Najczęstsze wskazówki to Styl, tempo i akcent, ale model nie jest do nich ograniczony ani nie wymaga ich stosowania. Możesz dodać niestandardowe instrukcje, aby uwzględnić dodatkowe szczegóły ważne dla skuteczności, i podać tyle informacji, ile uznasz za konieczne.
Na przykład:
### DIRECTOR'S NOTES
Style: Enthusiastic and Sassy GenZ beauty YouTuber
Pacing: Speaks at an energetic pace, keeping up with the extremely fast, rapid
delivery influencers use in short form videos.
Accent: Southern california valley girl from Laguna Beach |
Styl:
Określa ton i styl wygenerowanej mowy. Wybierz np. „radosny”, „energiczny”, „zrelaksowany”, „znudzony” itp., aby nadać kierunek wykonaniu. Opisz je i podaj jak najwięcej szczegółów: „Zaraźliwy entuzjazm. Słuchacz powinien mieć wrażenie, że uczestniczy w wielkim, ekscytującym wydarzeniu społecznościowym”. jest lepsze niż po prostu „energetyczny i entuzjastyczny”.
Możesz nawet spróbować terminów popularnych w branży voiceover, takich jak „uśmiech w głosie”. Możesz nałożyć na siebie dowolną liczbę cech stylu.
Przykłady:
Simple Emotion
DIRECTORS NOTES
...
Style: Frustrated and angry developer who can't get the build to run.
...
Większa głębia
DIRECTORS NOTES
...
Style: Sassy GenZ beauty YouTuber, who mostly creates content for YouTube Shorts.
...
Złożony
DIRECTORS NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
*Dynamics: High projection without shouting. Punchy consonants and
elongated vowels on excitement words (e.g., "Beauuutiful morning").
Akcent:
Opisz pożądany akcent. Im bardziej szczegółowe informacje podasz, tym lepsze będą wyniki. Na przykład użyj „akcentu brytyjskiego angielskiego, jakiego używa się w Croydon w Anglii” zamiast „akcentu brytyjskiego”.
Przykłady:
### DIRECTORS NOTES
...
Accent: Southern california valley girl from Laguna Beach
...
### DIRECTORS NOTES
...
Accent: Jaz is a from Brixton, London
...
Tempo:
ogólne tempo i jego zmiany w całym utworze;
Przykłady:
Prosty
### DIRECTORS NOTES
...
Pacing: Speak as fast as possible
...
Większa głębia
### DIRECTORS NOTES
...
Pacing: Speaks at a faster, energetic pace, keeping up with fast paced music.
...
Złożony
### DIRECTORS NOTES
...
Pacing: The "Drift": The tempo is incredibly slow and liquid. Words bleed into each other. There is zero urgency.
...
Wypróbuj
Wypróbuj te przykłady w AI Studio, pobaw się naszą aplikacją TTS i pozwól Gemini wcielić się w rolę reżysera. Aby uzyskać świetne wykonanie wokalne, pamiętaj o tych wskazówkach:
- Pamiętaj, aby cały prompt był spójny – scenariusz i instrukcje są ze sobą ściśle powiązane i wspólnie tworzą świetne wykonanie.
- Nie musisz opisywać wszystkiego. Czasami pozostawienie modelu przestrzeni do wypełnienia luk pomaga w naturalności. (jak utalentowany aktor)
- Jeśli utkniesz w martwym punkcie, poproś Gemini o pomoc w przygotowaniu scenariusza lub występu.
Co dalej?
- Wypróbuj przepis na generowanie dźwięku.
- Interfejs Live API Gemini oferuje interaktywne opcje generowania dźwięku, które możesz przeplatać z innymi trybami.
- Informacje o pracy z wejściowymi danymi audio znajdziesz w przewodniku Rozumienie dźwięku.