API для взаимодействия теперь общедоступн. Мы рекомендуем использовать этот API для доступа ко всем новейшим функциям и моделям.

Эта страница переведена с помощью Cloud Translation API.

Генерация речи из текста (TTS)

API Gemini позволяет преобразовывать текстовый ввод в аудиопоток с одним или несколькими говорящими, используя возможности генерации речи (TTS) Gemini. Генерация речи (TTS) является управляемой , то есть вы можете использовать естественный язык для структурирования взаимодействия и управления стилем , акцентом , темпом и тоном аудио.

Функция преобразования текста в речь (TTS) отличается от генерации речи, предоставляемой через Live API , которая предназначена для интерактивного, неструктурированного аудио и многомодальных входных и выходных данных. В то время как Live API превосходно подходит для динамичных разговорных контекстов, TTS через Gemini API разработана для сценариев, требующих точного воспроизведения текста с тонкой настройкой стиля и звучания, таких как создание подкастов или аудиокниг.

В этом руководстве показано, как создавать аудиозаписи с одним или несколькими говорящими из текста.

Прежде чем начать

Убедитесь, что вы используете модель Gemini 2.5 с поддержкой преобразования текста в речь (TTS) Gemini, указанную в разделе «Поддерживаемые модели» . Для достижения оптимальных результатов определите, какая модель лучше всего подходит для ваших конкретных задач.

Возможно, вам будет полезно [протестировать модели синтеза речи Gemini 2.5 в AI Studio].

Синхронизация речи и речи с одним динамиком

Для преобразования текста в аудиопоток от одного говорящего установите режим ответа на "аудио" и передайте объект speech_config с именем голоса. Вам потребуется выбрать имя голоса из предварительно созданных выходных голосов .

В этом примере выходной аудиофайл модели сохраняется в формате WAV:

Python

from google import genai
import wave
import base64

def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
    with wave.open(filename, "wb") as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(sample_width)
        wf.setframerate(rate)
        wf.writeframes(pcm)

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.1-flash-tts-preview",
    input="Say cheerfully: Have a wonderful day!",
    response_format={"type": "audio"},
    generation_config={
        "speech_config": [
            {"voice": "Kore"}
        ]
    }
)

wave_file('out.wav', base64.b64decode(interaction.output_audio.data))

JavaScript

import {GoogleGenAI} from '@google/genai';
import wav from 'wav';

async function saveWaveFile(
   filename,
   pcmData,
   channels = 1,
   rate = 24000,
   sampleWidth = 2,
) {
   return new Promise((resolve, reject) => {
      const writer = new wav.FileWriter(filename, {
            channels,
            sampleRate: rate,
            bitDepth: sampleWidth * 8,
      });

      writer.on('finish', resolve);
      writer.on('error', reject);

      writer.write(pcmData);
      writer.end();
   });
}

async function main() {
   const client = new GoogleGenAI({});

   const interaction = await client.interactions.create({
      model: "gemini-3.1-flash-tts-preview",
      input: "Say cheerfully: Have a wonderful day!",
      response_format: { type: 'audio' },
      generation_config: {
         speech_config: [
            { voice: 'Kore' }
         ]
      },
    });

   const audioBuffer = Buffer.from(interaction.output_audio.data, 'base64');

   await saveWaveFile('out.wav', audioBuffer);
}
await main();

ОТДЫХ

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-3.1-flash-tts-preview",
    "input": "Say cheerfully: Have a wonderful day!",
    "response_format": {
       "type": "audio"
     },
    "generation_config": {
      "speech_config": [
        { "voice": "Kore" }
      ]
    }
  }'

Вы можете получить сгенерированные аудиоданные, используя свойство interaction.output_audio , которое возвращает последний сгенерированный аудиоблок. Подробную информацию об удобных свойствах см. в обзоре взаимодействий .

Многоканальное синтезирование речи

Для многоканального аудио вам потребуется объект multi_speaker_voice_config , в котором каждый динамик (до 2) будет настроен как speaker_voice_config . Необходимо указать для каждого speaker те же имена, что и в командной строке :

Python

from google import genai
import wave
import base64

def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

client = genai.Client()

prompt = """TTS the following conversation between Joe and Jane:
         Joe: How's it going today Jane?
         Jane: Not too bad, how about you?"""

 interaction = client.interactions.create(
     model="gemini-3.1-flash-tts-preview",
     input=prompt,
     response_format={"type": "audio"},
     generation_config={
         "speech_config": [
             {"speaker": "Joe", "voice": "Kore"},
             {"speaker": "Jane", "voice": "Puck"}
         ]
     }
 )

wave_file('out.wav', base64.b64decode(interaction.output_audio.data))

JavaScript

import {GoogleGenAI} from '@google/genai';
import wav from 'wav';

async function saveWaveFile(
   filename,
   pcmData,
   channels = 1,
   rate = 24000,
   sampleWidth = 2,
) {
   return new Promise((resolve, reject) => {
      const writer = new wav.FileWriter(filename, {
            channels,
            sampleRate: rate,
            bitDepth: sampleWidth * 8,
      });

      writer.on('finish', resolve);
      writer.on('error', reject);

      writer.write(pcmData);
      writer.end();
   });
}

async function main() {
   const client = new GoogleGenAI({});

   const prompt = `TTS the following conversation between Joe and Jane:
         Joe: How's it going today Jane?
         Jane: Not too bad, how about you?`;

   const interaction = await client.interactions.create({
      model: "gemini-3.1-flash-tts-preview",
      input: prompt,
      response_format: { type: 'audio' },
      generation_config: {
         speech_config: [
            { speaker: 'Joe', voice: 'Kore' },
            { speaker: 'Jane', voice: 'Puck' }
         ]
      },
   });

   const audioBuffer = Buffer.from(interaction.output_audio.data, 'base64');

   await saveWaveFile('out.wav', audioBuffer);
}

await main();

ОТДЫХ

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "gemini-3.1-flash-tts-preview",
  "input": "TTS the following conversation between Joe and Jane: Joe: Hows it going today Jane? Jane: Not too bad, how about you?",
  "response_format": {
       "type": "audio"
     },
  "generation_config": {
    "speech_config": [
      { "speaker": "Joe", "voice": "Kore" },
      { "speaker": "Jane", "voice": "Puck" }
    ]
  }
}'

Управляйте стилем речи с помощью подсказок.

Вы можете управлять стилем, тоном, акцентом и темпом речи, используя подсказки на естественном языке как для синтеза речи с одним говорящим, так и с несколькими. Например, в подсказке для одного говорящего вы можете сказать:

Say in an spooky whisper:
"By the pricking of my thumbs...
Something wicked this way comes"

В задании с участием нескольких говорящих укажите модели имена каждого говорящего и соответствующие стенограммы. Вы также можете дать указания каждому говорящему индивидуально:

Make Speaker1 sound tired and bored, and Speaker2 sound excited and happy:

Speaker1: So... what's on the agenda today?
Speaker2: You're never going to guess!

Попробуйте использовать вариант голоса , соответствующий стилю или эмоции, которую вы хотите передать, чтобы еще больше подчеркнуть ее. Например, в предыдущем примере хриплый голос Энцелада может подчеркнуть слова «усталость» и «скука», а бодрый тон Пака — слова «возбуждение» и «радость».

Сгенерировать запрос на преобразование в аудиоформат.

Модели TTS воспроизводят только аудио, но вы можете использовать другие модели для предварительного создания транскрипции, а затем передать эту транскрипцию модели TTS для озвучивания.

Python

from google import genai

client = genai.Client()

transcript_interaction = client.interactions.create(
   model="gemini-3.5-flash",
   input="""Generate a short transcript around 100 words that reads
            like it was clipped from a podcast by excited herpetologists.
            The hosts names are Dr. Anya and Liam."""
)
transcript = transcript_interaction.output_text

tts_interaction = client.interactions.create(
   model="gemini-3.1-flash-tts-preview",
   input=transcript,
   response_format={"type": "audio"},
   generation_config={
      "speech_config": [
         {"speaker": "Dr. Anya", "voice": "Kore"},
         {"speaker": "Liam", "voice": "Puck"}
      ]
   }
)

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

async function main() {

const transcriptInteraction = await client.interactions.create({
   model: "gemini-3.5-flash",
   input: "Generate a short transcript around 100 words that reads like it was clipped from a podcast by excited herpetologists. The hosts names are Dr. Anya and Liam.",
   })

const ttsInteraction = await client.interactions.create({
   model: "gemini-3.1-flash-tts-preview",
   input: transcriptInteraction.output_text,
   response_format: { type: 'audio' },
   generation_config: {
      speech_config: [
         { speaker: "Dr. Anya", voice: "Kore" },
         { speaker: "Liam", voice: "Puck" }
      ]
   }
  });
}

await main();

Генерация потокового речи

Вы можете транслировать сгенерированный звук по мере его создания моделью, установив stream: true .

Python

from google import genai
import base64

client = genai.Client()

stream = client.interactions.create(
    model="gemini-3.1-flash-tts-preview",
    input="Say cheerfully: Have a wonderful day!",
    response_format={"type": "audio"},
    generation_config={
        "speech_config": [
            {"voice": "Kore"}
        ]
    },
    stream=True
)

for event in stream:
    if event.event_type == "step.delta":
        if event.delta.type == "audio":
            audio_data = base64.b64decode(event.delta.data)
            # Process the audio chunk (e.g. play it or write to a file)

JavaScript

import {GoogleGenAI} from '@google/genai';

async function main() {
   const client = new GoogleGenAI({});

   const stream = await client.interactions.create({
      model: "gemini-3.1-flash-tts-preview",
      input: "Say cheerfully: Have a wonderful day!",
      response_format: { type: 'audio' },
      generation_config: {
         speech_config: [
            { voice: 'Kore' }
         ]
      },
      stream: true
   });

   for await (const event of stream) {
      if (event.event_type === 'step.delta') {
         if (event.delta.type === 'audio') {
            const audioBuffer = Buffer.from(event.delta.data, 'base64');
            // Process the audio buffer
         }
      }
   }
}
await main();

ОТДЫХ

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions"       -H "x-goog-api-key: $GEMINI_API_KEY"       -H "Content-Type: application/json"       -H "Api-Revision: 2026-05-20"       --no-buffer       -d '{
    "model": "gemini-3.1-flash-tts-preview",
    "input": "Say cheerfully: Have a wonderful day!",
    "response_format": {
      "type": "audio"
    },
    "generation_config": {
      "speech_config": [
        { "voice": "Kore" }
      ]
    },
    "stream": true
  }'

Варианты голосового управления

Модели TTS поддерживают следующие 30 вариантов голоса в поле voice_name :

Зефир -- Яркий	Пак — оптимистичный	Харон — информативный
Коре -- Фирма	Фенрир — Возбудимый	Леда — Юная
Орус — Фирма	Аоэде -- Бризи	Каллирро — добродушный
Автоное — Яркое	Энцелад — Хрипловатый	Япет — Ясный
Умбриэль — добродушный	Алгиеба -- Гладкая	Деспина -- Гладкая
Эрином -- Чистый	Алгениб -- Грейвли	Расалгети — информативный
Лаомедея — оптимистичная	Ахернар — Мягкий	Альнилам -- Фирма
Шедар — даже	Гакрукс — зрелый	Пульчеррима -- Нападающий
Ахирд — Дружелюбный	Зубенельгенуби -- Повседневный	Виндемиатрикс -- Нежная
Садахбия -- Оживлённый	Садалтагер — знающий специалист	Сулафат -- Теплый

Вы можете прослушать все варианты озвучки в

Поддерживаемые языки

Модели синтеза речи автоматически определяют язык ввода. Поддерживаются следующие языки:

Язык	Код BCP-47	Язык	Код BCP-47
арабский	ар	филиппинский	фил
Бенгальский	бн	финский	фи
Голландский	нл	галисийский	гл
Английский	эн	грузинский	ка
Французский	фр	греческий	эль
немецкий	де	гуджарати	гу
хинди	привет	гаитянский креольский	хт
индонезийский	идентификатор	иврит	он
итальянский	это	венгерский	ху
японский	джа	исландский	является
корейский	ко	яванский	джв
маратхи	Мистер	Каннада	кн
польский	пл	Конкани	кок
португальский	пт	Лао	ло
румынский	ро	латинский	ла
Русский	ру	латышский	lv
испанский	эс	литовский	лт
тамильский	та	люксембургский	фунт
телугу	те	македонский	мк
Тайский	т	Майтхили	май
турецкий	тр	малагасийский	мг
украинский	Великобритания	малайский	РС
вьетнамский	ви	Малаялам	мл
африкаанс	аф	монгольский	мн
албанский	кв.	непальский	не
амхарский	являюсь	норвежский, букмол	нб
армянский	хай	Норвежский, Нюнорск	нн
азербайджанский	аз	Одиа	или
Баскский	Евросоюз	пушту	пс
белорусский	быть	персидский	фа
болгарский	бг	Пенджаби	па
бирманский	мой	сербский	ст.
каталанский	ка	Синдхи	sd
Себуано	себ	сингальский	си
Китайский, мандаринский диалект китайского языка	смн	словацкий	ск
хорватский	ч	словенский	сл
чешский	кс	суахили	sw
датский	да	шведский	св
эстонский	и	урду	ур

Поддерживаемые модели

Модель	Один динамик	Многоканальный
Gemini 3.1 Flash TTS Preview	✔️	✔️
Gemini 2.5 Flash Preview TTS	✔️	✔️
Gemini 2.5 Pro Preview TTS	✔️	✔️

Руководство по подсказкам

Модель преобразования текста в речь (TTS) Gemini Native Audio Generation отличается от традиционных моделей TTS использованием обширной языковой модели, которая знает не только что сказать, но и как это сказать .

Расширенные подсказки можно рассматривать как системную инструкцию для модели. Это способ предоставить модели больше контекста и контроля над её работой.

Чтобы разблокировать эту возможность, пользователи могут представить себя режиссерами, создающими сцену для виртуального актера озвучивания. Для создания сценария мы рекомендуем учитывать следующие компоненты: аудиопрофиль , определяющий основную идентичность и архетип персонажа; описание сцены , устанавливающее физическую обстановку и эмоциональную «атмосферу»; и заметки режиссера , предлагающие более точные указания по стилю, акценту и темпу исполнения.

Предоставляя точные инструкции, такие как указание регионального акцента, специфических паралингвистических особенностей (например, придыхания) или темпа речи, пользователи могут использовать контекстную осведомленность модели для создания высокодинамичных, естественных и выразительных аудиозаписей. Для оптимальной работы мы рекомендуем согласовывать подсказки в расшифровке и подсказки режиссера, чтобы «кто это говорит» соответствовало «что это говорится» и «как это говорится».

Цель этого руководства — предложить основные направления и вдохновить на новые идеи при разработке аудиоконтента с использованием генератора аудио Gemini TTS. Мы с нетерпением ждём ваших творений!

Аудиотеги

Теги — это встроенные модификаторы, такие как [whispers] или [laughs] , которые позволяют точно контролировать подачу речи. С их помощью можно изменить тон, темп и эмоциональную атмосферу строки или фрагмента текста. Также их можно использовать для добавления междометий и других невербальных звуков, таких как [cough] , [sighs] или [gasp] .

Не существует исчерпывающего списка того, какие теги работают, а какие нет, поэтому мы рекомендуем поэкспериментировать с различными эмоциями и выражениями, чтобы увидеть, как меняется результат.

Если ваша расшифровка не на английском языке, для достижения наилучших результатов мы рекомендуем использовать аудиотеги на английском языке.

Проявите креативность при использовании аудиотегов.

Чтобы показать, насколько разнообразным может быть звучание с помощью аудиотегов, приведем несколько примеров, в которых говорится одно и то же, но манера подачи меняется в зависимости от используемых тегов.

Вы можете изменить акцент в речи, добавив в начале строки теги, которые могут вызвать у говорящего возбуждение, скуку или нежелание:

[excitedly] Привет! Я новая модель преобразования текста в речь, и я могу говорить разными способами. Чем я могу вам сегодня помочь?
[bored] Привет! Я новая модель преобразования текста в речь…
[reluctantly] Привет! Я новая модель преобразования текста в речь…

Теги также могут использоваться для изменения темпа изложения или для сочетания темпа с акцентированием внимания:

[very fast] Привет! Я новая модель преобразования текста в речь…
[very slow] Привет! Я новая модель преобразования текста в речь…
[sarcastically, one painfully slow word at a time] Привет, я новая модель преобразования текста в речь…

Вы также можете точно контролировать отдельные фрагменты, то есть можете прошептать одну часть и крикнуть другую.

[whispers] Привет, я новая модель преобразования текста в речь, [shouting] и я могу говорить разными способами. [whispers] Чем я могу вам сегодня помочь?

Вы также можете экспериментировать с любой творческой идеей, которая вам понравится:

[like a cartoon dog] Привет! Я новая модель преобразования текста в речь…
[like dracula] Привет! Я новая модель преобразования текста в речь…

К числу часто используемых тегов относятся:

`[amazed]`	`[crying]`	`[curious]`	`[excited]`
`[sighs]`	`[gasp]`	`[giggles]`	`[laughs]`
`[mischievously]`	`[panicked]`	`[sarcastic]`	`[serious]`
`[shouting]`	`[tired]`	`[trembling]`	`[whispers]`

Теги позволяют быстро контролировать подачу вашей стенограммы. Для еще большего контроля вы можете комбинировать их с контекстной подсказкой, чтобы задать общий тон и атмосферу выступления.

Побуждающая структура

В идеале, хорошо продуманное задание должно включать следующие элементы, которые в совокупности создают великолепное выступление:

Аудиопрофиль — формирует образ голоса, определяя характер, архетип и любые другие характеристики, такие как возраст, происхождение и т. д.
Описание обстановки — создает атмосферу. Описывает как физическое окружение, так и общую «атмосферу».
Заметки режиссера — рекомендации по исполнению, в которых вы можете указать, какие указания важны для виртуального актера. Примеры: стиль, дыхание, темп, артикуляция и акцент.
Пример контекста — задаёт модели контекстную отправную точку, благодаря чему ваш виртуальный актёр естественным образом попадает в созданную вами сцену.
Текст расшифровки — это текст, который модель будет произносить. Для достижения наилучших результатов помните, что тема расшифровки и стиль письма должны соответствовать вашим указаниям.
Аудиометки — это модификаторы, которые можно добавить в расшифровку, чтобы изменить способ воспроизведения той или иной части текста, например, [whispers] или [shouting] .

Пример полного текста запроса:

# AUDIO PROFILE: Jaz R.
## "The Morning Hype"

## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to wake
up an entire nation.

### DIRECTOR'S NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
* Dynamics: High projection without shouting. Punchy consonants and elongated
vowels on excitement words (e.g., "Beauuutiful morning").

Pace: Speaks at an energetic pace, keeping up with the fast music.  Speaks
with A "bouncing" cadence. High-speed delivery with fluid transitions - no dead
air, no gaps.

Accent: Jaz is from Brixton, London

### SAMPLE CONTEXT
Jaz is the industry standard for Top 40 radio, high-octane event promos, or any
script that requires a charismatic Estuary accent and 11/10 infectious energy.

#### TRANSCRIPT
Yes, massive vibes in the studio! You are locked in and it is absolutely
popping off in London right now. If you're stuck on the tube, or just sat
there pretending to work... stop it. Seriously, I see you. Turn this up!
We've got the project roadmap landing in three, two... let's go!

Подробные стратегии подсказок

Разберите каждый элемент задания следующим образом:

Аудиопрофиль

Кратко опишите характер персонажа.

Имя. Присвоение имени персонажу помогает создать целостную модель и обеспечить гармоничное взаимодействие с игрой актеров. Обращайтесь к персонажу по имени при описании сцены и контекста.
Роль. Основная идентичность и архетип персонажа, разыгрывающего сцену. Например, радиоведущий, подкастер, новостной репортер и т. д.

Примеры:

# AUDIO PROFILE: Jaz R.
## "The Morning Hype"

# AUDIO PROFILE: Monica A.
## "The Beauty Influencer"

Сцена

Опишите контекст сцены, включая место действия, настроение и детали окружающей среды, которые задают тон и атмосферу. Опишите, что происходит вокруг персонажа и как это на него влияет. Сцена создает контекст для всего взаимодействия и тонко, органично направляет актерскую игру.

Примеры:

## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to
wake up an entire nation.

## THE SCENE: Homegrown Studio
A meticulously sound-treated bedroom in a suburban home. The space is
deadened by plush velvet curtains and a heavy rug, but there is a
distinct "proximity effect."

Примечания директора

Этот важный раздел содержит конкретные рекомендации по выполнению задания. Вы можете пропустить все остальные элементы, но мы рекомендуем включить этот раздел.

Определяйте только то, что важно для исполнения, стараясь не переусложнять. Слишком много строгих правил ограничит творческий потенциал моделей и может привести к ухудшению исполнения. Сбалансируйте описание роли и сцены с конкретными правилами исполнения.

Наиболее распространенные указания касаются стиля, темпа и акцента , но модель не ограничивается ими и не требует их соблюдения. Вы можете добавить собственные инструкции, охватывающие любые дополнительные детали, важные для вашего выступления, и указать их в той степени, в какой это необходимо.

Например:

### DIRECTOR'S NOTES

Style: Enthusiastic and Sassy GenZ beauty YouTuber

Pacing: Speaks at an energetic pace, keeping up with the extremely fast, rapid
delivery influencers use in short form videos.

Accent: Southern california valley girl from Laguna Beach |

Стиль:

Задает тон и стиль создаваемой речи. Включите такие слова, как «оптимистичный», «энергичный», «расслабленный», «скучный» и т. д., чтобы направлять выступление. Будьте описательны и предоставьте как можно больше деталей: «Заразительный энтузиазм. Слушатель должен почувствовать себя частью масштабного, захватывающего общественного события» звучит лучше, чем «энергичный и восторженный».

Вы даже можете попробовать термины, популярные в индустрии озвучивания, например, «голосовая улыбка». Вы можете накладывать столько стилистических особенностей, сколько захотите.

Примеры:

Простая эмоция

DIRECTORS NOTES
...
Style: Frustrated and angry developer who can't get the build to run.
...

Более глубокая

DIRECTORS NOTES
...
Style: Sassy GenZ beauty YouTuber, who mostly creates content for YouTube Shorts.
...

Сложный

DIRECTORS NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
*Dynamics: High projection without shouting. Punchy consonants and
elongated vowels on excitement words (e.g., "Beauuutiful morning").

Акцент:

Опишите выбранный акцент. Чем точнее вы укажете, тем лучше будет результат. Например, используйте « британский английский акцент, как его слышат в Кройдоне, Англия » вместо « британский акцент ».

Примеры:

### DIRECTORS NOTES
...
Accent: Southern california valley girl from Laguna Beach
...

### DIRECTORS NOTES
...
Accent: Jaz is a from Brixton, London
...

Темп:

Общий темп и вариации темпа на протяжении всего произведения.

Примеры:

Простой

### DIRECTORS NOTES
...
Pacing: Speak as fast as possible
...

Более глубокая

### DIRECTORS NOTES
...
Pacing: Speaks at a faster, energetic pace, keeping up with fast paced music.
...

Сложный

### DIRECTORS NOTES
...
Pacing: The "Drift": The tempo is incredibly slow and liquid. Words bleed into each other. There is zero urgency.
...

Попробуйте

Попробуйте сами некоторые из этих примеров в приложении TTS , и Gemini поможет вам почувствовать себя режиссером. Помните об этих советах, чтобы создавать великолепные вокальные выступления:

Помните, что весь текст должен быть связным – сценарий и режиссура неразрывно связаны между собой и создают великолепное представление.
Не обязательно описывать всё до мелочей, иногда предоставление модели пространства для самовыражения помогает добиться естественности. (Как и талантливому актеру)
Если вы когда-нибудь почувствуете, что зашли в тупик, попросите Близнецов помочь вам в создании сценария или выступления.

Ограничения

Модели TTS могут только принимать текстовый ввод и генерировать аудиовыход.
В рамках сессии синтеза речи (TTS) существует ограничение на контекстное окно в 32 000 токенов.
Для получения информации о доступных языках ознакомьтесь с разделом «Языки».
Функция преобразования текста в речь (TTS) не поддерживает потоковую передачу, за исключением случаев использования gemini-3.1-flash-tts-preview .

При использовании модели Gemini 3.1 Flash TTS Preview для генерации речи действуют следующие ограничения:

Несоответствие голоса инструкциям: Вывод модели может не всегда точно соответствовать выбранному говорящему, из-за чего звук может звучать иначе, чем ожидалось. Чтобы избежать несоответствия тонов (например, низкий мужской голос, пытающийся говорить как молодая девушка), убедитесь, что тон и контекст вашей инструкции естественным образом соответствуют профилю выбранного говорящего.
Качество более длинных текстов: Качество и согласованность речи могут начать ухудшаться при создании текстов, длительность которых превышает несколько минут. Мы рекомендуем разбивать ваши расшифровки на более мелкие фрагменты.
Периодически возвращаются текстовые токены: модель иногда возвращает текстовые токены вместо аудиотокенов, что приводит к ошибке 500 на сервере. Поскольку это происходит случайным образом в очень небольшом проценте запросов, вам следует реализовать в своем приложении автоматическую логику повторных попыток для обработки таких случаев.
Ложные отклонения классификатора подсказок: Нечеткие подсказки могут не активировать классификатор синтеза речи, что приведет к отклонению запроса ( PROHIBITED_CONTENT ) или к тому, что модель будет зачитывать вслух ваши инструкции по стилю и заметки режиссера. Проверьте свои подсказки, добавив четкое предисловие, указывающее модели на необходимость синтеза речи, и явно укажите, где начинается фактическая устная расшифровка.

Что дальше?

API Live от Gemini предлагает интерактивные возможности генерации звука, которые можно комбинировать с другими методами.
Для работы с аудиовходами посетите руководство по пониманию звука .