تولید گفتار (متن به گفتار)

رابط برنامه‌نویسی نرم‌افزار Gemini می‌تواند ورودی متن را با استفاده از قابلیت‌های تولید متن به گفتار (TTS) به صدای تک‌گوینده یا چندگوینده تبدیل کند. تولید متن به گفتار (TTS) قابل کنترل است، به این معنی که می‌توانید از زبان طبیعی برای ساختاردهی تعاملات و هدایت سبک ، لهجه ، سرعت و لحن صدا استفاده کنید.

قابلیت TTS با تولید گفتار ارائه شده از طریق Live API که برای ورودی‌ها و خروجی‌های تعاملی، بدون ساختار و چندوجهی طراحی شده است، متفاوت است. در حالی که Live API در زمینه‌های مکالمه پویا برتری دارد، TTS از طریق Gemini API برای سناریوهایی که نیاز به قرائت دقیق متن با کنترل دقیق بر سبک و صدا دارند، مانند تولید پادکست یا کتاب صوتی، مناسب است.

این راهنما به شما نشان می‌دهد که چگونه از متن، صدای تک‌گوینده و چندگوینده تولید کنید.

قبل از اینکه شروع کنی

مطمئن شوید که از مدل Gemini 2.5 با قابلیت تبدیل متن به گفتار (TTS) بومی، همانطور که در بخش مدل‌های پشتیبانی‌شده ذکر شده است، استفاده می‌کنید. برای نتایج بهینه، در نظر بگیرید که کدام مدل به بهترین وجه با مورد استفاده خاص شما مطابقت دارد.

ممکن است قبل از شروع ساخت، آزمایش مدل‌های Gemini 2.5 TTS در AI Studio مفید باشد.

تبدیل متن به گفتار تک‌گوینده

برای تبدیل متن به صدای تک‌گوینده، حالت پاسخ را روی "audio" تنظیم کنید و یک شیء SpeechConfig را با مجموعه VoiceConfig ارسال کنید. باید نام صدا را از میان صداهای خروجی از پیش ساخته شده انتخاب کنید.

این مثال صدای خروجی از مدل را در یک فایل wave ذخیره می‌کند:

پایتون

from google import genai
from google.genai import types
import wave

# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

client = genai.Client()

response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents="Say cheerfully: Have a wonderful day!",
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         voice_config=types.VoiceConfig(
            prebuilt_voice_config=types.PrebuiltVoiceConfig(
               voice_name='Kore',
            )
         )
      ),
   )
)

data = response.candidates[0].content.parts[0].inline_data.data

file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory

جاوا اسکریپت

import {GoogleGenAI} from '@google/genai';
import wav from 'wav';

async function saveWaveFile(
   filename,
   pcmData,
   channels = 1,
   rate = 24000,
   sampleWidth = 2,
) {
   return new Promise((resolve, reject) => {
      const writer = new wav.FileWriter(filename, {
            channels,
            sampleRate: rate,
            bitDepth: sampleWidth * 8,
      });

      writer.on('finish', resolve);
      writer.on('error', reject);

      writer.write(pcmData);
      writer.end();
   });
}

async function main() {
   const ai = new GoogleGenAI({});

   const response = await ai.models.generateContent({
      model: "gemini-2.5-flash-preview-tts",
      contents: [{ parts: [{ text: 'Say cheerfully: Have a wonderful day!' }] }],
      config: {
            responseModalities: ['AUDIO'],
            speechConfig: {
               voiceConfig: {
                  prebuiltVoiceConfig: { voiceName: 'Kore' },
               },
            },
      },
   });

   const data = response.candidates?.[0]?.content?.parts?.[0]?.inlineData?.data;
   const audioBuffer = Buffer.from(data, 'base64');

   const fileName = 'out.wav';
   await saveWaveFile(fileName, audioBuffer);
}
await main();

استراحت

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
        "contents": [{
          "parts":[{
            "text": "Say cheerfully: Have a wonderful day!"
          }]
        }],
        "generationConfig": {
          "responseModalities": ["AUDIO"],
          "speechConfig": {
            "voiceConfig": {
              "prebuiltVoiceConfig": {
                "voiceName": "Kore"
              }
            }
          }
        },
        "model": "gemini-2.5-flash-preview-tts",
    }' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
          base64 --decode >out.pcm
# You may need to install ffmpeg.
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav

تبدیل متن به گفتار چند گوینده

برای صدای چند بلندگو، به یک شیء MultiSpeakerVoiceConfig نیاز دارید که هر بلندگو (حداکثر ۲) به عنوان SpeakerVoiceConfig پیکربندی شده باشد. باید هر speaker با همان نام‌های استفاده شده در اعلان تعریف کنید:

پایتون

from google import genai
from google.genai import types
import wave

# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

client = genai.Client()

prompt = """TTS the following conversation between Joe and Jane:
         Joe: How's it going today Jane?
         Jane: Not too bad, how about you?"""

response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents=prompt,
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
            speaker_voice_configs=[
               types.SpeakerVoiceConfig(
                  speaker='Joe',
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Kore',
                     )
                  )
               ),
               types.SpeakerVoiceConfig(
                  speaker='Jane',
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Puck',
                     )
                  )
               ),
            ]
         )
      )
   )
)

data = response.candidates[0].content.parts[0].inline_data.data

file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory

جاوا اسکریپت

import {GoogleGenAI} from '@google/genai';
import wav from 'wav';

async function saveWaveFile(
   filename,
   pcmData,
   channels = 1,
   rate = 24000,
   sampleWidth = 2,
) {
   return new Promise((resolve, reject) => {
      const writer = new wav.FileWriter(filename, {
            channels,
            sampleRate: rate,
            bitDepth: sampleWidth * 8,
      });

      writer.on('finish', resolve);
      writer.on('error', reject);

      writer.write(pcmData);
      writer.end();
   });
}

async function main() {
   const ai = new GoogleGenAI({});

   const prompt = `TTS the following conversation between Joe and Jane:
         Joe: How's it going today Jane?
         Jane: Not too bad, how about you?`;

   const response = await ai.models.generateContent({
      model: "gemini-2.5-flash-preview-tts",
      contents: [{ parts: [{ text: prompt }] }],
      config: {
            responseModalities: ['AUDIO'],
            speechConfig: {
               multiSpeakerVoiceConfig: {
                  speakerVoiceConfigs: [
                        {
                           speaker: 'Joe',
                           voiceConfig: {
                              prebuiltVoiceConfig: { voiceName: 'Kore' }
                           }
                        },
                        {
                           speaker: 'Jane',
                           voiceConfig: {
                              prebuiltVoiceConfig: { voiceName: 'Puck' }
                           }
                        }
                  ]
               }
            }
      }
   });

   const data = response.candidates?.[0]?.content?.parts?.[0]?.inlineData?.data;
   const audioBuffer = Buffer.from(data, 'base64');

   const fileName = 'out.wav';
   await saveWaveFile(fileName, audioBuffer);
}

await main();

استراحت

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
  "contents": [{
    "parts":[{
      "text": "TTS the following conversation between Joe and Jane:
                Joe: Hows it going today Jane?
                Jane: Not too bad, how about you?"
    }]
  }],
  "generationConfig": {
    "responseModalities": ["AUDIO"],
    "speechConfig": {
      "multiSpeakerVoiceConfig": {
        "speakerVoiceConfigs": [{
            "speaker": "Joe",
            "voiceConfig": {
              "prebuiltVoiceConfig": {
                "voiceName": "Kore"
              }
            }
          }, {
            "speaker": "Jane",
            "voiceConfig": {
              "prebuiltVoiceConfig": {
                "voiceName": "Puck"
              }
            }
          }]
      }
    }
  },
  "model": "gemini-2.5-flash-preview-tts",
}' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
    base64 --decode > out.pcm
# You may need to install ffmpeg.
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav

کنترل سبک گفتار با استفاده از دستورالعمل‌ها

شما می‌توانید سبک، لحن، لهجه و سرعت را با استفاده از پیام‌های زبان طبیعی برای هر دو نوع TTS تک‌گوینده و چندگوینده کنترل کنید. برای مثال، در یک پیام تک‌گوینده، می‌توانید بگویید:

Say in an spooky whisper:
"By the pricking of my thumbs...
Something wicked this way comes"

در یک پرسش چند گوینده، نام هر گوینده و متن مربوط به آن را در اختیار مدل قرار دهید. همچنین می‌توانید برای هر گوینده به صورت جداگانه راهنمایی ارائه دهید:

Make Speaker1 sound tired and bored, and Speaker2 sound excited and happy:

Speaker1: So... what's on the agenda today?
Speaker2: You're never going to guess!

سعی کنید از گزینه صوتی استفاده کنید که با سبک یا احساسی که می‌خواهید منتقل کنید مطابقت داشته باشد تا آن را بیشتر تأکید کنید. برای مثال، در سوال قبلی، صدای نفس‌گیر انسلادوس ممکن است بر «خسته» و «بی‌حوصله» تأکید کند، در حالی که لحن شاد پاک می‌تواند مکمل «هیجان‌زده» و «خوشحال» باشد.

ایجاد یک اعلان برای تبدیل به صدا

مدل‌های TTS فقط صدا را خروجی می‌دهند، اما می‌توانید از مدل‌های دیگر برای تولید متن اولیه استفاده کنید، سپس آن متن را به مدل TTS منتقل کنید تا با صدای بلند بخواند.

پایتون

from google import genai
from google.genai import types

client = genai.Client()

transcript = client.models.generate_content(
   model="gemini-2.0-flash",
   contents="""Generate a short transcript around 100 words that reads
            like it was clipped from a podcast by excited herpetologists.
            The hosts names are Dr. Anya and Liam.""").text

response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents=transcript,
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
            speaker_voice_configs=[
               types.SpeakerVoiceConfig(
                  speaker='Dr. Anya',
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Kore',
                     )
                  )
               ),
               types.SpeakerVoiceConfig(
                  speaker='Liam',
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Puck',
                     )
                  )
               ),
            ]
         )
      )
   )
)

# ...Code to stream or save the output

جاوا اسکریپت

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {

const transcript = await ai.models.generateContent({
   model: "gemini-2.0-flash",
   contents: "Generate a short transcript around 100 words that reads like it was clipped from a podcast by excited herpetologists. The hosts names are Dr. Anya and Liam.",
   })

const response = await ai.models.generateContent({
   model: "gemini-2.5-flash-preview-tts",
   contents: transcript,
   config: {
      responseModalities: ['AUDIO'],
      speechConfig: {
         multiSpeakerVoiceConfig: {
            speakerVoiceConfigs: [
                   {
                     speaker: "Dr. Anya",
                     voiceConfig: {
                        prebuiltVoiceConfig: {voiceName: "Kore"},
                     }
                  },
                  {
                     speaker: "Liam",
                     voiceConfig: {
                        prebuiltVoiceConfig: {voiceName: "Puck"},
                    }
                  }
                ]
              }
            }
      }
  });
}
// ..JavaScript code for exporting .wav file for output audio

await main();

گزینه‌های صوتی

مدل‌های TTS از 30 گزینه صوتی زیر در فیلد voice_name پشتیبانی می‌کنند:

زفیر -- روشن پک -- خوش‌بین شارون -- آموزنده
کره -- شرکت فنریر -- هیجان‌انگیز لدا -- جوان
اوروس -- شرکت آئوده -- نسیم ملایم کالیرو -- آسان‌گیر
اتونو -- روشن انسلادوس -- نفس‌گیر یاپتوس -- شفاف
آمبریل -- آسان‌گیر آلگیبا -- صاف دسپینا -- صاف
ارینوم -- پاک آلگنیب -- شنی رسالگتی -- آموزنده
لائومدیا -- خوش‌بین آخنار -- نرم آلنیلام -- شرکت
شِدار -- حتی گاکروکس -- بالغ پولچریما -- مهاجم
آچیرد -- دوستانه Zubenelgenubi -- غیررسمی ویندمیاتریکس -- ملایم
ساداچیبیا -- سرزنده سدالتاگر - آگاه سولفات -- گرم

شما می‌توانید تمام گزینه‌های صدا را در AI Studio بشنوید.

زبان‌های پشتیبانی‌شده

مدل‌های TTS زبان ورودی را به‌طور خودکار تشخیص می‌دهند. آن‌ها از ۲۴ زبان زیر پشتیبانی می‌کنند:

زبان کد BCP-47 زبان کد BCP-47
عربی (مصری) ar-EG آلمانی (آلمان) de-DE
انگلیسی (آمریکایی) en-US اسپانیایی (آمریکایی) es-US
فرانسوی (فرانسه) fr-FR هندی (هند) hi-IN
اندونزیایی (اندونزیایی) id-ID ایتالیایی (ایتالیا) it-IT
ژاپنی (ژاپن) ja-JP کره‌ای (کره) ko-KR
پرتغالی (برزیل) pt-BR روسی (روسیه) ru-RU
هلندی (هلند) nl-NL لهستانی (لهستان) pl-PL
تایلندی (تایلند) th-TH ترکی (ترکیه) tr-TR
ویتنامی (ویتنام) vi-VN رومانیایی (رومانیایی) ro-RO
اوکراینی (اوکراین) uk-UA بنگالی (بنگلادش) bn-BD
انگلیسی (هند) بسته en-IN و hi-IN مراتی (هند) mr-IN
تامیل (هند) ta-IN تلوگو (هند) te-IN

مدل‌های پشتیبانی‌شده

مدل تک بلندگو چند بلندگو
پیش‌نمایش فلش Gemini 2.5 TTS ✔️ ✔️
پیش‌نمایش Gemini 2.5 Pro TTS ✔️ ✔️

محدودیت‌ها

  • مدل‌های TTS فقط می‌توانند ورودی‌های متنی را دریافت کرده و خروجی‌های صوتی تولید کنند.
  • یک جلسه TTS محدودیت پنجره زمینه ۳۲ هزار توکن دارد.
  • برای پشتیبانی از زبان، بخش زبان‌ها را مرور کنید.

راهنمای راهنمایی

مدل تبدیل متن به گفتار (TTS) نسل بومی صوتی Gemini با استفاده از یک مدل زبانی بزرگ که نه تنها می‌داند چه بگوید، بلکه می‌داند چگونه آن را بگوید، خود را از مدل‌های سنتی TTS متمایز می‌کند.

برای فعال کردن این قابلیت، کاربران می‌توانند خود را به عنوان کارگردانانی در نظر بگیرند که صحنه‌ای را برای اجرای یک صدای مجازی آماده می‌کنند. برای ایجاد یک متن، توصیه می‌کنیم اجزای زیر را در نظر بگیرید: یک پروفایل صوتی که هویت اصلی و الگوی اصلی شخصیت را تعریف می‌کند؛ یک توصیف صحنه که محیط فیزیکی و "حال و هوای" احساسی را مشخص می‌کند؛ و یادداشت‌های کارگردان که راهنمایی دقیق‌تری در مورد سبک، لهجه و کنترل سرعت ارائه می‌دهد.

با ارائه دستورالعمل‌های ظریف مانند لهجه منطقه‌ای دقیق، ویژگی‌های خاص فرازبانی (مثلاً نفس‌نفس زدن) یا سرعت گفتار، کاربران می‌توانند از آگاهی از زمینه مدل برای تولید اجراهای صوتی بسیار پویا، طبیعی و رسا استفاده کنند. برای عملکرد بهینه، توصیه می‌کنیم متن و دستورالعمل‌های کارگردانی با هم هماهنگ باشند، به طوری که «چه کسی آن را می‌گوید» با «چه چیزی گفته می‌شود» و «چگونه گفته می‌شود» مطابقت داشته باشد.

هدف از این راهنما، ارائه جهت‌گیری‌های اساسی و جرقه زدن ایده‌ها هنگام توسعه تجربیات صوتی با استفاده از نسل صوتی Gemini TTS است. ما از دیدن آنچه شما خلق می‌کنید، هیجان‌زده‌ایم!

ساختار انگیزشی

یک متن قوی در حالت ایده‌آل شامل عناصر زیر است که برای خلق یک اجرای عالی گرد هم می‌آیند:

  • نمایه صوتی - شخصیتی برای صدا ایجاد می‌کند، هویت شخصیت، آرکتایپ و سایر ویژگی‌های آن مانند سن، پیشینه و غیره را تعریف می‌کند.
  • صحنه - صحنه را آماده می‌کند. هم محیط فیزیکی و هم «حال و هوا» را توصیف می‌کند.
  • یادداشت‌های کارگردان - راهنمای اجرا که در آن می‌توانید دستورالعمل‌هایی را که برای استعداد مجازی شما مهم است، تفکیک کنید. به عنوان مثال می‌توان به سبک، تنفس، سرعت، بیان و لهجه اشاره کرد.
  • زمینه نمونه - به مدل یک نقطه شروع زمینه‌ای می‌دهد، بنابراین بازیگر مجازی شما به طور طبیعی وارد صحنه‌ای که شما تنظیم کرده‌اید می‌شود.
  • متن رونوشت - متنی که مدل در آن صحبت خواهد کرد. برای بهترین عملکرد، به یاد داشته باشید که موضوع متن و سبک نوشتاری باید با دستورالعمل‌هایی که ارائه می‌دهید مرتبط باشد.

مثال کامل از درخواست:

# AUDIO PROFILE: Jaz R.
## "The Morning Hype"

## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to wake
up an entire nation.

### DIRECTOR'S NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
* Dynamics: High projection without shouting. Punchy consonants and elongated
vowels on excitement words (e.g., "Beauuutiful morning").

Pace: Speaks at an energetic pace, keeping up with the fast music.  Speaks
with A "bouncing" cadence. High-speed delivery with fluid transitions — no dead
air, no gaps.

Accent: Jaz is from Brixton, London

### SAMPLE CONTEXT
Jaz is the industry standard for Top 40 radio, high-octane event promos, or any
script that requires a charismatic Estuary accent and 11/10 infectious energy.

#### TRANSCRIPT
Yes, massive vibes in the studio! You are locked in and it is absolutely
popping off in London right now. If you're stuck on the tube, or just sat
there pretending to work... stop it. Seriously, I see you. Turn this up!
We've got the project roadmap landing in three, two... let's go!

استراتژی‌های دقیق برای ترغیب

بیایید هر عنصر از این دستور را تجزیه و تحلیل کنیم.

مشخصات صوتی

به طور خلاصه شخصیت پردازی شخصیت را شرح دهید.

  • نام. دادن نام به شخصیت، به انسجام مدل و اجرای دقیق کمک می‌کند. هنگام تنظیم صحنه و زمینه، به شخصیت با نام اشاره کنید.
  • نقش. هویت اصلی و کهن الگوی شخصیتی که در صحنه ایفای نقش می‌کند. مثلاً دی‌جی رادیو، پادکستر، گزارشگر اخبار و غیره.

مثال‌ها:

# AUDIO PROFILE: Jaz R.
## "The Morning Hype"


# AUDIO PROFILE: Monica A.
## "The Beauty Influencer"

صحنه

زمینه صحنه، از جمله مکان، حال و هوا و جزئیات محیطی که لحن و حس و حال را ایجاد می‌کنند، را تعیین کنید. آنچه را که در اطراف شخصیت اتفاق می‌افتد و چگونگی تأثیر آن بر او را شرح دهید. صحنه، زمینه محیطی را برای کل تعامل فراهم می‌کند و اجرای بازیگری را به روشی ظریف و ارگانیک هدایت می‌کند.

مثال‌ها:

## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to
wake up an entire nation.


## THE SCENE: Homegrown Studio
A meticulously sound-treated bedroom in a suburban home. The space is
deadened by plush velvet curtains and a heavy rug, but there is a
distinct "proximity effect."

یادداشت‌های کارگردانان

این بخش حیاتی شامل راهنمایی‌های خاص در مورد عملکرد است. می‌توانید از سایر عناصر صرف نظر کنید، اما توصیه می‌کنیم این عنصر را لحاظ کنید.

فقط آنچه را که برای اجرا مهم است تعریف کنید، مراقب باشید که بیش از حد مشخص نکنید. قوانین سختگیرانه زیاد، خلاقیت مدل‌ها را محدود می‌کند و ممکن است منجر به اجرای بدتری شود. نقش و توصیف صحنه را با قوانین خاص اجرا متعادل کنید.

رایج‌ترین دستورالعمل‌ها عبارتند از سبک، سرعت و لهجه ، اما این مدل به این موارد محدود نمی‌شود و به آنها نیازی هم ندارد. می‌توانید دستورالعمل‌های سفارشی را برای پوشش هرگونه جزئیات اضافی مهم برای اجرای خود اضافه کنید و به هر میزان که لازم است به جزئیات بپردازید.

برای مثال:

### DIRECTOR'S NOTES

Style: Enthusiastic and Sassy GenZ beauty YouTuber

Pacing: Speaks at an energetic pace, keeping up with the extremely fast, rapid
delivery influencers use in short form videos.

Accent: Southern california valley girl from Laguna Beach |

سبک:

لحن و سبک گفتار تولید شده را تنظیم می‌کند. مواردی مانند شاد، پرانرژی، آرام، بی‌حوصله و غیره را برای هدایت اجرا در نظر بگیرید. توصیفی باشید و تا حد امکان جزئیات لازم را ارائه دهید: «شور و شوق مسری. شنونده باید احساس کند که بخشی از یک رویداد اجتماعی عظیم و هیجان‌انگیز است.» بهتر از گفتن ساده «پرانرژی و مشتاق» عمل می‌کند.

شما حتی می‌توانید اصطلاحاتی را که در صنعت صداپیشگی محبوب هستند، مانند «لبخند آوازی» امتحان کنید. می‌توانید هر تعداد ویژگی سبکی که می‌خواهید را لایه‌بندی کنید.

مثال‌ها:

احساسات ساده

DIRECTORS NOTES
...
Style: Frustrated and angry developer who can't get the build to run.
...

عمق بیشتر

DIRECTORS NOTES
...
Style: Sassy GenZ beauty YouTuber, who mostly creates content for YouTube Shorts.
...

پیچیده

DIRECTORS NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
*Dynamics: High projection without shouting. Punchy consonants and
elongated vowels on excitement words (e.g., "Beauuutiful morning").

لهجه:

لهجه مورد نظر را توصیف کنید. هرچه دقیق‌تر توضیح دهید، نتایج بهتری خواهید گرفت. برای مثال، از « لهجه انگلیسی بریتانیایی آنطور که در کرویدون، انگلستان شنیده می‌شود » در مقابل « لهجه بریتانیایی » استفاده کنید.

مثال‌ها:

### DIRECTORS NOTES
...
Accent: Southern california valley girl from Laguna Beach
...


### DIRECTORS NOTES
...
Accent: Jaz is a from Brixton, London
...

سرعت:

ریتم کلی و تنوع ریتم در سراسر قطعه.

مثال‌ها:

ساده

### DIRECTORS NOTES
...
Pacing: Speak as fast as possible
...

عمق بیشتر

### DIRECTORS NOTES
...
Pacing: Speaks at a faster, energetic pace, keeping up with fast paced music.
...

پیچیده

### DIRECTORS NOTES
...
Pacing: The "Drift": The tempo is incredibly slow and liquid. Words bleed into each other. There is zero urgency.
...

امتحانش کن.

خودتان برخی از این مثال‌ها را در AI Studio امتحان کنید، با اپلیکیشن TTS ما کار کنید و اجازه دهید Gemini شما را روی صندلی کارگردانی بنشاند. برای داشتن اجراهای صوتی عالی، این نکات را در نظر داشته باشید:

  • به یاد داشته باشید که کل متن را منسجم نگه دارید - متن و کارگردانی در خلق یک اجرای عالی دست به دست هم می‌دهند.
  • احساس نکنید که باید همه چیز را توصیف کنید، گاهی اوقات دادن فضا به مدل برای پر کردن جاهای خالی به طبیعی بودن کمک می‌کند. (درست مثل یک بازیگر با استعداد)
  • اگر تا به حال احساس گیر افتادن کرده‌اید، از Gemini بخواهید که به شما در نوشتن فیلمنامه یا اجرایتان کمک کند.

قدم بعدی چیست؟