Gemini 3.1 Pro के प्रीव्यू का एलान. Google AI Studio में जाकर, इसे बिना किसी शुल्क के आज़माएं.

लिखे गए शब्दों को सुनने की सुविधा (टीटीएस)

Gemini API, टेक्स्ट इनपुट को एक या एक से ज़्यादा लोगों की आवाज़ वाले ऑडियो में बदल सकता है. इसके लिए, Gemini की टेक्स्ट को ऑडियो में बदलने (टीटीएस) की सुविधा का इस्तेमाल किया जाता है. लिखे गए शब्दों को सुनने की सुविधा (टीटीएस) को कंट्रोल किया जा सकता है. इसका मतलब है कि बातचीत को बेहतर बनाने के लिए, सामान्य भाषा का इस्तेमाल किया जा सकता है. साथ ही, ऑडियो की स्टाइल, उच्चारण, रफ़्तार, और टोन को कंट्रोल किया जा सकता है.

Google AI Studio में आज़माएं

टीटीएस की सुविधा, Live API के ज़रिए उपलब्ध कराई गई स्पीच जनरेशन की सुविधा से अलग होती है. Live API को इंटरैक्टिव, अनस्ट्रक्चर्ड ऑडियो, और मल्टीमॉडल इनपुट और आउटपुट के लिए डिज़ाइन किया गया है. लाइव एपीआई, बातचीत के अलग-अलग संदर्भों में बेहतर काम करता है. वहीं, Gemini API के ज़रिए टीटीएस की सुविधा, उन स्थितियों के लिए तैयार की गई है जिनमें स्टाइल और आवाज़ पर बारीकी से कंट्रोल के साथ, सटीक टेक्स्ट सुनाने की ज़रूरत होती है. जैसे, पॉडकास्ट या ऑडियो बुक जनरेट करना.

इस गाइड में, टेक्स्ट से एक स्पीकर और एक से ज़्यादा स्पीकर वाला ऑडियो जनरेट करने का तरीका बताया गया है.

शुरू करने से पहले

पक्का करें कि आपने Gemini 2.5 मॉडल के ऐसे वैरिएंट का इस्तेमाल किया हो जिसमें Gemini की टेक्स्ट-टू-स्पीच (टीटीएस) की सुविधा उपलब्ध हो. इसके बारे में साथ काम करने वाले मॉडल सेक्शन में बताया गया है. सबसे अच्छे नतीजे पाने के लिए, यह तय करें कि आपके इस्तेमाल के हिसाब से कौनसा मॉडल सबसे सही है.

ऐप्लिकेशन बनाना शुरू करने से पहले, AI Studio में Gemini 2.5 के टीटीएस मॉडल को आज़माना आपके लिए फ़ायदेमंद हो सकता है.

एक व्यक्ति की आवाज़ में टीटीएस

टेक्स्ट को एक स्पीकर वाले ऑडियो में बदलने के लिए, रिस्पॉन्स मोड को "ऑडियो" पर सेट करें. इसके बाद, VoiceConfig सेट किए गए SpeechConfig ऑब्जेक्ट को पास करें. आपको पहले से मौजूद आउटपुट की आवाज़ों में से किसी एक आवाज़ का नाम चुनना होगा.

इस उदाहरण में, मॉडल से मिले आउटपुट ऑडियो को वेव फ़ाइल में सेव किया गया है:

Python

from google import genai
from google.genai import types
import wave

# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

client = genai.Client()

response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents="Say cheerfully: Have a wonderful day!",
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         voice_config=types.VoiceConfig(
            prebuilt_voice_config=types.PrebuiltVoiceConfig(
               voice_name='Kore',
            )
         )
      ),
   )
)

data = response.candidates[0].content.parts[0].inline_data.data

file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory

JavaScript

import {GoogleGenAI} from '@google/genai';
import wav from 'wav';

async function saveWaveFile(
   filename,
   pcmData,
   channels = 1,
   rate = 24000,
   sampleWidth = 2,
) {
   return new Promise((resolve, reject) => {
      const writer = new wav.FileWriter(filename, {
            channels,
            sampleRate: rate,
            bitDepth: sampleWidth * 8,
      });

      writer.on('finish', resolve);
      writer.on('error', reject);

      writer.write(pcmData);
      writer.end();
   });
}

async function main() {
   const ai = new GoogleGenAI({});

   const response = await ai.models.generateContent({
      model: "gemini-2.5-flash-preview-tts",
      contents: [{ parts: [{ text: 'Say cheerfully: Have a wonderful day!' }] }],
      config: {
            responseModalities: ['AUDIO'],
            speechConfig: {
               voiceConfig: {
                  prebuiltVoiceConfig: { voiceName: 'Kore' },
               },
            },
      },
   });

   const data = response.candidates?.[0]?.content?.parts?.[0]?.inlineData?.data;
   const audioBuffer = Buffer.from(data, 'base64');

   const fileName = 'out.wav';
   await saveWaveFile(fileName, audioBuffer);
}
await main();

REST

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
        "contents": [{
          "parts":[{
            "text": "Say cheerfully: Have a wonderful day!"
          }]
        }],
        "generationConfig": {
          "responseModalities": ["AUDIO"],
          "speechConfig": {
            "voiceConfig": {
              "prebuiltVoiceConfig": {
                "voiceName": "Kore"
              }
            }
          }
        },
        "model": "gemini-2.5-flash-preview-tts",
    }' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
          base64 --decode >out.pcm
# You may need to install ffmpeg.
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav

एक से ज़्यादा आवाज़ों में टीटीएस की सुविधा

एक से ज़्यादा स्पीकर से ऑडियो चलाने के लिए, आपको MultiSpeakerVoiceConfig ऑब्जेक्ट की ज़रूरत होगी. इसमें हर स्पीकर (दो तक) को SpeakerVoiceConfig के तौर पर कॉन्फ़िगर किया गया हो. आपको हर speaker को उन नामों से तय करना होगा जिनका इस्तेमाल प्रॉम्प्ट में किया गया है:

Python

from google import genai
from google.genai import types
import wave

# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

client = genai.Client()

prompt = """TTS the following conversation between Joe and Jane:
         Joe: How's it going today Jane?
         Jane: Not too bad, how about you?"""

response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents=prompt,
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
            speaker_voice_configs=[
               types.SpeakerVoiceConfig(
                  speaker='Joe',
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Kore',
                     )
                  )
               ),
               types.SpeakerVoiceConfig(
                  speaker='Jane',
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Puck',
                     )
                  )
               ),
            ]
         )
      )
   )
)

data = response.candidates[0].content.parts[0].inline_data.data

file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory

JavaScript

import {GoogleGenAI} from '@google/genai';
import wav from 'wav';

async function saveWaveFile(
   filename,
   pcmData,
   channels = 1,
   rate = 24000,
   sampleWidth = 2,
) {
   return new Promise((resolve, reject) => {
      const writer = new wav.FileWriter(filename, {
            channels,
            sampleRate: rate,
            bitDepth: sampleWidth * 8,
      });

      writer.on('finish', resolve);
      writer.on('error', reject);

      writer.write(pcmData);
      writer.end();
   });
}

async function main() {
   const ai = new GoogleGenAI({});

   const prompt = `TTS the following conversation between Joe and Jane:
         Joe: How's it going today Jane?
         Jane: Not too bad, how about you?`;

   const response = await ai.models.generateContent({
      model: "gemini-2.5-flash-preview-tts",
      contents: [{ parts: [{ text: prompt }] }],
      config: {
            responseModalities: ['AUDIO'],
            speechConfig: {
               multiSpeakerVoiceConfig: {
                  speakerVoiceConfigs: [
                        {
                           speaker: 'Joe',
                           voiceConfig: {
                              prebuiltVoiceConfig: { voiceName: 'Kore' }
                           }
                        },
                        {
                           speaker: 'Jane',
                           voiceConfig: {
                              prebuiltVoiceConfig: { voiceName: 'Puck' }
                           }
                        }
                  ]
               }
            }
      }
   });

   const data = response.candidates?.[0]?.content?.parts?.[0]?.inlineData?.data;
   const audioBuffer = Buffer.from(data, 'base64');

   const fileName = 'out.wav';
   await saveWaveFile(fileName, audioBuffer);
}

await main();

REST

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
  "contents": [{
    "parts":[{
      "text": "TTS the following conversation between Joe and Jane:
                Joe: Hows it going today Jane?
                Jane: Not too bad, how about you?"
    }]
  }],
  "generationConfig": {
    "responseModalities": ["AUDIO"],
    "speechConfig": {
      "multiSpeakerVoiceConfig": {
        "speakerVoiceConfigs": [{
            "speaker": "Joe",
            "voiceConfig": {
              "prebuiltVoiceConfig": {
                "voiceName": "Kore"
              }
            }
          }, {
            "speaker": "Jane",
            "voiceConfig": {
              "prebuiltVoiceConfig": {
                "voiceName": "Puck"
              }
            }
          }]
      }
    }
  },
  "model": "gemini-2.5-flash-preview-tts",
}' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
    base64 --decode > out.pcm
# You may need to install ffmpeg.
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav

प्रॉम्प्ट की मदद से, बोलने के तरीके को कंट्रोल करना

आम बोलचाल की भाषा में दिए गए प्रॉम्प्ट का इस्तेमाल करके, स्टाइल, टोन, लहजे, और गति को कंट्रोल किया जा सकता है. ऐसा एक और एक से ज़्यादा स्पीकर वाले टीटीएस, दोनों के लिए किया जा सकता है. उदाहरण के लिए, एक स्पीकर वाले प्रॉम्प्ट में यह कहा जा सकता है:

Say in an spooky whisper:
"By the pricking of my thumbs...
Something wicked this way comes"

एक से ज़्यादा स्पीकर वाले प्रॉम्प्ट में, मॉडल को हर स्पीकर का नाम और उससे जुड़ी ट्रांसक्रिप्ट दें. हर स्पीकर के लिए अलग-अलग निर्देश भी दिए जा सकते हैं:

Make Speaker1 sound tired and bored, and Speaker2 sound excited and happy:

Speaker1: So... what's on the agenda today?
Speaker2: You're never going to guess!

अपनी बात को ज़्यादा असरदार बनाने के लिए, आवाज़ के ऐसे विकल्प का इस्तेमाल करें जो आपकी बात की स्टाइल या भावना के मुताबिक हो. उदाहरण के लिए, पिछले प्रॉम्प्ट में एन्सेलडस की सांस लेने की आवाज़ से "थका हुआ" और "उबाऊ" पर ज़ोर दिया जा सकता है. वहीं, पक की तेज़ आवाज़ से "उत्साहित" और "खुश" पर ज़ोर दिया जा सकता है.

टेक्स्ट को ऑडियो में बदलने के लिए प्रॉम्प्ट जनरेट किया जा रहा है

टीटीएस मॉडल सिर्फ़ ऑडियो आउटपुट देते हैं. हालांकि, पहले ट्रांसक्रिप्ट जनरेट करने के लिए अन्य मॉडल का इस्तेमाल किया जा सकता है. इसके बाद, उस ट्रांसक्रिप्ट को टीटीएस मॉडल को पढ़कर सुनाने के लिए भेजा जा सकता है.

Python

from google import genai
from google.genai import types

client = genai.Client()

transcript = client.models.generate_content(
   model="gemini-2.5-flash",
   contents="""Generate a short transcript around 100 words that reads
            like it was clipped from a podcast by excited herpetologists.
            The hosts names are Dr. Anya and Liam.""").text

response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents=transcript,
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
            speaker_voice_configs=[
               types.SpeakerVoiceConfig(
                  speaker='Dr. Anya',
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Kore',
                     )
                  )
               ),
               types.SpeakerVoiceConfig(
                  speaker='Liam',
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Puck',
                     )
                  )
               ),
            ]
         )
      )
   )
)

# ...Code to stream or save the output

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {

const transcript = await ai.models.generateContent({
   model: "gemini-2.5-flash",
   contents: "Generate a short transcript around 100 words that reads like it was clipped from a podcast by excited herpetologists. The hosts names are Dr. Anya and Liam.",
   })

const response = await ai.models.generateContent({
   model: "gemini-2.5-flash-preview-tts",
   contents: transcript,
   config: {
      responseModalities: ['AUDIO'],
      speechConfig: {
         multiSpeakerVoiceConfig: {
            speakerVoiceConfigs: [
                   {
                     speaker: "Dr. Anya",
                     voiceConfig: {
                        prebuiltVoiceConfig: {voiceName: "Kore"},
                     }
                  },
                  {
                     speaker: "Liam",
                     voiceConfig: {
                        prebuiltVoiceConfig: {voiceName: "Puck"},
                    }
                  }
                ]
              }
            }
      }
  });
}
// ..JavaScript code for exporting .wav file for output audio

await main();

आवाज़ के विकल्प

TTS मॉडल, voice_name फ़ील्ड में आवाज़ के इन 30 विकल्पों के साथ काम करते हैं:

Zephyr -- Bright	Puck -- Upbeat	Charon -- Informative
Kore -- Firm	Fenrir -- Excitable	Leda -- Youthful
ओरस -- फ़र्म	Aoede -- Breezy	Callirrhoe -- शांत स्वभाव
ऑटोनो -- तेज रोशनी	Enceladus -- Breathy	Iapetus -- Clear
Umbriel -- Easy-going	Algieba -- Smooth	Despina -- Smooth
Erinome -- Clear	Algenib -- Gravelly	Rasalgethi -- Informative
Laomedeia -- Upbeat	Achernar -- Soft	Alnilam -- Firm
Schedar -- Even	Gacrux -- मैच्योर	Pulcherrima -- Forward
Achird -- Friendly	Zubenelgenubi -- Casual	Vindemiatrix -- जेंटल
Sadachbia -- Lively	Sadaltager -- Knowledgeable	Sulafat -- Warm

AI Studio में जाकर, सभी आवाज़ें सुनी जा सकती हैं.

इस्तेमाल की जा सकने वाली भाषाएं

टीटीएस मॉडल, इनपुट की भाषा का पता अपने-आप लगा लेते हैं. इन भाषाओं में यह सुविधा इस्तेमाल की जा सकती है:

भाषा	BCP-47 कोड	भाषा	BCP-47 कोड
अरबी	ar	फ़िलिपीनो	fil
बांग्ला	bn	फ़िनिश	fi
डच	nl	गैलिसियन	gl
अंग्रेज़ी	en	जॉर्जियन	ka
फ़्रांसीसी	fr	ग्रीक	el
जर्मन	de	गुजराती	gu
हिन्दी	hi	हैतियन क्रिओल	ht
इंडोनेशियन	आईडी	हिब्रू	वह
इटैलियन	it	हंगेरियन	hu
जापानी	ja	आइसलैंडिक	है
कोरियाई	ko	जावानीज़	jv
मराठी	mr	कन्नड़	kn
पोलिश	pl	कोंकणी	kok
पॉर्चुगीज़	pt	लाओ	lo
रोमानियन	ro	लैटिन	la
रूसी	ru	लातवियन	lv
स्पैनिश	es	लिथुएनियन	lt
तमिल	ta	लक्ज़मबर्गिश	lb
तेलुगु	te	मैसेडोनियाई	mk
थाई	th	मैथिली	mai
टर्किश	tr	मैलगासी	mg
उक्रेनियाई	uk	मलय	ms
वियतनामीज़	vi	मलयालम	ml
अफ़्रीकान्स	af	मंगोलियन	mn
अल्बेनियन	sq	नेपाली	ne
अमहैरिक	am	नॉर्वेजियन, बॉकमॉल	nb
आर्मीनियन	hy	नॉर्वेजियन, नायनॉर्स्क	nn
अज़रबैजानी	az	ओड़िया	या
बॉस्क	eu	पश्तो	ps
बेलारूसी	be	फ़ारसी	fa
बल्गैरियन	bg	पंजाबी	pa
बर्मीज़	my	सर्बियन	sr
कैटलैन	ca	सिंधी	sd
सेबुआनो	ceb	सिंहला	si
चाइनीज़, मैंडरिन	cmn	स्लोवाक	sk
क्रोएशियन	घंटा	स्लोवेनियन	sl
चेक	cs	स्वाहिली	sw
डेनिश	da	स्वीडिश	sv
एस्टोनियन	et	उर्दू	ur

काम करने वाले मॉडल

मॉडल	एक व्यक्ति बोल रहा है	मल्टीस्पीकर
Gemini 2.5 Flash Preview TTS	✔️	✔️
Gemini 2.5 Pro Preview TTS	✔️	✔️

सीमाएं

टीटीएस मॉडल, सिर्फ़ टेक्स्ट इनपुट ले सकते हैं और ऑडियो आउटपुट जनरेट कर सकते हैं.
TTS सेशन में, कॉन्टेक्स्ट विंडो की सीमा 32 हज़ार टोकन होती है.
भाषा से जुड़ी सहायता के लिए, भाषाएं सेक्शन देखें.

प्रॉम्प्ट से जुड़ी गाइड

Gemini के नेटिव ऑडियो जनरेशन की सुविधा के साथ काम करने वाला, टेक्स्ट को ऑडियो में बदलने (टीटीएस) वाला मॉडल, पारंपरिक टीटीएस मॉडल से अलग है. ऐसा इसलिए, क्योंकि यह एक लार्ज लैंग्वेज मॉडल का इस्तेमाल करता है. इस मॉडल को यह न सिर्फ़ पता होता है कि क्या बोलना है, बल्कि यह भी पता होता है कि कैसे बोलना है.

इस सुविधा को अनलॉक करने के लिए, उपयोगकर्ता खुद को डायरेक्टर के तौर पर देख सकते हैं. वे वर्चुअल वॉइस टैलेंट के लिए एक सीन सेट कर रहे हैं, ताकि वह परफ़ॉर्म कर सके. हमारा सुझाव है कि प्रॉम्प्ट बनाते समय, इन कॉम्पोनेंट का इस्तेमाल करें: ऑडियो प्रोफ़ाइल, जिसमें किरदार की मुख्य पहचान और टाइप के बारे में बताया गया हो; सीन का ब्यौरा, जिसमें माहौल और किरदार की भावनाओं के बारे में बताया गया हो; और डायरेक्टर के नोट, जिसमें स्टाइल, लहजे, और गति को कंट्रोल करने के बारे में ज़्यादा सटीक जानकारी दी गई हो.

बारीकी से निर्देश देने पर, उपयोगकर्ता मॉडल की कॉन्टेक्स्ट अवेयरनेस का फ़ायदा उठा सकते हैं.जैसे, किसी खास इलाके के लहज़े में बोलना, पैरालिंग्विस्टिक की खास सुविधाओं (जैसे, सांस लेने की आवाज़) का इस्तेमाल करना या बोलने की गति को कम या ज़्यादा करना. इससे, उन्हें डाइनैमिक, नैचुरल, और एक्सप्रेसिव ऑडियो परफ़ॉर्मेंस जनरेट करने में मदद मिलती है. बेहतर परफ़ॉर्मेंस के लिए, हमारा सुझाव है कि ट्रांसक्रिप्ट और निर्देशक के प्रॉम्प्ट एक जैसे हों. इससे "कौन बोल रहा है", "क्या कहा जा रहा है", और "कैसे कहा जा रहा है" के बीच तालमेल बना रहता है.

इस गाइड का मकसद, Gemini की टीटीएस ऑडियो जनरेशन सुविधा का इस्तेमाल करके ऑडियो अनुभव डेवलप करने के बारे में बुनियादी जानकारी देना और आइडिया देना है. हमें यह देखने में खुशी होगी कि आपने क्या बनाया है!

प्रॉम्प्ट का स्ट्रक्चर

एक अच्छे प्रॉम्प्ट में ये एलिमेंट शामिल होने चाहिए, ताकि आपको बेहतर परफ़ॉर्मेंस मिल सके:

ऑडियो प्रोफ़ाइल - इससे आवाज़ की पहचान तय होती है. इसमें किरदार की पहचान, टाइप, और उम्र, बैकग्राउंड वगैरह जैसी अन्य विशेषताएं शामिल होती हैं.
सीन - इससे स्टेज सेट होता है. इसमें आस-पास के माहौल और "वाइब", दोनों के बारे में बताया गया हो.
डायरेक्टर के नोट - परफ़ॉर्मेंस से जुड़े दिशा-निर्देश. यहां यह बताया जा सकता है कि आपके वर्चुअल टैलेंट के लिए किन निर्देशों का पालन करना ज़रूरी है. उदाहरण के लिए, स्टाइल, सांस लेने का तरीका, गति, शब्दों का उच्चारण, और लहजा.
कॉन्टेक्स्ट का सैंपल - इससे मॉडल को कॉन्टेक्स्ट के हिसाब से शुरुआती जानकारी मिलती है, ताकि आपका वर्चुअल ऐक्टर, आपके सेट अप किए गए सीन में नैचुरल तरीके से एंट्री कर सके.
ट्रांसक्रिप्ट - वह टेक्स्ट जिसे मॉडल बोलेगा. बेहतर परफ़ॉर्मेंस के लिए, ध्यान रखें कि ट्रांसक्रिप्ट का विषय और लिखने का तरीका, आपके दिए गए निर्देशों से मेल खाना चाहिए.

पूरे प्रॉम्प्ट का उदाहरण:

# AUDIO PROFILE: Jaz R.
## "The Morning Hype"

## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to wake
up an entire nation.

### DIRECTOR'S NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
* Dynamics: High projection without shouting. Punchy consonants and elongated
vowels on excitement words (e.g., "Beauuutiful morning").

Pace: Speaks at an energetic pace, keeping up with the fast music.  Speaks
with A "bouncing" cadence. High-speed delivery with fluid transitions — no dead
air, no gaps.

Accent: Jaz is from Brixton, London

### SAMPLE CONTEXT
Jaz is the industry standard for Top 40 radio, high-octane event promos, or any
script that requires a charismatic Estuary accent and 11/10 infectious energy.

#### TRANSCRIPT
Yes, massive vibes in the studio! You are locked in and it is absolutely
popping off in London right now. If you're stuck on the tube, or just sat
there pretending to work... stop it. Seriously, I see you. Turn this up!
We've got the project roadmap landing in three, two... let's go!

ज़्यादा जानकारी देने वाली प्रॉम्प्टिंग की रणनीतियां

आइए, प्रॉम्प्ट के हर एलिमेंट के बारे में विस्तार से जानते हैं.

ऑडियो प्रोफ़ाइल

कैरेक्टर के बारे में कम शब्दों में जानकारी दें.

नाम. अपने किरदार को नाम देने से, मॉडल को बेहतर तरीके से काम करने में मदद मिलती है. सीन और कॉन्टेक्स्ट सेट करते समय, किरदार का नाम इस्तेमाल करें
भूमिका. सीन में किरदार की मुख्य पहचान और टाइप. उदाहरण के लिए, रेडियो डीजे, पॉडकास्टर, न्यूज़ रिपोर्टर वगैरह

उदाहरण:

# AUDIO PROFILE: Jaz R.
## "The Morning Hype"

# AUDIO PROFILE: Monica A.
## "The Beauty Influencer"

दृश्य

सीन के लिए कॉन्टेक्स्ट सेट करें. इसमें लोकेशन, मूड, और माहौल की जानकारी शामिल करें. इससे टोन और वाइब तय होती है. बताएं कि किरदार के आस-पास क्या हो रहा है और इसका उस पर क्या असर पड़ रहा है. सीन में, पूरे इंटरैक्शन के लिए एनवायरमेंट का कॉन्टेक्स्ट दिया गया है. साथ ही, ऐक्टिंग को हल्के-फुल्के तरीके से गाइड किया गया है.

उदाहरण:

## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to
wake up an entire nation.

## THE SCENE: Homegrown Studio
A meticulously sound-treated bedroom in a suburban home. The space is
deadened by plush velvet curtains and a heavy rug, but there is a
distinct "proximity effect."

डायरेक्टर के नोट

इस ज़रूरी सेक्शन में, परफ़ॉर्मेंस से जुड़े खास दिशा-निर्देश शामिल होते हैं. आपके पास अन्य सभी एलिमेंट को छोड़ने का विकल्प होता है. हालांकि, हमारा सुझाव है कि आप इस एलिमेंट को शामिल करें.

सिर्फ़ उन चीज़ों को तय करें जो परफ़ॉर्मेंस के लिए ज़रूरी हैं. साथ ही, इस बात का ध्यान रखें कि ज़्यादा जानकारी न दी गई हो. बहुत ज़्यादा सख्त नियम होने पर, मॉडल की क्रिएटिविटी सीमित हो जाएगी. इससे परफ़ॉर्मेंस खराब हो सकती है. भूमिका और सीन की जानकारी के साथ-साथ, परफ़ॉर्मेंस से जुड़े खास नियमों का पालन करें.

आम तौर पर, स्टाइल, पेसिंग, और ऐक्सेंट के बारे में निर्देश दिए जाते हैं. हालांकि, मॉडल को सिर्फ़ इन्हीं के बारे में निर्देश देने की ज़रूरत नहीं है. अपनी परफ़ॉर्मेंस के लिए ज़रूरी किसी भी अतिरिक्त जानकारी को शामिल करने के लिए, कस्टम निर्देश शामिल करें. साथ ही, ज़रूरत के हिसाब से ज़्यादा या कम जानकारी दें.

उदाहरण के लिए:

### DIRECTOR'S NOTES

Style: Enthusiastic and Sassy GenZ beauty YouTuber

Pacing: Speaks at an energetic pace, keeping up with the extremely fast, rapid
delivery influencers use in short form videos.

Accent: Southern california valley girl from Laguna Beach |

स्टाइल:

इससे जनरेट की गई स्पीच की टोन और स्टाइल सेट की जाती है. परफ़ॉर्मेंस को बेहतर बनाने के लिए, इसमें उत्साहित, ऊर्जावान, शांत, बोर वगैरह जैसे शब्द शामिल करें. ज़्यादा से ज़्यादा जानकारी दें: "Infectious enthusiasm. सुनने वाले को ऐसा लगना चाहिए कि वह किसी बड़े और मज़ेदार कम्यूनिटी इवेंट का हिस्सा है.", "ऊर्जावान और उत्साही" कहने से ज़्यादा असरदार है.

इसके अलावा, वॉइसओवर इंडस्ट्री में लोकप्रिय शब्दों का भी इस्तेमाल किया जा सकता है. जैसे, "वोकल स्माइल". स्टाइल की जितनी चाहें उतनी विशेषताएं जोड़ी जा सकती हैं.

उदाहरण:

सिंपल इमोशन

DIRECTORS NOTES
...
Style: Frustrated and angry developer who can't get the build to run.
...

ज़्यादा गहराई

DIRECTORS NOTES
...
Style: Sassy GenZ beauty YouTuber, who mostly creates content for YouTube Shorts.
...

पेचीदा लेवल

DIRECTORS NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
*Dynamics: High projection without shouting. Punchy consonants and
elongated vowels on excitement words (e.g., "Beauuutiful morning").

बोलने का लहजा:

बताएं कि आपको किस ऐक्सेंट में ऑडियो चाहिए. जानकारी जितनी ज़्यादा दी जाएगी, नतीजे उतने ही बेहतर होंगे. उदाहरण के लिए, "ब्रिटिश लहजा" के बजाय "क्रॉयडन, इंग्लैंड में बोले जाने वाले ब्रिटिश लहजे में" का इस्तेमाल करें.

उदाहरण:

### DIRECTORS NOTES
...
Accent: Southern california valley girl from Laguna Beach
...

### DIRECTORS NOTES
...
Accent: Jaz is a from Brixton, London
...

पेसिंग:

पूरे कॉन्टेंट में पेसिंग और पेस में बदलाव.

उदाहरण:

सिंपल

### DIRECTORS NOTES
...
Pacing: Speak as fast as possible
...

ज़्यादा गहराई

### DIRECTORS NOTES
...
Pacing: Speaks at a faster, energetic pace, keeping up with fast paced music.
...

पेचीदा लेवल

### DIRECTORS NOTES
...
Pacing: The "Drift": The tempo is incredibly slow and liquid. Words bleed into each other. There is zero urgency.
...

इसे आज़माएं

इन उदाहरणों को AI Studio पर खुद आज़माएं. हमारे TTS ऐप्लिकेशन का इस्तेमाल करें और Gemini को डायरेक्टर की कुर्सी पर बैठने दें. बेहतरीन परफ़ॉर्मेंस देने के लिए, इन बातों का ध्यान रखें:

ध्यान रखें कि पूरा प्रॉम्प्ट एक जैसा हो. स्क्रिप्ट और निर्देश, दोनों मिलकर एक बेहतरीन परफ़ॉर्मेंस तैयार करते हैं.
आपको हर चीज़ के बारे में बताने की ज़रूरत नहीं है. कभी-कभी, मॉडल को कुछ जानकारी अपने हिसाब से भरने देने से, जवाब ज़्यादा स्वाभाविक लगता है. (ठीक वैसे ही जैसे कोई बेहतरीन ऐक्टर)
अगर आपको कभी भी कोई परेशानी आती है, तो Gemini से अपनी स्क्रिप्ट या परफ़ॉर्मेंस को बेहतर बनाने में मदद लें.

आगे क्या करना है

ऑडियो जनरेट करने से जुड़ी कुकबुक आज़माएं.
Gemini के Live API में, इंटरैक्टिव ऑडियो जनरेट करने के विकल्प मिलते हैं. इन्हें अन्य मोड के साथ इंटरलीव किया जा सकता है.
ऑडियो इनपुट के साथ काम करने के लिए, ऑडियो को समझना गाइड पर जाएं.