জেমিনি এপিআই নেটিভ টেক্সট-টু-স্পিচ (TTS) জেনারেশন ক্ষমতা ব্যবহার করে টেক্সট ইনপুটকে একক স্পিকার বা মাল্টি-স্পিকার অডিওতে রূপান্তর করতে পারে। টেক্সট-টু-স্পিচ (TTS) জেনারেশন নিয়ন্ত্রণযোগ্য , যার অর্থ আপনি ইন্টারঅ্যাকশন গঠন করতে এবং অডিওর স্টাইল , অ্যাকসেন্ট , গতি এবং স্বর নির্দেশ করতে প্রাকৃতিক ভাষা ব্যবহার করতে পারেন।
TTS ক্ষমতা লাইভ API এর মাধ্যমে প্রদত্ত স্পিচ জেনারেশন থেকে আলাদা, যা ইন্টারেক্টিভ, আনস্ট্রাকচার্ড অডিও এবং মাল্টিমোডাল ইনপুট এবং আউটপুটগুলির জন্য ডিজাইন করা হয়েছে। লাইভ API গতিশীল কথোপকথনের প্রেক্ষাপটে উৎকৃষ্ট হলেও, জেমিনি API এর মাধ্যমে TTS এমন পরিস্থিতির জন্য তৈরি করা হয়েছে যেখানে পডকাস্ট বা অডিওবুক জেনারেশনের মতো স্টাইল এবং শব্দের উপর সূক্ষ্ম নিয়ন্ত্রণ সহ সঠিক পাঠ্য আবৃত্তির প্রয়োজন হয়।
এই নির্দেশিকাটি আপনাকে দেখায় কিভাবে টেক্সট থেকে একক-স্পিকার এবং বহু-স্পিকার অডিও তৈরি করতে হয়।
শুরু করার আগে
"সমর্থিত মডেল" বিভাগে তালিকাভুক্ত নেটিভ টেক্সট-টু-স্পিচ (TTS) ক্ষমতা সহ একটি জেমিনি 2.5 মডেল ভেরিয়েন্ট ব্যবহার করছেন কিনা তা নিশ্চিত করুন। সর্বোত্তম ফলাফলের জন্য, আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে কোন মডেলটি সবচেয়ে উপযুক্ত তা বিবেচনা করুন।
নির্মাণ শুরু করার আগে AI স্টুডিওতে জেমিনি 2.5 TTS মডেলগুলি পরীক্ষা করা আপনার জন্য কার্যকর হতে পারে।
একক-বক্তা টেক্সট-টু-স্পিচ
টেক্সটকে সিঙ্গেল-স্পিকার অডিওতে রূপান্তর করতে, রেসপন্স মোডালিটি "অডিও" তে সেট করুন এবং VoiceConfig সেট সহ একটি SpeechConfig অবজেক্ট পাস করুন। আপনাকে পূর্বনির্ধারিত আউটপুট ভয়েসেস থেকে একটি ভয়েস নাম নির্বাচন করতে হবে।
এই উদাহরণটি মডেল থেকে আউটপুট অডিও একটি ওয়েভ ফাইলে সংরক্ষণ করে:
পাইথন
from google import genai
from google.genai import types
import wave
# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
with wave.open(filename, "wb") as wf:
wf.setnchannels(channels)
wf.setsampwidth(sample_width)
wf.setframerate(rate)
wf.writeframes(pcm)
client = genai.Client()
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents="Say cheerfully: Have a wonderful day!",
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore',
)
)
),
)
)
data = response.candidates[0].content.parts[0].inline_data.data
file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory
জাভাস্ক্রিপ্ট
import {GoogleGenAI} from '@google/genai';
import wav from 'wav';
async function saveWaveFile(
filename,
pcmData,
channels = 1,
rate = 24000,
sampleWidth = 2,
) {
return new Promise((resolve, reject) => {
const writer = new wav.FileWriter(filename, {
channels,
sampleRate: rate,
bitDepth: sampleWidth * 8,
});
writer.on('finish', resolve);
writer.on('error', reject);
writer.write(pcmData);
writer.end();
});
}
async function main() {
const ai = new GoogleGenAI({});
const response = await ai.models.generateContent({
model: "gemini-2.5-flash-preview-tts",
contents: [{ parts: [{ text: 'Say cheerfully: Have a wonderful day!' }] }],
config: {
responseModalities: ['AUDIO'],
speechConfig: {
voiceConfig: {
prebuiltVoiceConfig: { voiceName: 'Kore' },
},
},
},
});
const data = response.candidates?.[0]?.content?.parts?.[0]?.inlineData?.data;
const audioBuffer = Buffer.from(data, 'base64');
const fileName = 'out.wav';
await saveWaveFile(fileName, audioBuffer);
}
await main();
বিশ্রাম
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-X POST \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{
"text": "Say cheerfully: Have a wonderful day!"
}]
}],
"generationConfig": {
"responseModalities": ["AUDIO"],
"speechConfig": {
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Kore"
}
}
}
},
"model": "gemini-2.5-flash-preview-tts",
}' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
base64 --decode >out.pcm
# You may need to install ffmpeg.
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav
মাল্টি-স্পিকার টেক্সট-টু-স্পিচ
মাল্টি-স্পিকার অডিওর জন্য, আপনার একটি MultiSpeakerVoiceConfig অবজেক্টের প্রয়োজন হবে যার প্রতিটি স্পিকার (সর্বোচ্চ ২টি) SpeakerVoiceConfig হিসাবে কনফিগার করা থাকবে। আপনাকে প্রতিটি speaker প্রম্পটে ব্যবহৃত একই নামের সাথে সংজ্ঞায়িত করতে হবে:
পাইথন
from google import genai
from google.genai import types
import wave
# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
with wave.open(filename, "wb") as wf:
wf.setnchannels(channels)
wf.setsampwidth(sample_width)
wf.setframerate(rate)
wf.writeframes(pcm)
client = genai.Client()
prompt = """TTS the following conversation between Joe and Jane:
Joe: How's it going today Jane?
Jane: Not too bad, how about you?"""
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
types.SpeakerVoiceConfig(
speaker='Joe',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore',
)
)
),
types.SpeakerVoiceConfig(
speaker='Jane',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Puck',
)
)
),
]
)
)
)
)
data = response.candidates[0].content.parts[0].inline_data.data
file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory
জাভাস্ক্রিপ্ট
import {GoogleGenAI} from '@google/genai';
import wav from 'wav';
async function saveWaveFile(
filename,
pcmData,
channels = 1,
rate = 24000,
sampleWidth = 2,
) {
return new Promise((resolve, reject) => {
const writer = new wav.FileWriter(filename, {
channels,
sampleRate: rate,
bitDepth: sampleWidth * 8,
});
writer.on('finish', resolve);
writer.on('error', reject);
writer.write(pcmData);
writer.end();
});
}
async function main() {
const ai = new GoogleGenAI({});
const prompt = `TTS the following conversation between Joe and Jane:
Joe: How's it going today Jane?
Jane: Not too bad, how about you?`;
const response = await ai.models.generateContent({
model: "gemini-2.5-flash-preview-tts",
contents: [{ parts: [{ text: prompt }] }],
config: {
responseModalities: ['AUDIO'],
speechConfig: {
multiSpeakerVoiceConfig: {
speakerVoiceConfigs: [
{
speaker: 'Joe',
voiceConfig: {
prebuiltVoiceConfig: { voiceName: 'Kore' }
}
},
{
speaker: 'Jane',
voiceConfig: {
prebuiltVoiceConfig: { voiceName: 'Puck' }
}
}
]
}
}
}
});
const data = response.candidates?.[0]?.content?.parts?.[0]?.inlineData?.data;
const audioBuffer = Buffer.from(data, 'base64');
const fileName = 'out.wav';
await saveWaveFile(fileName, audioBuffer);
}
await main();
বিশ্রাম
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-X POST \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{
"text": "TTS the following conversation between Joe and Jane:
Joe: Hows it going today Jane?
Jane: Not too bad, how about you?"
}]
}],
"generationConfig": {
"responseModalities": ["AUDIO"],
"speechConfig": {
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [{
"speaker": "Joe",
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Kore"
}
}
}, {
"speaker": "Jane",
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Puck"
}
}
}]
}
}
},
"model": "gemini-2.5-flash-preview-tts",
}' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
base64 --decode > out.pcm
# You may need to install ffmpeg.
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav
প্রম্পট সহ বক্তৃতা শৈলী নিয়ন্ত্রণ করা
আপনি একক এবং বহু-স্পিকার TTS উভয়ের জন্য প্রাকৃতিক ভাষার প্রম্পট ব্যবহার করে স্টাইল, স্বর, উচ্চারণ এবং গতি নিয়ন্ত্রণ করতে পারেন। উদাহরণস্বরূপ, একটি একক-স্পিকার প্রম্পটে, আপনি বলতে পারেন:
Say in an spooky whisper:
"By the pricking of my thumbs...
Something wicked this way comes"
মাল্টি-স্পিকার প্রম্পটে, প্রতিটি বক্তার নাম এবং সংশ্লিষ্ট ট্রান্সক্রিপ্ট মডেলটিতে প্রদান করুন। আপনি প্রতিটি বক্তার জন্য পৃথকভাবে নির্দেশিকাও প্রদান করতে পারেন:
Make Speaker1 sound tired and bored, and Speaker2 sound excited and happy:
Speaker1: So... what's on the agenda today?
Speaker2: You're never going to guess!
আপনি যে স্টাইল বা আবেগ প্রকাশ করতে চান তার সাথে সামঞ্জস্যপূর্ণ একটি ভয়েস বিকল্প ব্যবহার করার চেষ্টা করুন, যাতে এটি আরও জোরদার হয়। উদাহরণস্বরূপ, পূর্ববর্তী প্রম্পটে, এনসেলাডাসের শ্বাস-প্রশ্বাস "ক্লান্ত" এবং "বিরক্ত"-এর উপর জোর দিতে পারে, যেখানে পাকের উচ্ছ্বসিত স্বর "উত্তেজিত" এবং "খুশি"-এর পরিপূরক হতে পারে।
অডিওতে রূপান্তর করার জন্য একটি প্রম্পট তৈরি করা হচ্ছে
টিটিএস মডেলগুলি কেবল অডিও আউটপুট দেয়, তবে আপনি প্রথমে একটি ট্রান্সক্রিপ্ট তৈরি করতে অন্যান্য মডেল ব্যবহার করতে পারেন, তারপর সেই ট্রান্সক্রিপ্টটি জোরে পড়ার জন্য টিটিএস মডেলে পাঠাতে পারেন।
পাইথন
from google import genai
from google.genai import types
client = genai.Client()
transcript = client.models.generate_content(
model="gemini-2.0-flash",
contents="""Generate a short transcript around 100 words that reads
like it was clipped from a podcast by excited herpetologists.
The hosts names are Dr. Anya and Liam.""").text
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents=transcript,
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
types.SpeakerVoiceConfig(
speaker='Dr. Anya',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore',
)
)
),
types.SpeakerVoiceConfig(
speaker='Liam',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Puck',
)
)
),
]
)
)
)
)
# ...Code to stream or save the output
জাভাস্ক্রিপ্ট
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const transcript = await ai.models.generateContent({
model: "gemini-2.0-flash",
contents: "Generate a short transcript around 100 words that reads like it was clipped from a podcast by excited herpetologists. The hosts names are Dr. Anya and Liam.",
})
const response = await ai.models.generateContent({
model: "gemini-2.5-flash-preview-tts",
contents: transcript,
config: {
responseModalities: ['AUDIO'],
speechConfig: {
multiSpeakerVoiceConfig: {
speakerVoiceConfigs: [
{
speaker: "Dr. Anya",
voiceConfig: {
prebuiltVoiceConfig: {voiceName: "Kore"},
}
},
{
speaker: "Liam",
voiceConfig: {
prebuiltVoiceConfig: {voiceName: "Puck"},
}
}
]
}
}
}
});
}
// ..JavaScript code for exporting .wav file for output audio
await main();
ভয়েস বিকল্পগুলি
TTS মডেলগুলি voice_name ক্ষেত্রে নিম্নলিখিত 30টি ভয়েস বিকল্প সমর্থন করে:
| জেফির -- উজ্জ্বল | পাক -- উচ্ছ্বসিত | শ্যারন -- তথ্যবহুল |
| কোর -- ফার্ম | ফেনরির -- উত্তেজনাপূর্ণ | লেডা -- তরুণ |
| ওরাস -- ফার্ম | আওয়েদ -- হাওয়ালা | ক্যালিরো -- আরামদায়ক |
| অটোনো -- উজ্জ্বল | এনসেলাডাস -- শ্বাসরুদ্ধকর | আইপেটাস -- পরিষ্কার |
| আমব্রিয়েল -- শান্ত-সুলভ | আলজিবা -- মসৃণ | ডেসপিনা -- মসৃণ |
| এরিনোম -- পরিষ্কার | অ্যালজেনিব -- গ্রেভেলি | রসালগেঠি -- তথ্যবহুল |
| লাওমেডিয়া -- উচ্ছ্বসিত | আচারনার -- নরম | আলনিলাম -- দৃঢ় |
| স্কেদার -- জোড় | গ্যাক্রাক্স -- পরিণত | পালচেরিমা -- ফরোয়ার্ড |
| আচির্ড -- বন্ধুত্বপূর্ণ | জুবেনেলগেনুবি -- ক্যাজুয়াল | ভিন্ডেমিয়াট্রিক্স -- ভদ্র |
| সাদাচবিয়া -- প্রাণবন্ত | সাদালটেগার -- জ্ঞানী | সুলাফাত -- উষ্ণ |
আপনি AI স্টুডিওতে সমস্ত ভয়েস অপশন শুনতে পাবেন।
সমর্থিত ভাষা
টিটিএস মডেলগুলি স্বয়ংক্রিয়ভাবে ইনপুট ভাষা সনাক্ত করে। তারা নিম্নলিখিত 24টি ভাষা সমর্থন করে:
| ভাষা | BCP-47 কোড | ভাষা | BCP-47 কোড |
|---|---|---|---|
| আরবি (মিশরীয়) | ar-EG | জার্মান (জার্মানি) | de-DE |
| ইংরেজি (মার্কিন) | en-US | স্প্যানিশ (মার্কিন) | es-US |
| ফরাসি (ফ্রান্স) | fr-FR | হিন্দি (ভারত) | hi-IN |
| ইন্দোনেশিয়ান (ইন্দোনেশিয়া) | id-ID | ইতালীয় (ইতালি) | it-IT |
| জাপানি (জাপান) | ja-JP | কোরিয়ান (কোরিয়া) | ko-KR |
| পর্তুগিজ (ব্রাজিল) | pt-BR | রাশিয়ান (রাশিয়া) | ru-RU |
| ডাচ (নেদারল্যান্ডস) | nl-NL | পোলিশ (পোল্যান্ড) | pl-PL |
| থাই (থাইল্যান্ড) | th-TH | তুর্কি (তুরস্ক) | tr-TR |
| ভিয়েতনামী (ভিয়েতনাম) | vi-VN | রোমানিয়ান (রোমানিয়া) | ro-RO |
| ইউক্রেনীয় (ইউক্রেন) | uk-UA | বাংলা (বাংলাদেশ) | bn-BD |
| ইংরেজি (ভারত) | en-IN এবং hi-IN বান্ডেল | মারাঠি (ভারত) | mr-IN |
| তামিল (ভারত) | ta-IN | তেলেগু (ভারত) | te-IN |
সমর্থিত মডেল
| মডেল | একক স্পিকার | মাল্টিস্পিকার |
|---|---|---|
| জেমিনি ২.৫ ফ্ল্যাশ প্রিভিউ টিটিএস | ✔️ | ✔️ |
| জেমিনি ২.৫ প্রো প্রিভিউ টিটিএস | ✔️ | ✔️ |
সীমাবদ্ধতা
- টিটিএস মডেলগুলি কেবল টেক্সট ইনপুট গ্রহণ করতে পারে এবং অডিও আউটপুট তৈরি করতে পারে।
- একটি TTS সেশনের কনটেক্সট উইন্ডো সীমা 32k টোকেন।
- ভাষা সহায়তার জন্য ভাষা বিভাগটি পর্যালোচনা করুন।
প্রম্পটিং গাইড
জেমিনি নেটিভ অডিও জেনারেশন টেক্সট-টু-স্পিচ (টিটিএস) মডেলটি ঐতিহ্যবাহী টিটিএস মডেল থেকে নিজেকে আলাদা করে, একটি বৃহৎ ভাষা মডেল ব্যবহার করে যা কেবল কী বলতে হবে তা নয়, কীভাবে বলতে হবে তাও জানে।
এই ক্ষমতাটি আনলক করার জন্য, ব্যবহারকারীরা নিজেদেরকে একজন ভার্চুয়াল ভয়েস প্রতিভার জন্য একটি দৃশ্য তৈরি করার পরিচালক হিসেবে ভাবতে পারেন। একটি প্রম্পট তৈরি করার জন্য, আমরা নিম্নলিখিত উপাদানগুলি বিবেচনা করার পরামর্শ দিচ্ছি: একটি অডিও প্রোফাইল যা চরিত্রের মূল পরিচয় এবং মূল ধরণ নির্ধারণ করে; একটি দৃশ্যের বর্ণনা যা শারীরিক পরিবেশ এবং মানসিক "ভাইব" প্রতিষ্ঠা করে; এবং পরিচালকের নোট যা শৈলী, উচ্চারণ এবং গতি নিয়ন্ত্রণ সম্পর্কে আরও সুনির্দিষ্ট পারফরম্যান্স নির্দেশিকা প্রদান করে।
সুনির্দিষ্ট আঞ্চলিক উচ্চারণ, নির্দিষ্ট প্যারালিঙ্গুইস্টিক বৈশিষ্ট্য (যেমন শ্বাস-প্রশ্বাস), অথবা গতির মতো সূক্ষ্ম নির্দেশাবলী প্রদান করে, ব্যবহারকারীরা মডেলের প্রসঙ্গ সচেতনতাকে কাজে লাগিয়ে অত্যন্ত গতিশীল, স্বাভাবিক এবং অভিব্যক্তিপূর্ণ অডিও পারফরম্যান্স তৈরি করতে পারেন। সর্বোত্তম পারফরম্যান্সের জন্য, আমরা ট্রান্সক্রিপ্ট এবং নির্দেশিকা প্রম্পটগুলিকে সারিবদ্ধ করার পরামর্শ দিই, যাতে "কে এটা বলছে" " কী বলা হচ্ছে" এবং "কিভাবে বলা হচ্ছে" এর সাথে মিলে যায়।
এই নির্দেশিকার উদ্দেশ্য হল জেমিনি টিটিএস অডিও জেনারেশন ব্যবহার করে অডিও অভিজ্ঞতা তৈরির সময় মৌলিক দিকনির্দেশনা প্রদান এবং ধারণা জাগানো। আপনার তৈরি করা জিনিসগুলি প্রত্যক্ষ করতে আমরা উত্তেজিত!
প্রম্পটিং স্ট্রাকচার
একটি শক্তিশালী প্রম্পটে আদর্শভাবে নিম্নলিখিত উপাদানগুলি অন্তর্ভুক্ত থাকে যা একত্রিত হয়ে একটি দুর্দান্ত পারফরম্যান্স তৈরি করে:
- অডিও প্রোফাইল - কণ্ঠস্বরের জন্য একটি ব্যক্তিত্ব প্রতিষ্ঠা করে, একটি চরিত্রের পরিচয়, মূল ধরণ এবং বয়স, পটভূমি ইত্যাদির মতো অন্যান্য বৈশিষ্ট্য সংজ্ঞায়িত করে।
- দৃশ্য - মঞ্চ তৈরি করে। ভৌত পরিবেশ এবং "আবেগ" উভয়েরই বর্ণনা করে।
- পরিচালকের নোট - পারফরম্যান্স নির্দেশিকা যেখানে আপনি আপনার ভার্চুয়াল প্রতিভার জন্য কোন নির্দেশাবলী গুরুত্বপূর্ণ তা ভেঙে ফেলতে পারেন। উদাহরণ হিসেবে বলা যায় স্টাইল, শ্বাস-প্রশ্বাস, গতি, উচ্চারণ এবং উচ্চারণ।
- নমুনা প্রসঙ্গ - মডেলটিকে একটি প্রাসঙ্গিক সূচনা বিন্দু দেয়, যাতে আপনার ভার্চুয়াল অভিনেতা আপনার সেট করা দৃশ্যে স্বাভাবিকভাবেই প্রবেশ করে।
- ট্রান্সক্রিপ্ট - মডেল যে লেখাটি উচ্চারণ করবে। সর্বোত্তম পারফরম্যান্সের জন্য, মনে রাখবেন যে ট্রান্সক্রিপ্টের বিষয় এবং লেখার ধরণ আপনার দেওয়া নির্দেশনার সাথে সম্পর্কিত হওয়া উচিত।
সম্পূর্ণ প্রম্পটের উদাহরণ:
# AUDIO PROFILE: Jaz R.
## "The Morning Hype"
## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to wake
up an entire nation.
### DIRECTOR'S NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
* Dynamics: High projection without shouting. Punchy consonants and elongated
vowels on excitement words (e.g., "Beauuutiful morning").
Pace: Speaks at an energetic pace, keeping up with the fast music. Speaks
with A "bouncing" cadence. High-speed delivery with fluid transitions — no dead
air, no gaps.
Accent: Jaz is from Brixton, London
### SAMPLE CONTEXT
Jaz is the industry standard for Top 40 radio, high-octane event promos, or any
script that requires a charismatic Estuary accent and 11/10 infectious energy.
#### TRANSCRIPT
Yes, massive vibes in the studio! You are locked in and it is absolutely
popping off in London right now. If you're stuck on the tube, or just sat
there pretending to work... stop it. Seriously, I see you. Turn this up!
We've got the project roadmap landing in three, two... let's go!
বিস্তারিত প্রম্পটিং কৌশল
প্রম্পটের প্রতিটি উপাদান ভেঙে ফেলা যাক।
অডিও প্রোফাইল
চরিত্রটির ব্যক্তিত্ব সংক্ষেপে বর্ণনা করো।
- নাম। আপনার চরিত্রের নামকরণ মডেল এবং দৃঢ় অভিনয়কে একত্রিত করতে সাহায্য করে। দৃশ্য এবং প্রেক্ষাপট নির্ধারণের সময় নাম অনুসারে চরিত্রটিকে উল্লেখ করুন।
- ভূমিকা। দৃশ্যে যে চরিত্রটি অভিনয় করছে তার মূল পরিচয় এবং মূল ধরণ। যেমন, রেডিও ডিজে, পডকাস্টার, সংবাদ প্রতিবেদক ইত্যাদি।
উদাহরণ:
# AUDIO PROFILE: Jaz R.
## "The Morning Hype"
# AUDIO PROFILE: Monica A.
## "The Beauty Influencer"
দৃশ্য
দৃশ্যের প্রেক্ষাপট নির্ধারণ করুন, যার মধ্যে অবস্থান, মেজাজ এবং পরিবেশগত বিবরণ অন্তর্ভুক্ত যা সুর এবং ভাব প্রতিষ্ঠা করে। চরিত্রের চারপাশে কী ঘটছে এবং এটি কীভাবে তাদের প্রভাবিত করে তা বর্ণনা করুন। দৃশ্যটি সমগ্র মিথস্ক্রিয়ার জন্য পরিবেশগত প্রেক্ষাপট প্রদান করে এবং অভিনয়ের পারফরম্যান্সকে একটি সূক্ষ্ম, জৈব উপায়ে পরিচালনা করে।
উদাহরণ:
## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to
wake up an entire nation.
## THE SCENE: Homegrown Studio
A meticulously sound-treated bedroom in a suburban home. The space is
deadened by plush velvet curtains and a heavy rug, but there is a
distinct "proximity effect."
পরিচালকদের নোট
এই গুরুত্বপূর্ণ বিভাগে নির্দিষ্ট কর্মক্ষমতা নির্দেশিকা অন্তর্ভুক্ত রয়েছে। আপনি অন্যান্য সমস্ত উপাদান এড়িয়ে যেতে পারেন, তবে আমরা আপনাকে এই উপাদানটি অন্তর্ভুক্ত করার পরামর্শ দিচ্ছি।
পারফর্ম্যান্সের জন্য কেবল কী গুরুত্বপূর্ণ তা নির্ধারণ করুন, অতিরিক্ত নির্দিষ্ট না করার বিষয়ে সতর্ক থাকুন। অনেক কঠোর নিয়ম মডেলদের সৃজনশীলতাকে সীমিত করবে এবং এর ফলে আরও খারাপ পারফর্ম্যান্স হতে পারে। নির্দিষ্ট পারফর্ম্যান্স নিয়মের সাথে ভূমিকা এবং দৃশ্যের বর্ণনার ভারসাম্য বজায় রাখুন।
সবচেয়ে সাধারণ দিকনির্দেশনা হল স্টাইল, পেসিং এবং অ্যাকসেন্ট , তবে মডেলটি কেবল এগুলির মধ্যেই সীমাবদ্ধ নয়, এবং এগুলি প্রয়োজনও নয়। আপনার পারফরম্যান্সের জন্য গুরুত্বপূর্ণ যেকোনো অতিরিক্ত বিবরণ কভার করার জন্য কাস্টম নির্দেশাবলী অন্তর্ভুক্ত করতে দ্বিধা করবেন না এবং যতটা প্রয়োজন ততটা বা কম বিশদে যান।
উদাহরণস্বরূপ:
### DIRECTOR'S NOTES
Style: Enthusiastic and Sassy GenZ beauty YouTuber
Pacing: Speaks at an energetic pace, keeping up with the extremely fast, rapid
delivery influencers use in short form videos.
Accent: Southern california valley girl from Laguna Beach |
স্টাইল:
উৎপন্ন বক্তৃতার সুর এবং ধরণ নির্ধারণ করে। পারফরম্যান্সকে পরিচালনা করার জন্য উচ্ছ্বসিত, উদ্যমী, স্বাচ্ছন্দ্যময়, একঘেয়ে ইত্যাদি বিষয় অন্তর্ভুক্ত করুন। বর্ণনামূলক হোন এবং যতটা প্রয়োজন ততটা বিস্তারিত জানান: "সংক্রামক উৎসাহ। শ্রোতার মনে হওয়া উচিত যে তারা একটি বিশাল, উত্তেজনাপূর্ণ সম্প্রদায়ের অনুষ্ঠানের অংশ।" কেবল "উজ্জ্বল এবং উৎসাহী" বলার চেয়ে ভালো কাজ করে।
আপনি ভয়েসওভার ইন্ডাস্ট্রিতে জনপ্রিয় শব্দগুলিও ব্যবহার করে দেখতে পারেন, যেমন "ভোকাল স্মাইল"। আপনি যত খুশি স্টাইল বৈশিষ্ট্য ব্যবহার করতে পারেন।
উদাহরণ:
সরল আবেগ
DIRECTORS NOTES
...
Style: Frustrated and angry developer who can't get the build to run.
...
আরও গভীরতা
DIRECTORS NOTES
...
Style: Sassy GenZ beauty YouTuber, who mostly creates content for YouTube Shorts.
...
জটিল
DIRECTORS NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
*Dynamics: High projection without shouting. Punchy consonants and
elongated vowels on excitement words (e.g., "Beauuutiful morning").
উচ্চারণ:
পছন্দসই উচ্চারণ বর্ণনা করুন। আপনি যত বেশি সুনির্দিষ্ট, ফলাফল তত ভালো। উদাহরণস্বরূপ, " ক্রিয়ডন, ইংল্যান্ডে শোনা ব্রিটিশ ইংরেজি উচ্চারণ " বনাম " ব্রিটিশ উচ্চারণ " ব্যবহার করুন।
উদাহরণ:
### DIRECTORS NOTES
...
Accent: Southern california valley girl from Laguna Beach
...
### DIRECTORS NOTES
...
Accent: Jaz is a from Brixton, London
...
গতি:
পুরো নাটক জুড়ে সামগ্রিক গতি এবং গতির তারতম্য।
উদাহরণ:
সহজ
### DIRECTORS NOTES
...
Pacing: Speak as fast as possible
...
আরও গভীরতা
### DIRECTORS NOTES
...
Pacing: Speaks at a faster, energetic pace, keeping up with fast paced music.
...
জটিল
### DIRECTORS NOTES
...
Pacing: The "Drift": The tempo is incredibly slow and liquid. Words bleed into each other. There is zero urgency.
...
একবার চেষ্টা করে দেখো
এআই স্টুডিওতে এই উদাহরণগুলির কিছু নিজে চেষ্টা করে দেখুন, আমাদের টিটিএস অ্যাপ দিয়ে খেলুন এবং জেমিনি আপনাকে পরিচালকের চেয়ারে বসাতে দিন। দুর্দান্ত কণ্ঠ পরিবেশনার জন্য এই টিপসগুলি মনে রাখুন:
- পুরো প্রম্পটটি সুসংগত রাখতে ভুলবেন না - একটি দুর্দান্ত পারফরম্যান্স তৈরিতে চিত্রনাট্য এবং নির্দেশনা একসাথে কাজ করে।
- সবকিছু বর্ণনা করতে হবে বলে মনে করো না, মাঝে মাঝে মডেলকে শূন্যস্থান পূরণের জন্য জায়গা দিলে স্বাভাবিকতা বৃদ্ধি পায়। (ঠিক একজন প্রতিভাবান অভিনেতার মতো)
- যদি তুমি কখনও আটকে যাও, তাহলে মিথুন রাশির জাতক জাতিকাদের তোমার চিত্রনাট্য বা অভিনয় তৈরিতে সাহায্য করার জন্য সাহায্য করো।
এরপর কি?
- অডিও জেনারেশন কুকবুকটি চেষ্টা করে দেখুন।
- জেমিনির লাইভ এপিআই ইন্টারেক্টিভ অডিও জেনারেশন বিকল্পগুলি অফার করে যা আপনি অন্যান্য পদ্ধতির সাথে ইন্টারলিভ করতে পারেন।
- অডিও ইনপুট নিয়ে কাজ করার জন্য, অডিও বোঝার নির্দেশিকাটি দেখুন।