يمكن لواجهة Gemini API تحويل النص المدخَل إلى صوت أحادي أو متعدّد المتحدثين باستخدام إمكانات إنشاء النص إلى كلام (TTS) المضمّنة. يمكن التحكّم في عملية إنشاء الصوت باستخدام ميزة "تحويل النص إلى كلام"، ما يعني أنّه يمكنك استخدام اللغة الطبيعية لتنظيم التفاعلات وتحديد الأسلوب واللهجة والسرعة والنبرة في الصوت.
تختلف إمكانية تحويل النص إلى كلام عن إمكانية إنشاء الكلام المقدَّمة من خلال Live API، وهي مصمَّمة لتوفير تجربة تفاعلية للمحتوى الصوتي غير المنظَّم، وللمدخلات والمخرجات المتعددة الوسائط. في حين تتفوّق Live API في سياقات المحادثات الديناميكية، تم تصميم ميزة تحويل النص إلى كلام من خلال Gemini API لتناسب السيناريوهات التي تتطلّب تلاوة نصية دقيقة مع تحكّم دقيق في الأسلوب والصوت، مثل إنشاء بودكاست أو كتب مسموعة.
يوضّح لك هذا الدليل كيفية إنشاء مقاطع صوتية لشخص واحد أو عدة أشخاص من نص.
قبل البدء
تأكَّد من استخدام أحد أنواع نماذج Gemini 2.5 التي تتضمّن إمكانات تحويل النص إلى كلام (TTS) الأصلية، كما هو موضّح في قسم النماذج المتوافقة. للحصول على أفضل النتائج، حدِّد النموذج الأنسب لحالة الاستخدام المحدّدة.
قد يكون من المفيد اختبار نماذج تحويل النص إلى كلام في Gemini 2.5 في AI Studio قبل البدء في الإنشاء.
تحويل النص إلى كلام بصوت متحدث واحد
لتحويل النص إلى صوت أحادي المتحدث، اضبط وضع الاستجابة على "صوت"،
وأرسِل عنصر SpeechConfig مع ضبط VoiceConfig.
عليك اختيار اسم صوت من الأصوات الجاهزة.
يحفظ هذا المثال الصوت الناتج من النموذج في ملف موجي:
Python
from google import genai
from google.genai import types
import wave
# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
with wave.open(filename, "wb") as wf:
wf.setnchannels(channels)
wf.setsampwidth(sample_width)
wf.setframerate(rate)
wf.writeframes(pcm)
client = genai.Client()
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents="Say cheerfully: Have a wonderful day!",
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore',
)
)
),
)
)
data = response.candidates[0].content.parts[0].inline_data.data
file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory
JavaScript
import {GoogleGenAI} from '@google/genai';
import wav from 'wav';
async function saveWaveFile(
filename,
pcmData,
channels = 1,
rate = 24000,
sampleWidth = 2,
) {
return new Promise((resolve, reject) => {
const writer = new wav.FileWriter(filename, {
channels,
sampleRate: rate,
bitDepth: sampleWidth * 8,
});
writer.on('finish', resolve);
writer.on('error', reject);
writer.write(pcmData);
writer.end();
});
}
async function main() {
const ai = new GoogleGenAI({});
const response = await ai.models.generateContent({
model: "gemini-2.5-flash-preview-tts",
contents: [{ parts: [{ text: 'Say cheerfully: Have a wonderful day!' }] }],
config: {
responseModalities: ['AUDIO'],
speechConfig: {
voiceConfig: {
prebuiltVoiceConfig: { voiceName: 'Kore' },
},
},
},
});
const data = response.candidates?.[0]?.content?.parts?.[0]?.inlineData?.data;
const audioBuffer = Buffer.from(data, 'base64');
const fileName = 'out.wav';
await saveWaveFile(fileName, audioBuffer);
}
await main();
REST
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-X POST \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{
"text": "Say cheerfully: Have a wonderful day!"
}]
}],
"generationConfig": {
"responseModalities": ["AUDIO"],
"speechConfig": {
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Kore"
}
}
}
},
"model": "gemini-2.5-flash-preview-tts",
}' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
base64 --decode >out.pcm
# You may need to install ffmpeg.
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav
تحويل النص إلى كلام باستخدام عدة متحدثين
بالنسبة إلى الصوت الصادر من مكبّرات صوت متعددة، ستحتاج إلى كائن MultiSpeakerVoiceConfig مع إعداد كل مكبّر صوت (بحد أقصى 2) ككائن SpeakerVoiceConfig.
عليك تحديد كل speaker باستخدام الأسماء نفسها المستخدَمة في
الطلب:
Python
from google import genai
from google.genai import types
import wave
# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
with wave.open(filename, "wb") as wf:
wf.setnchannels(channels)
wf.setsampwidth(sample_width)
wf.setframerate(rate)
wf.writeframes(pcm)
client = genai.Client()
prompt = """TTS the following conversation between Joe and Jane:
Joe: How's it going today Jane?
Jane: Not too bad, how about you?"""
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
types.SpeakerVoiceConfig(
speaker='Joe',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore',
)
)
),
types.SpeakerVoiceConfig(
speaker='Jane',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Puck',
)
)
),
]
)
)
)
)
data = response.candidates[0].content.parts[0].inline_data.data
file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory
JavaScript
import {GoogleGenAI} from '@google/genai';
import wav from 'wav';
async function saveWaveFile(
filename,
pcmData,
channels = 1,
rate = 24000,
sampleWidth = 2,
) {
return new Promise((resolve, reject) => {
const writer = new wav.FileWriter(filename, {
channels,
sampleRate: rate,
bitDepth: sampleWidth * 8,
});
writer.on('finish', resolve);
writer.on('error', reject);
writer.write(pcmData);
writer.end();
});
}
async function main() {
const ai = new GoogleGenAI({});
const prompt = `TTS the following conversation between Joe and Jane:
Joe: How's it going today Jane?
Jane: Not too bad, how about you?`;
const response = await ai.models.generateContent({
model: "gemini-2.5-flash-preview-tts",
contents: [{ parts: [{ text: prompt }] }],
config: {
responseModalities: ['AUDIO'],
speechConfig: {
multiSpeakerVoiceConfig: {
speakerVoiceConfigs: [
{
speaker: 'Joe',
voiceConfig: {
prebuiltVoiceConfig: { voiceName: 'Kore' }
}
},
{
speaker: 'Jane',
voiceConfig: {
prebuiltVoiceConfig: { voiceName: 'Puck' }
}
}
]
}
}
}
});
const data = response.candidates?.[0]?.content?.parts?.[0]?.inlineData?.data;
const audioBuffer = Buffer.from(data, 'base64');
const fileName = 'out.wav';
await saveWaveFile(fileName, audioBuffer);
}
await main();
REST
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-X POST \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{
"text": "TTS the following conversation between Joe and Jane:
Joe: Hows it going today Jane?
Jane: Not too bad, how about you?"
}]
}],
"generationConfig": {
"responseModalities": ["AUDIO"],
"speechConfig": {
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [{
"speaker": "Joe",
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Kore"
}
}
}, {
"speaker": "Jane",
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Puck"
}
}
}]
}
}
},
"model": "gemini-2.5-flash-preview-tts",
}' | jq -r '.candidates[0].content.parts[0].inlineData.data' | \
base64 --decode > out.pcm
# You may need to install ffmpeg.
ffmpeg -f s16le -ar 24000 -ac 1 -i out.pcm out.wav
التحكّم في أسلوب الكلام باستخدام الطلبات
يمكنك التحكّم في الأسلوب والنبرة واللهجة والسرعة باستخدام طلبات مكتوبة بلغة طبيعية لكل من ميزة تحويل النص إلى كلام بصوت متحدث واحد وبأصوات متحدثين متعددين. على سبيل المثال، في طلب يتضمّن متحدثًا واحدًا، يمكنك قول:
Say in an spooky whisper:
"By the pricking of my thumbs...
Something wicked this way comes"
في طلب يتضمّن عدة متحدثين، قدِّم إلى النموذج اسم كل متحدث والنص الخاص به. يمكنك أيضًا تقديم إرشادات لكل متحدث على حدة:
Make Speaker1 sound tired and bored, and Speaker2 sound excited and happy:
Speaker1: So... what's on the agenda today?
Speaker2: You're never going to guess!
جرِّب استخدام خيار صوتي يتوافق مع الأسلوب أو المشاعر التي تريد التعبير عنها، وذلك للتأكيد عليها بشكل أكبر. في الطلب السابق، على سبيل المثال، قد يؤكّد صوت إنسيلادوس المتهدّج على حالتَي "التعب" و"الملل"، بينما قد تتناسب نبرة بوك المبهجة مع حالتَي "الحماس" و"السعادة".
جارٍ إنشاء طلب لتحويل النص إلى صوت
تنتج نماذج تحويل النص إلى كلام محتوًى صوتيًا فقط، ولكن يمكنك استخدام نماذج أخرى لإنشاء نص أولاً، ثم تمرير هذا النص إلى نموذج تحويل النص إلى كلام لقراءته بصوت مرتفع.
Python
from google import genai
from google.genai import types
client = genai.Client()
transcript = client.models.generate_content(
model="gemini-2.0-flash",
contents="""Generate a short transcript around 100 words that reads
like it was clipped from a podcast by excited herpetologists.
The hosts names are Dr. Anya and Liam.""").text
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents=transcript,
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
types.SpeakerVoiceConfig(
speaker='Dr. Anya',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore',
)
)
),
types.SpeakerVoiceConfig(
speaker='Liam',
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Puck',
)
)
),
]
)
)
)
)
# ...Code to stream or save the output
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const transcript = await ai.models.generateContent({
model: "gemini-2.0-flash",
contents: "Generate a short transcript around 100 words that reads like it was clipped from a podcast by excited herpetologists. The hosts names are Dr. Anya and Liam.",
})
const response = await ai.models.generateContent({
model: "gemini-2.5-flash-preview-tts",
contents: transcript,
config: {
responseModalities: ['AUDIO'],
speechConfig: {
multiSpeakerVoiceConfig: {
speakerVoiceConfigs: [
{
speaker: "Dr. Anya",
voiceConfig: {
prebuiltVoiceConfig: {voiceName: "Kore"},
}
},
{
speaker: "Liam",
voiceConfig: {
prebuiltVoiceConfig: {voiceName: "Puck"},
}
}
]
}
}
}
});
}
// ..JavaScript code for exporting .wav file for output audio
await main();
خيارات الصوت
تتيح نماذج "تحويل النص إلى كلام" 30 خيارًا صوتيًا في الحقل voice_name:
| Zephyr -- Bright | Puck -- مرحة | Charon -- مفيدة |
| كوريا -- شركة | Fenrir -- متحمّس | Leda -- Youthful |
| Orus -- شركة | Aoede -- Breezy | Callirrhoe -- مريح |
| Autonoe -- Bright | إنسيلادوس -- مُتنفِّس | Iapetus -- Clear |
| Umbriel -- شخصية هادئة | الجبهة -- ناعم | Despina -- Smooth |
| Erinome -- محو | Algenib -- Gravelly | Rasalgethi -- مفيدة |
| Laomedeia -- مرح | Achernar -- Soft | Alnilam -- الشركة |
| Schedar -- Even | Gacrux -- محتوى للبالغين | Pulcherrima -- Forward |
| Achird -- Friendly | Zubenelgenubi -- غير رسمي | Vindemiatrix -- لطيف |
| Sadachbia -- مفعم بالحيوية | Sadaltager -- مُطّلع | سولفات -- دافئ |
يمكنك الاستماع إلى جميع خيارات الأصوات في AI Studio.
اللغات المتاحة
ترصد نماذج تحويل النص إلى كلام لغة الإدخال تلقائيًا. وهي تتوافق مع اللغات الـ 24 التالية:
| اللغة | رمز BCP-47 | اللغة | رمز BCP-47 |
|---|---|---|---|
| العربية (مصر) | ar-EG |
الألمانية (ألمانيا) | de-DE |
| الإنجليزية (الولايات المتحدة) | en-US |
الإسبانية (الولايات المتحدة) | es-US |
| الفرنسية (فرنسا) | fr-FR |
الهندية (الهند) | hi-IN |
| الإندونيسية (إندونيسيا) | id-ID |
الإيطالية (إيطاليا) | it-IT |
| اليابانية (اليابان) | ja-JP |
الكورية (كوريا) | ko-KR |
| البرتغالية (البرازيل) | pt-BR |
الروسية (روسيا) | ru-RU |
| الهولندية (هولندا) | nl-NL |
البولندية (بولندا) | pl-PL |
| التايلاندية (تايلاند) | th-TH |
التركية (تركيا) | tr-TR |
| الفيتنامية (فيتنام) | vi-VN |
الرومانية (رومانيا) | ro-RO |
| الأوكرانية (أوكرانيا) | uk-UA |
البنغالية (بنغلاديش) | bn-BD |
| الإنجليزية (الهند) | حزمة en-IN وhi-IN |
الماراثية (الهند) | mr-IN |
| التاميلية (الهند) | ta-IN |
التيلوغوية (الهند) | te-IN |
النماذج المتوافقة
| الطراز | متحدّث واحد | متعدّد المتحدثين |
|---|---|---|
| Gemini 2.5 Flash Preview TTS | ✔️ | ✔️ |
| إصدار تجريبي من ميزة "تحويل النص إلى كلام" في Gemini 2.5 Pro | ✔️ | ✔️ |
القيود
- يمكن لنماذج تحويل النص إلى كلام تلقّي مدخلات نصية فقط وإنشاء مخرجات صوتية.
- تبلغ سعة نافذة السياق لجلسة تحويل النص إلى كلام 32 ألف رمز مميز.
- راجِع قسم اللغات لمعرفة اللغات المتاحة.
دليل كتابة الطلبات
يتميّز نموذج تحويل النص إلى كلام (TTS) من Gemini لإنشاء الصوت الأصلي عن نماذج تحويل النص إلى كلام التقليدية باستخدام نموذج لغوي كبير يعرف ليس فقط ما يجب قوله، بل أيضًا كيفية قوله.
للاستفادة من هذه الإمكانية، يمكن للمستخدمين التفكير في أنفسهم كمدراء يضبطون مشهدًا ليؤديه ممثل صوتي افتراضي. لإنشاء طلب، ننصحك بمراعاة المكوّنات التالية: الملف الصوتي الذي يحدّد الهوية الأساسية للشخصية ونمطها، ووصف المشهد الذي يحدّد البيئة المادية و"الأجواء" العاطفية، وملاحظات المخرج التي تقدّم إرشادات أكثر دقة بشأن الأداء من حيث الأسلوب واللهجة والسرعة.
من خلال تقديم تعليمات دقيقة، مثل لهجة إقليمية محددة أو ميزات لغوية محددة (مثل التنفس) أو وتيرة الكلام، يمكن للمستخدمين الاستفادة من إمكانية فهم السياق لدى النموذج لإنشاء أداء صوتي ديناميكي وطبيعي ومعبّر للغاية. للحصول على أفضل أداء، ننصح بأن تتطابق النصوص مع الطلبات الإخراجية، بحيث يتطابق "من يقول" مع "ماذا يُقال" و"كيف يُقال".
الغرض من هذا الدليل هو تقديم توجيهات أساسية وإثارة الأفكار عند تطوير تجارب صوتية باستخدام ميزة إنشاء الصوت من النص في Gemini. نحن متحمّسون لرؤية إبداعاتك.
بنية الطلب
يتضمّن الطلب القوي العناصر التالية التي تتكامل معًا لتحقيق أداء رائع:
- الملف الصوتي: يحدّد شخصية الصوت، ويحدد هوية الشخصية ونمطها وأي خصائص أخرى مثل العمر والخلفية وما إلى ذلك.
- المشهد: يضبط المشهد. يصف كلاً من البيئة المادية و "الأجواء".
- ملاحظات المخرج: إرشادات الأداء التي يمكنك من خلالها تحديد التعليمات المهمة التي يجب أن يراعيها الممثل الافتراضي. وتشمل الأمثلة الأسلوب والتنفس والسرعة والوضوح واللهجة.
- عينة السياق: تمنح النموذج نقطة بداية سياقية، ما يتيح للممثل الافتراضي الدخول إلى المشهد الذي أعددته بشكل طبيعي.
- النص: النص الذي سينطقه النموذج. للحصول على أفضل أداء، تذكَّر أنّ موضوع النص وأسلوب الكتابة يجب أن يكونا مرتبطَين بالتعليمات التي تقدّمها.
مثال على الطلب الكامل:
# AUDIO PROFILE: Jaz R.
## "The Morning Hype"
## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to wake
up an entire nation.
### DIRECTOR'S NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
* Dynamics: High projection without shouting. Punchy consonants and elongated
vowels on excitement words (e.g., "Beauuutiful morning").
Pace: Speaks at an energetic pace, keeping up with the fast music. Speaks
with A "bouncing" cadence. High-speed delivery with fluid transitions — no dead
air, no gaps.
Accent: Jaz is from Brixton, London
### SAMPLE CONTEXT
Jaz is the industry standard for Top 40 radio, high-octane event promos, or any
script that requires a charismatic Estuary accent and 11/10 infectious energy.
#### TRANSCRIPT
Yes, massive vibes in the studio! You are locked in and it is absolutely
popping off in London right now. If you're stuck on the tube, or just sat
there pretending to work... stop it. Seriously, I see you. Turn this up!
We've got the project roadmap landing in three, two... let's go!
استراتيجيات مفصّلة لإنشاء الطلبات
دعونا نفصّل كل عنصر من عناصر الطلب.
ملف تعريف الصوت
صف بإيجاز شخصية الشخصية.
- الاسم: يساعد إعطاء شخصيتك اسمًا في ترسيخ النموذج وتحسين الأداء، لذا يُرجى الإشارة إلى الشخصية بالاسم عند تحديد المشهد والسياق.
- الدور: الهوية الأساسية والنموذج الأصلي للشخصية التي تظهر في المشهد، مثل مقدّم برامج إذاعية، أو مقدّم بودكاست، أو مراسل إخباري، إلخ.
أمثلة:
# AUDIO PROFILE: Jaz R.
## "The Morning Hype"
# AUDIO PROFILE: Monica A.
## "The Beauty Influencer"
منظر
اضبط سياق المشهد، بما في ذلك الموقع الجغرافي والمزاج والتفاصيل البيئية التي تحدّد الأسلوب والأجواء. صِف ما يحدث حول الشخصية وكيف يؤثر فيها. يوفر المشهد السياق البيئي للتفاعل بأكمله ويوجه الأداء التمثيلي بطريقة دقيقة وطبيعية.
أمثلة:
## THE SCENE: The London Studio
It is 10:00 PM in a glass-walled studio overlooking the moonlit London skyline,
but inside, it is blindingly bright. The red "ON AIR" tally light is blazing.
Jaz is standing up, not sitting, bouncing on the balls of their heels to the
rhythm of a thumping backing track. Their hands fly across the faders on a
massive mixing desk. It is a chaotic, caffeine-fueled cockpit designed to
wake up an entire nation.
## THE SCENE: Homegrown Studio
A meticulously sound-treated bedroom in a suburban home. The space is
deadened by plush velvet curtains and a heavy rug, but there is a
distinct "proximity effect."
ملاحظات المخرجين
يتضمّن هذا القسم المهم إرشادات محدّدة بشأن الأداء. يمكنك تخطّي جميع العناصر الأخرى، ولكنّنا ننصحك بتضمين هذا العنصر.
حدِّد فقط ما هو مهم للأداء، مع الحرص على عدم الإفراط في التحديد. سيؤدي وضع الكثير من القواعد الصارمة إلى الحدّ من إبداع النماذج وقد يؤدي إلى تراجع الأداء. وازِن بين وصف الدور والمشهد وقواعد الأداء المحدّدة.
إنّ الاتجاهات الأكثر شيوعًا هي الأسلوب والوتيرة واللكنة، ولكن النموذج لا يقتصر على هذه الاتجاهات ولا يتطلّبها. يمكنك تضمين تعليمات مخصّصة لتغطية أي تفاصيل إضافية مهمة لأدائك، وتضمين أكبر قدر ممكن من التفاصيل أو أقل قدر ممكن حسب الحاجة.
على سبيل المثال:
### DIRECTOR'S NOTES
Style: Enthusiastic and Sassy GenZ beauty YouTuber
Pacing: Speaks at an energetic pace, keeping up with the extremely fast, rapid
delivery influencers use in short form videos.
Accent: Southern california valley girl from Laguna Beach |
النمط:
تضبط هذه السمة نبرة الكلام الذي يتم إنشاؤه وأسلوبه. يمكنك تضمين كلمات مثل "مبهج" و"نشيط" و"مسترخٍ" و"ملل" وما إلى ذلك لتوجيه الأداء. استخدِم أسلوبًا وصفيًا وقدِّم أكبر قدر ممكن من التفاصيل اللازمة: "حماس معدٍ. إنّ عبارة "يجب أن يشعر المستمع بأنّه جزء من حدث ضخم ومثير" أفضل من مجرد قول "نشيط وحماسي".
يمكنك حتى تجربة عبارات شائعة في مجال التعليق الصوتي، مثل "ابتسامة صوتية". يمكنك إضافة أي عدد تريده من خصائص الأنماط.
أمثلة:
Simple Emotion
DIRECTORS NOTES
...
Style: Frustrated and angry developer who can't get the build to run.
...
مزيد من العمق
DIRECTORS NOTES
...
Style: Sassy GenZ beauty YouTuber, who mostly creates content for YouTube Shorts.
...
متقدّم
DIRECTORS NOTES
Style:
* The "Vocal Smile": You must hear the grin in the audio. The soft palate is
always raised to keep the tone bright, sunny, and explicitly inviting.
*Dynamics: High projection without shouting. Punchy consonants and
elongated vowels on excitement words (e.g., "Beauuutiful morning").
اللهجة:
قدِّم وصفًا للّكنة المطلوبة. كلّما كان طلبك دقيقًا، كانت النتائج أفضل. على سبيل المثال، استخدِم "لهجة إنجليزية بريطانية كما تُسمع في كرويدون، إنجلترا" بدلاً من "لهجة بريطانية".
أمثلة:
### DIRECTORS NOTES
...
Accent: Southern california valley girl from Laguna Beach
...
### DIRECTORS NOTES
...
Accent: Jaz is a from Brixton, London
...
معدّل تسجيل مرات الظهور:
الوتيرة الإجمالية وتفاوت الوتيرة في جميع أنحاء المقطوعة
أمثلة:
بسيط
### DIRECTORS NOTES
...
Pacing: Speak as fast as possible
...
مزيد من التفاصيل
### DIRECTORS NOTES
...
Pacing: Speaks at a faster, energetic pace, keeping up with fast paced music.
...
متقدّم
### DIRECTORS NOTES
...
Pacing: The "Drift": The tempo is incredibly slow and liquid. Words bleed into each other. There is zero urgency.
...
تجربة الميزة
يمكنك تجربة بعض هذه الأمثلة بنفسك على AI Studio، واستخدام تطبيق تحويل النص إلى كلام، والسماح لـ Gemini بتولي مهمة الإخراج. إليك بعض النصائح لتقديم أداء صوتي رائع:
- تذكَّر أن تحافظ على تماسك الطلب بأكمله، فالنص والإخراج يسيران جنبًا إلى جنب لتقديم أداء رائع.
- لا تتردد في ترك بعض التفاصيل ليملأها النموذج، فهذا يساعد في جعل النص يبدو طبيعيًا. (تمامًا مثل ممثل موهوب)
- إذا واجهت صعوبة في كتابة نص أو أداء أغنية، يمكنك الاستعانة بـ Gemini لمساعدتك في ذلك.
الخطوات التالية
- جرِّب كتاب وصفات إنشاء الصوت.
- توفّر واجهة برمجة التطبيقات Live من Gemini خيارات تفاعلية لإنشاء الصوت يمكنك دمجها مع وسائط أخرى.
- للتعرّف على كيفية استخدام مدخلات الصوت، يُرجى الانتقال إلى دليل فهم الصوت.