Live API

Live API تعاملات صوتی و ویدیویی دو جهته کم تأخیر را با Gemini فعال می‌کند و به شما امکان می‌دهد با Gemini به صورت زنده صحبت کنید و در عین حال ورودی ویدیو را پخش کنید یا صفحه خود را به اشتراک بگذارید. با استفاده از Live API، می توانید تجربه مکالمات صوتی طبیعی و شبیه انسان را در اختیار کاربران نهایی قرار دهید.

می‌توانید Live API را در Google AI Studio امتحان کنید. برای استفاده از Live API در Google AI Studio، Stream را انتخاب کنید.

Live API چگونه کار می کند

پخش جریانی

Live API از یک مدل استریم از طریق اتصال WebSocket استفاده می کند. هنگامی که با API تعامل می کنید، یک اتصال دائمی ایجاد می شود. ورودی شما (صوت، ویدیو یا متن) به طور مداوم به مدل پخش می شود و پاسخ مدل (متن یا صدا) در زمان واقعی از طریق همان اتصال پخش می شود.

این جریان دو طرفه تأخیر کم را تضمین می کند و از ویژگی هایی مانند تشخیص فعالیت صوتی، استفاده از ابزار و تولید گفتار پشتیبانی می کند.

نمای کلی API زنده

برای اطلاعات بیشتر در مورد WebSockets API اساسی، به مرجع WebSockets API مراجعه کنید.

تولید خروجی

Live API ورودی های چندوجهی (متن، صدا، ویدئو) را برای تولید متن یا صدا در زمان واقعی پردازش می کند. این دستگاه دارای مکانیزم داخلی برای تولید صدا است و بسته به نسخه مدلی که استفاده می کنید، از یکی از دو روش تولید صدا استفاده می کند:

  • نیم آبشار : مدل ورودی صوتی بومی را دریافت می‌کند و از یک آبشار مدل تخصصی از مدل‌های متمایز برای پردازش ورودی و تولید خروجی صدا استفاده می‌کند.
  • بومی : Gemini 2.5 تولید صدای بومی را معرفی می‌کند که مستقیماً خروجی صوتی تولید می‌کند، صدایی طبیعی‌تر، صداهای رساتر، آگاهی بیشتر از زمینه اضافی، به عنوان مثال، لحن، و پاسخ‌های فعال‌تر را ارائه می‌دهد.

ساخت با Live API

قبل از شروع ساخت با Live API، رویکرد تولید صدا را انتخاب کنید که به بهترین وجه با نیازهای شما مطابقت دارد.

برقراری ارتباط

مثال زیر نحوه ایجاد ارتباط با کلید API را نشان می دهد:

import asyncio
from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")

model = "gemini-2.0-flash-live-001"
config = {"response_modalities": ["TEXT"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        print("Session started")

if __name__ == "__main__":
    asyncio.run(main())
import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({ apiKey: "GOOGLE_API_KEY" });
const model = 'gemini-2.0-flash-live-001';
const config = { responseModalities: [Modality.TEXT] };

async function main() {

    const session = await ai.live.connect({
        model: model,
        callbacks: {
            onopen: function () {
                console.debug('Opened');
            },
            onmessage: function (message) {
                console.debug(message);
            },
            onerror: function (e) {
                console.debug('Error:', e.message);
            },
            onclose: function (e) {
                console.debug('Close:', e.reason);
            },
        },
        config: config,
    });

    // Send content...

    session.close();
}

main();

ارسال و دریافت متن

در اینجا نحوه ارسال و دریافت متن آورده شده است:

import asyncio
from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")
model = "gemini-2.0-flash-live-001"

config = {"response_modalities": ["TEXT"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        message = "Hello, how are you?"
        await session.send_client_content(
            turns={"role": "user", "parts": [{"text": message}]}, turn_complete=True
        )

        async for response in session.receive():
            if response.text is not None:
                print(response.text, end="")

if __name__ == "__main__":
    asyncio.run(main())
import { GoogleGenAI, Modality } from '@google/genai';

const ai = new GoogleGenAI({ apiKey: "GOOGLE_API_KEY" });
const model = 'gemini-2.0-flash-live-001';
const config = { responseModalities: [Modality.TEXT] };

async function live() {
    const responseQueue = [];

    async function waitMessage() {
        let done = false;
        let message = undefined;
        while (!done) {
            message = responseQueue.shift();
            if (message) {
                done = true;
            } else {
                await new Promise((resolve) => setTimeout(resolve, 100));
            }
        }
        return message;
    }

    async function handleTurn() {
        const turns = [];
        let done = false;
        while (!done) {
            const message = await waitMessage();
            turns.push(message);
            if (message.serverContent && message.serverContent.turnComplete) {
                done = true;
            }
        }
        return turns;
    }

    const session = await ai.live.connect({
        model: model,
        callbacks: {
            onopen: function () {
                console.debug('Opened');
            },
            onmessage: function (message) {
                responseQueue.push(message);
            },
            onerror: function (e) {
                console.debug('Error:', e.message);
            },
            onclose: function (e) {
                console.debug('Close:', e.reason);
            },
        },
        config: config,
    });

    const simple = 'Hello how are you?';
    session.sendClientContent({ turns: simple });

    const turns = await handleTurn();
    for (const turn of turns) {
        if (turn.text) {
            console.debug('Received text: %s\n', turn.text);
        }
        else if (turn.data) {
            console.debug('Received inline data: %s\n', turn.data);
        }
    }

    session.close();
}

async function main() {
    await live().catch((e) => console.error('got error', e));
}

main();

ارسال و دریافت صدا

می توانید صدا را با تبدیل آن به فرمت PCM 16 بیتی، 16 کیلوهرتز، مونو ارسال کنید. این مثال یک فایل WAV را می خواند و آن را با فرمت صحیح ارسال می کند:

# Test file: https://storage.googleapis.com/generativeai-downloads/data/16000.wav
# Install helpers for converting files: pip install librosa soundfile
import asyncio
import io
from pathlib import Path
from google import genai
from google.genai import types
import soundfile as sf
import librosa

client = genai.Client(api_key="GEMINI_API_KEY")
model = "gemini-2.0-flash-live-001"

config = {"response_modalities": ["TEXT"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:

        buffer = io.BytesIO()
        y, sr = librosa.load("sample.wav", sr=16000)
        sf.write(buffer, y, sr, format='RAW', subtype='PCM_16')
        buffer.seek(0)
        audio_bytes = buffer.read()

        # If already in correct format, you can use this:
        # audio_bytes = Path("sample.pcm").read_bytes()

        await session.send_realtime_input(
            audio=types.Blob(data=audio_bytes, mime_type="audio/pcm;rate=16000")
        )

        async for response in session.receive():
            if response.text is not None:
                print(response.text)

if __name__ == "__main__":
    asyncio.run(main())
// Test file: https://storage.googleapis.com/generativeai-downloads/data/16000.wav
// Install helpers for converting files: npm install wavefile
import { GoogleGenAI, Modality } from '@google/genai';
import * as fs from "node:fs";
import pkg from 'wavefile';
const { WaveFile } = pkg;

const ai = new GoogleGenAI({ apiKey: "GOOGLE_API_KEY" });
const model = 'gemini-2.0-flash-live-001';
const config = { responseModalities: [Modality.TEXT] };

async function live() {
    const responseQueue = [];

    async function waitMessage() {
        let done = false;
        let message = undefined;
        while (!done) {
            message = responseQueue.shift();
            if (message) {
                done = true;
            } else {
                await new Promise((resolve) => setTimeout(resolve, 100));
            }
        }
        return message;
    }

    async function handleTurn() {
        const turns = [];
        let done = false;
        while (!done) {
            const message = await waitMessage();
            turns.push(message);
            if (message.serverContent && message.serverContent.turnComplete) {
                done = true;
            }
        }
        return turns;
    }

    const session = await ai.live.connect({
        model: model,
        callbacks: {
            onopen: function () {
                console.debug('Opened');
            },
            onmessage: function (message) {
                responseQueue.push(message);
            },
            onerror: function (e) {
                console.debug('Error:', e.message);
            },
            onclose: function (e) {
                console.debug('Close:', e.reason);
            },
        },
        config: config,
    });

    // Send Audio Chunk
    const fileBuffer = fs.readFileSync("sample.wav");

    // Ensure audio conforms to API requirements (16-bit PCM, 16kHz, mono)
    const wav = new WaveFile();
    wav.fromBuffer(fileBuffer);
    wav.toSampleRate(16000);
    wav.toBitDepth("16");
    const base64Audio = wav.toBase64();

    // If already in correct format, you can use this:
    // const fileBuffer = fs.readFileSync("sample.pcm");
    // const base64Audio = Buffer.from(fileBuffer).toString('base64');

    session.sendRealtimeInput(
        {
            audio: {
                data: base64Audio,
                mimeType: "audio/pcm;rate=16000"
            }
        }

    );

    const turns = await handleTurn();
    for (const turn of turns) {
        if (turn.text) {
            console.debug('Received text: %s\n', turn.text);
        }
        else if (turn.data) {
            console.debug('Received inline data: %s\n', turn.data);
        }
    }

    session.close();
}

async function main() {
    await live().catch((e) => console.error('got error', e));
}

main();

با تنظیم AUDIO به عنوان حالت پاسخ می توانید صدا را دریافت کنید. این مثال داده های دریافتی را به عنوان فایل WAV ذخیره می کند:

import asyncio
import wave
from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")
model = "gemini-2.0-flash-live-001"

config = {"response_modalities": ["AUDIO"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        wf = wave.open("audio.wav", "wb")
        wf.setnchannels(1)
        wf.setsampwidth(2)
        wf.setframerate(24000)

        message = "Hello how are you?"
        await session.send_client_content(
            turns={"role": "user", "parts": [{"text": message}]}, turn_complete=True
        )

        async for idx,response in async_enumerate(session.receive()):
            if response.data is not None:
                wf.writeframes(response.data)

            # Un-comment this code to print audio data info
            # if response.server_content.model_turn is not None:
            #      print(response.server_content.model_turn.parts[0].inline_data.mime_type)

        wf.close()

if __name__ == "__main__":
    asyncio.run(main())
import { GoogleGenAI, Modality } from '@google/genai';

const ai = new GoogleGenAI({ apiKey: "GOOGLE_API_KEY" });
const model = 'gemini-2.0-flash-live-001';
const config = { responseModalities: [Modality.AUDIO] };

async function live() {
    const responseQueue = [];

    async function waitMessage() {
        let done = false;
        let message = undefined;
        while (!done) {
            message = responseQueue.shift();
            if (message) {
                done = true;
            } else {
                await new Promise((resolve) => setTimeout(resolve, 100));
            }
        }
        return message;
    }

    async function handleTurn() {
        const turns = [];
        let done = false;
        while (!done) {
            const message = await waitMessage();
            turns.push(message);
            if (message.serverContent && message.serverContent.turnComplete) {
                done = true;
            }
        }
        return turns;
    }

    const session = await ai.live.connect({
        model: model,
        callbacks: {
            onopen: function () {
                console.debug('Opened');
            },
            onmessage: function (message) {
                responseQueue.push(message);
            },
            onerror: function (e) {
                console.debug('Error:', e.message);
            },
            onclose: function (e) {
                console.debug('Close:', e.reason);
            },
        },
        config: config,
    });

    const simple = 'Hello how are you?';
    session.sendClientContent({ turns: simple });

    const turns = await handleTurn();

    // Combine audio data strings and save as wave file
    const combinedAudio = turns.reduce((acc, turn) => {
        if (turn.data) {
            const buffer = Buffer.from(turn.data, 'base64');
            const intArray = new Int16Array(buffer.buffer, buffer.byteOffset, buffer.byteLength / Int16Array.BYTES_PER_ELEMENT);
            return acc.concat(Array.from(intArray));
        }
        return acc;
    }, []);

    const audioBuffer = new Int16Array(combinedAudio);

    const wf = new WaveFile();
    wf.fromScratch(1, 24000, '16', audioBuffer);
    fs.writeFileSync('output.wav', wf.toBuffer());

    session.close();
}

async function main() {
    await live().catch((e) => console.error('got error', e));
}

main();

فرمت های صوتی

داده‌های صوتی در Live API همیشه خام، کم‌کمک و PCM 16 بیتی است. خروجی صدا همیشه از نرخ نمونه 24 کیلوهرتز استفاده می کند. صدای ورودی به طور طبیعی 16 کیلوهرتز است، اما Live API در صورت نیاز مجدداً نمونه‌گیری می‌کند تا هر نرخ نمونه ارسال شود. برای انتقال نرخ نمونه صدای ورودی، نوع MIME هر Blob حاوی صدا را روی مقداری مانند audio/pcm;rate=16000 تنظیم کنید.

دریافت رونوشت های صوتی

می‌توانید با ارسال output_audio_transcription در تنظیمات تنظیمات، رونویسی خروجی صدای مدل را فعال کنید. زبان رونویسی از پاسخ مدل استنباط می شود.

import asyncio
from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")
model = "gemini-2.0-flash-live-001"

config = {"response_modalities": ["AUDIO"],
          "output_audio_transcription": {}
}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        message = "Hello? Gemini are you there?"

        await session.send_client_content(
            turns={"role": "user", "parts": [{"text": message}]}, turn_complete=True
        )

        async for response in session.receive():
            if response.server_content.model_turn:
                print("Model turn:", response.server_content.model_turn)
            if response.server_content.output_transcription:
                print("Transcript:", response.server_content.output_transcription.text)


if __name__ == "__main__":
    asyncio.run(main())

می‌توانید با ارسال input_audio_transcription در تنظیمات تنظیمات، رونویسی ورودی صوتی را فعال کنید.

import asyncio
from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")
model = "gemini-2.0-flash-live-001"

config = {"response_modalities": ["TEXT"],
    "realtime_input_config": {
        "automatic_activity_detection": {"disabled": True},
        "activity_handling": "NO_INTERRUPTION",
    },
    "input_audio_transcription": {},
}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        audio_data = Path("sample.pcm").read_bytes()

        await session.send_realtime_input(activity_start=types.ActivityStart())
        await session.send_realtime_input(
            audio=types.Blob(data=audio_data, mime_type='audio/pcm;rate=16000')
        )
        await session.send_realtime_input(activity_end=types.ActivityEnd())

        async for msg in session.receive():
            if msg.server_content.input_transcription:
                print('Transcript:', msg.server_content.input_transcription.text)

if __name__ == "__main__":
    asyncio.run(main())

پخش صدا و تصویر

دستورالعمل های سیستم

دستورالعمل های سیستم به شما امکان می دهد رفتار یک مدل را بر اساس نیازهای خاص و موارد استفاده خود هدایت کنید. دستورالعمل‌های سیستم را می‌توان در پیکربندی راه‌اندازی تنظیم کرد و برای کل جلسه قابل اجرا خواهد بود.

from google.genai import types

config = {
    "system_instruction": types.Content(
        parts=[
            types.Part(
                text="You are a helpful assistant and answer in a friendly tone."
            )
        ]
    ),
    "response_modalities": ["TEXT"],
}

به روز رسانی افزایشی محتوا

از به‌روزرسانی‌های افزایشی برای ارسال ورودی متن، ایجاد زمینه جلسه یا بازیابی بافت جلسه استفاده کنید. برای زمینه‌های کوتاه، می‌توانید تعاملات گام به گام را برای نشان دادن توالی دقیق رویدادها ارسال کنید:

turns = [
    {"role": "user", "parts": [{"text": "What is the capital of France?"}]},
    {"role": "model", "parts": [{"text": "Paris"}]},
]

await session.send_client_content(turns=turns, turn_complete=False)

turns = [{"role": "user", "parts": [{"text": "What is the capital of Germany?"}]}]

await session.send_client_content(turns=turns, turn_complete=True)
{
  "clientContent": {
    "turns": [
      {
        "parts":[
          {
            "text": ""
          }
        ],
        "role":"user"
      },
      {
        "parts":[
          {
            "text": ""
          }
        ],
        "role":"model"
      }
    ],
    "turnComplete": true
  }
}

برای زمینه‌های طولانی‌تر، توصیه می‌شود یک خلاصه پیام واحد ارائه کنید تا پنجره زمینه برای تعاملات بعدی آزاد شود.

تغییر صدا و زبان

Live API از صداهای زیر پشتیبانی می کند: Puck، Charon، Kore، Fenrir، Aoede، Leda، Orus و Zephyr.

برای تعیین یک صدا، نام صدا را در شی speechConfig به عنوان بخشی از پیکربندی جلسه تنظیم کنید:

from google.genai import types

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    speech_config=types.SpeechConfig(
        voice_config=types.VoiceConfig(
            prebuilt_voice_config=types.PrebuiltVoiceConfig(voice_name="Kore")
        )
    )
)
{
  "voiceConfig": {
    "prebuiltVoiceConfig": {
      "voiceName": "Kore"
    }
  }
}

Live API از چندین زبان پشتیبانی می کند.

برای تغییر زبان، کد زبان را در شی speechConfig به عنوان بخشی از پیکربندی جلسه تنظیم کنید:

from google.genai import types

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    speech_config=types.SpeechConfig(
        language_code="de-DE",
    )
)

خروجی صدای بومی

از طریق Live API، می‌توانید به مدل‌هایی نیز دسترسی داشته باشید که علاوه بر ورودی صوتی بومی، امکان خروجی صدای بومی را نیز فراهم می‌کنند. این امکان خروجی های صوتی با کیفیت بالاتر با سرعت بهتر، طبیعی بودن صدا، پرحرفی و خلق و خوی بهتر را فراهم می کند.

خروجی صدای بومی توسط مدل های صوتی بومی زیر پشتیبانی می شود:

  • gemini-2.5-flash-preview-native-audio-dialog
  • gemini-2.5-flash-exp-native-audio-thinking-dialog

نحوه استفاده از خروجی صوتی بومی

برای استفاده از خروجی صدای بومی، یکی از مدل های صوتی بومی را پیکربندی کنید و response_modalities روی AUDIO تنظیم کنید:

model = "gemini-2.5-flash-preview-native-audio-dialog"
config = types.LiveConnectConfig(response_modalities=["AUDIO"])

async with client.aio.live.connect(model=model, config=config) as session:
    # Send audio input and receive audio

گفتگوی تاثیرگذار

این ویژگی به Gemini اجازه می دهد تا سبک پاسخ خود را با عبارت ورودی و لحن تطبیق دهد.

برای استفاده از گفتگوی عاطفی، enable_affective_dialog در پیام راه‌اندازی روی true تنظیم کنید:

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    enable_affective_dialog=True
)

توجه داشته باشید که گفتگوی عاطفی در حال حاضر فقط توسط مدل های خروجی صوتی بومی پشتیبانی می شود.

صوتی فعال

وقتی این ویژگی فعال است، Gemini می‌تواند فعالانه تصمیم بگیرد که اگر محتوا مرتبط نیست، پاسخی ندهد.

برای استفاده از آن، قسمت proactivity را در پیام راه‌اندازی پیکربندی کنید و proactive_audio روی true تنظیم کنید:

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    proactivity={'proactive_audio': True}
)

توجه داشته باشید که صدای پیشگیرانه در حال حاضر فقط توسط مدل های خروجی صوتی بومی پشتیبانی می شود.

خروجی صوتی بومی با تفکر

خروجی صدای بومی از قابلیت‌های تفکر پشتیبانی می‌کند که از طریق یک مدل جداگانه gemini-2.5-flash-exp-native-audio-thinking-dialog در دسترس است.

model = "gemini-2.5-flash-exp-native-audio-thinking-dialog"
config = types.LiveConnectConfig(response_modalities=["AUDIO"])

async with client.aio.live.connect(model=model, config=config) as session:
    # Send audio input and receive audio

استفاده از ابزار با Live API

می‌توانید ابزارهایی مانند فراخوانی تابع ، اجرای کد و جستجوی Google را با Live API تعریف کنید.

مروری بر ابزارهای پشتیبانی شده

در اینجا یک مرور مختصر از ابزارهای موجود برای هر مدل آورده شده است:

ابزار مدل های آبشاری
gemini-2.0-flash-live-001
gemini-2.5-flash-preview-native-audio-dialog gemini-2.5-flash-exp-native-audio-thinking-dialog
جستجو کنید بله بله بله
فراخوانی تابع بله بله خیر
اجرای کد بله خیر خیر
زمینه URL بله خیر خیر

فراخوانی تابع

شما می توانید اعلان های تابع را به عنوان بخشی از پیکربندی جلسه تعریف کنید. برای کسب اطلاعات بیشتر به آموزش فراخوانی تابع مراجعه کنید.

پس از دریافت تماس های ابزار، مشتری باید با لیستی از اشیاء FunctionResponse با استفاده از روش session.send_tool_response پاسخ دهد.

import asyncio
from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")
model = "gemini-2.0-flash-live-001"

# Simple function definitions
turn_on_the_lights = {"name": "turn_on_the_lights"}
turn_off_the_lights = {"name": "turn_off_the_lights"}

tools = [{"function_declarations": [turn_on_the_lights, turn_off_the_lights]}]
config = {"response_modalities": ["TEXT"], "tools": tools}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        prompt = "Turn on the lights please"
        await session.send_client_content(turns={"parts": [{"text": prompt}]})

        async for chunk in session.receive():
            if chunk.server_content:
                if chunk.text is not None:
                    print(chunk.text)
            elif chunk.tool_call:
                function_responses = []
                for fc in tool_call.function_calls:
                    function_response = types.FunctionResponse(
                        id=fc.id,
                        name=fc.name,
                        response={ "result": "ok" } # simple, hard-coded function response
                    )
                    function_responses.append(function_response)

                await session.send_tool_response(function_responses=function_responses)


if __name__ == "__main__":
    asyncio.run(main())

از یک اعلان واحد، مدل می تواند چندین فراخوانی تابع و کدهای لازم برای زنجیره خروجی های آنها را ایجاد کند. این کد در محیط sandbox اجرا می شود و پیام های BidiGenerateContentToolCall بعدی را ایجاد می کند.

فراخوانی تابع ناهمزمان

به طور پیش فرض، اجرا متوقف می شود تا زمانی که نتایج هر فراخوانی در دسترس باشد، که پردازش متوالی را تضمین می کند. این بدان معنی است که شما نمی توانید در حین اجرای عملکردها به تعامل با مدل ادامه دهید.

اگر نمی خواهید مکالمه را مسدود کنید، می توانید به مدل بگویید که توابع را به صورت ناهمزمان اجرا کند.

برای انجام این کار، ابتدا باید یک behavior به تعاریف تابع اضافه کنید:

  # Non-blocking function definitions
  turn_on_the_lights = {"name": "turn_on_the_lights", "behavior": "NON_BLOCKING"} # turn_on_the_lights will run asynchronously
  turn_off_the_lights = {"name": "turn_off_the_lights"} # turn_off_the_lights will still pause all interactions with the model

NON-BLOCKING اطمینان حاصل می کند که عملکرد به صورت ناهمزمان اجرا می شود در حالی که می توانید به تعامل با مدل ادامه دهید.

سپس باید به مدل بگویید که وقتی FunctionResponse را با استفاده از پارامتر scheduling دریافت می‌کند چگونه رفتار کند. می تواند یا:

  • کاری را که انجام می دهد قطع کنید و فوراً در مورد پاسخی که دریافت کرده به شما بگوید ( scheduling="INTERRUPT" )
  • صبر کنید تا با کاری که در حال حاضر انجام می دهد به پایان برسد ( scheduling="WHEN_IDLE"
  • یا کاری انجام ندهید و بعداً در بحث از آن دانش استفاده کنید ( scheduling="SILENT" )
# Non-blocking function definitions
  function_response = types.FunctionResponse(
      id=fc.id,
      name=fc.name,
      response={
          "result": "ok",
          "scheduling": "INTERRUPT" # Can also be WHEN_IDLE or SILENT
      }
  )

اجرای کد

شما می توانید اجرای کد را به عنوان بخشی از پیکربندی جلسه تعریف کنید. برای کسب اطلاعات بیشتر به آموزش اجرای کد مراجعه کنید.

import asyncio
from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")
model = "gemini-2.0-flash-live-001"

tools = [{'code_execution': {}}]
config = {"response_modalities": ["TEXT"], "tools": tools}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        prompt = "Compute the largest prime palindrome under 100000."
        await session.send_client_content(turns={"parts": [{"text": prompt}]})

        async for chunk in session.receive():
            if chunk.server_content:
                if chunk.text is not None:
                    print(chunk.text)
            
                model_turn = chunk.server_content.model_turn
                if model_turn:
                    for part in model_turn.parts:
                      if part.executable_code is not None:
                        print(part.executable_code.code)

                      if part.code_execution_result is not None:
                        print(part.code_execution_result.output)

if __name__ == "__main__":
    asyncio.run(main())

می توانید Grounding با جستجوی Google را به عنوان بخشی از پیکربندی جلسه فعال کنید. برای کسب اطلاعات بیشتر به آموزش Grounding مراجعه کنید.

import asyncio
from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")
model = "gemini-2.0-flash-live-001"

tools = [{'google_search': {}}]
config = {"response_modalities": ["TEXT"], "tools": tools}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        prompt = "When did the last Brazil vs. Argentina soccer match happen?"
        await session.send_client_content(turns={"parts": [{"text": prompt}]})

        async for chunk in session.receive():
            if chunk.server_content:
                if chunk.text is not None:
                    print(chunk.text)

                # The model might generate and execute Python code to use Search
                model_turn = chunk.server_content.model_turn
                if model_turn:
                    for part in model_turn.parts:
                      if part.executable_code is not None:
                        print(part.executable_code.code)

                      if part.code_execution_result is not None:
                        print(part.code_execution_result.output)

if __name__ == "__main__":
    asyncio.run(main())

ترکیب چندین ابزار

می توانید چندین ابزار را در Live API ترکیب کنید:

prompt = """
Hey, I need you to do three things for me.

1. Compute the largest prime palindrome under 100000.
2. Then use Google Search to look up information about the largest earthquake in California the week of Dec 5 2024?
3. Turn on the lights

Thanks!
"""

tools = [
    {"google_search": {}},
    {"code_execution": {}},
    {"function_declarations": [turn_on_the_lights, turn_off_the_lights]},
]

config = {"response_modalities": ["TEXT"], "tools": tools}

رسیدگی به وقفه ها

کاربران می توانند خروجی مدل را در هر زمانی قطع کنند. هنگامی که تشخیص فعالیت صوتی (VAD) یک وقفه را تشخیص می‌دهد، تولید در حال انجام لغو و کنار گذاشته می‌شود. فقط اطلاعاتی که قبلاً برای مشتری ارسال شده است در تاریخچه جلسه حفظ می شود. سپس سرور یک پیام BidiGenerateContentServerContent برای گزارش وقفه ارسال می کند.

بعلاوه، سرور Gemini هرگونه تماس تابع معلق را کنار می گذارد و یک پیام BidiGenerateContentServerContent با شناسه تماس های لغو شده ارسال می کند.

async for response in session.receive():
    if response.server_content.interrupted is True:
        # The generation was interrupted

تشخیص فعالیت صوتی (VAD)

می توانید تشخیص فعالیت صوتی (VAD) را پیکربندی یا غیرفعال کنید.

استفاده از VAD خودکار

به‌طور پیش‌فرض، مدل به‌طور خودکار VAD را روی یک جریان ورودی صوتی پیوسته انجام می‌دهد. VAD را می توان با فیلد realtimeInputConfig.automaticActivityDetection پیکربندی راه اندازی پیکربندی کرد.

هنگامی که جریان صوتی برای بیش از یک ثانیه متوقف می‌شود (مثلاً به دلیل خاموش کردن میکروفون توسط کاربر)، باید یک رویداد audioStreamEnd ارسال شود تا هر صدای ذخیره شده در حافظه پنهان پاک شود. مشتری می تواند در هر زمانی ارسال داده های صوتی را از سر بگیرد.

# example audio file to try:
# URL = "https://storage.googleapis.com/generativeai-downloads/data/hello_are_you_there.pcm"
# !wget -q $URL -O sample.pcm
import asyncio
from pathlib import Path
from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")
model = "gemini-2.0-flash-live-001"

config = {"response_modalities": ["TEXT"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        audio_bytes = Path("sample.pcm").read_bytes()

        await session.send_realtime_input(
            audio=types.Blob(data=audio_bytes, mime_type="audio/pcm;rate=16000")
        )

        # if stream gets paused, send:
        # await session.send_realtime_input(audio_stream_end=True)

        async for response in session.receive():
            if response.text is not None:
                print(response.text)

if __name__ == "__main__":
    asyncio.run(main())

با send_realtime_input ، API به طور خودکار بر اساس VAD به صدا پاسخ می دهد. در حالی که send_client_content پیام‌ها را به ترتیب به بافت مدل اضافه می‌کند، send_realtime_input برای پاسخگویی به هزینه ترتیب‌بندی قطعی بهینه می‌شود.

پیکربندی VAD خودکار

برای کنترل بیشتر بر فعالیت VAD، می توانید پارامترهای زیر را پیکربندی کنید. برای اطلاعات بیشتر به مرجع API مراجعه کنید.

from google.genai import types

config = {
    "response_modalities": ["TEXT"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": types.StartSensitivity.START_SENSITIVITY_LOW,
            "end_of_speech_sensitivity": types.EndSensitivity.END_SENSITIVITY_LOW,
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}

غیرفعال کردن VAD خودکار

از طرف دیگر، VAD خودکار را می‌توان با تنظیم realtimeInputConfig.automaticActivityDetection.disabled روی true در پیام راه‌اندازی غیرفعال کرد. در این پیکربندی، کلاینت مسئول تشخیص گفتار کاربر و ارسال پیام های activityStart و activityEnd در زمان های مناسب است. یک audioStreamEnd در این پیکربندی ارسال نشده است. در عوض، هرگونه وقفه در جریان با یک پیام activityEnd مشخص می شود.

config = {
    "response_modalities": ["TEXT"],
    "realtime_input_config": {"automatic_activity_detection": {"disabled": True}},
}

async with client.aio.live.connect(model=model, config=config) as session:
    # ...
    await session.send_realtime_input(activity_start=types.ActivityStart())
    await session.send_realtime_input(
        audio=types.Blob(data=audio_bytes, mime_type="audio/pcm;rate=16000")
    )
    await session.send_realtime_input(activity_end=types.ActivityEnd())
    # ...

شمارش توکن

می توانید تعداد کل نشانه های مصرف شده را در قسمت usageMetadata پیام سرور برگشتی پیدا کنید.

async for message in session.receive():
    # The server will periodically send messages that include UsageMetadata.
    if message.usage_metadata:
        usage = message.usage_metadata
        print(
            f"Used {usage.total_token_count} tokens in total. Response token breakdown:"
        )
        for detail in usage.response_tokens_details:
            match detail:
                case types.ModalityTokenCount(modality=modality, token_count=count):
                    print(f"{modality}: {count}")

تمدید مدت زمان جلسه

حداکثر مدت جلسه را می توان با دو مکانیسم تا نامحدود افزایش داد:

علاوه بر این، قبل از پایان جلسه یک پیام GoAway دریافت خواهید کرد که به شما امکان می دهد اقدامات بیشتری انجام دهید.

فشرده سازی پنجره زمینه

برای فعال کردن جلسات طولانی تر و جلوگیری از قطع ناگهانی اتصال، می توانید فشرده سازی پنجره زمینه را با تنظیم فیلد contextWindowCompression به عنوان بخشی از پیکربندی جلسه فعال کنید.

در ContextWindowCompressionConfig ، می‌توانید مکانیزم پنجره کشویی و تعداد نشانه‌هایی را که فشرده‌سازی را آغاز می‌کنند، پیکربندی کنید.

from google.genai import types

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    context_window_compression=(
        # Configures compression with default parameters.
        types.ContextWindowCompressionConfig(
            sliding_window=types.SlidingWindow(),
        )
    ),
)

از سرگیری جلسه

برای جلوگیری از خاتمه جلسه هنگامی که سرور به طور دوره ای اتصال WebSocket را بازنشانی می کند، فیلد sessionResumption را در پیکربندی راه اندازی پیکربندی کنید.

عبور از این پیکربندی باعث می‌شود سرور پیام‌های SessionResumptionUpdate را ارسال کند، که می‌توان با ارسال آخرین نشانه Resumption به عنوان SessionResumptionConfig.handle از اتصال بعدی، جلسه را از سر گرفت.

import asyncio
from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")
model = "gemini-2.0-flash-live-001"

async def main():
    print(f"Connecting to the service with handle {previous_session_handle}...")
    async with client.aio.live.connect(
        model=model,
        config=types.LiveConnectConfig(
            response_modalities=["AUDIO"],
            session_resumption=types.SessionResumptionConfig(
                # The handle of the session to resume is passed here,
                # or else None to start a new session.
                handle=previous_session_handle
            ),
        ),
    ) as session:
        while True:
            await session.send_client_content(
                turns=types.Content(
                    role="user", parts=[types.Part(text="Hello world!")]
                )
            )
            async for message in session.receive():
                # Periodically, the server will send update messages that may
                # contain a handle for the current state of the session.
                if message.session_resumption_update:
                    update = message.session_resumption_update
                    if update.resumable and update.new_handle:
                        # The handle should be retained and linked to the session.
                        return update.new_handle

                # For the purposes of this example, placeholder input is continually fed
                # to the model. In non-sample code, the model inputs would come from
                # the user.
                if message.server_content and message.server_content.turn_complete:
                    break

if __name__ == "__main__":
    asyncio.run(main())

دریافت پیام قبل از قطع شدن جلسه

سرور یک پیام GoAway ارسال می کند که سیگنال می دهد که اتصال فعلی به زودی قطع خواهد شد. این پیام شامل timeLeft است که زمان باقیمانده را نشان می‌دهد و به شما امکان می‌دهد تا قبل از اینکه اتصال به‌عنوان ABORTED قطع شود، اقدامات بیشتری انجام دهید.

async for response in session.receive():
    if response.go_away is not None:
        # The connection will soon be terminated
        print(response.go_away.time_left)

دریافت پیام پس از تکمیل نسل

سرور یک پیام GenerationComplete می فرستد که سیگنال می دهد که مدل تولید پاسخ را به پایان رسانده است.

async for response in session.receive():
    if response.server_content.generation_complete is True:
        # The generation is complete

وضوح رسانه

می توانید با تنظیم فیلد mediaResolution به عنوان بخشی از پیکربندی جلسه، وضوح رسانه را برای رسانه ورودی مشخص کنید:

from google.genai import types

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_LOW,
)

محدودیت ها

هنگام برنامه ریزی پروژه خود، محدودیت های زیر را برای Live API در نظر بگیرید.

روش های پاسخگویی

در پیکربندی جلسه فقط می توانید یک حالت پاسخ ( TEXT یا AUDIO ) را در هر جلسه تنظیم کنید. تنظیم هر دو منجر به یک پیام خطای پیکربندی می شود. این بدان معناست که می‌توانید مدل را طوری پیکربندی کنید که با متن یا صدا پاسخ دهد، اما نه هر دو در یک جلسه.

احراز هویت مشتری

Live API فقط احراز هویت سرور به سرور را ارائه می دهد و برای استفاده مستقیم از مشتری توصیه نمی شود. ورودی مشتری باید از طریق یک سرور برنامه میانی برای احراز هویت امن با Live API هدایت شود.

مدت زمان جلسه

مدت زمان جلسه را می توان با فعال کردن فشرده سازی جلسه تا نامحدود افزایش داد. بدون فشرده سازی، جلسات فقط صوتی به 15 دقیقه و جلسات صوتی به علاوه ویدیو به 2 دقیقه محدود می شود. تجاوز از این محدودیت ها بدون فشرده سازی، اتصال را قطع می کند.

علاوه بر این، می‌توانید از سرگیری جلسه را به گونه‌ای پیکربندی کنید که به مشتری اجازه دهد جلسه‌ای را که خاتمه یافته است از سر بگیرد.

پنجره زمینه

یک جلسه دارای محدودیت پنجره زمینه است:

زبان های پشتیبانی شده

Live API از زبان های زیر پشتیبانی می کند.

زبان کد BCP-47
آلمانی (آلمان) de-DE
انگلیسی (استرالیا) en-AU
انگلیسی (بریتانیا) en-GB
انگلیسی (هند) en-IN
انگلیسی (ایالات متحده) en-US
اسپانیایی (ایالات متحده آمریکا) es-US
فرانسوی (فرانسه) fr-FR
هندی (هند) سلام ورود
پرتغالی (برزیل) pt-BR
عربی (عمومی) ar-XA
اسپانیایی (اسپانیا) es-ES
فرانسوی (کانادا) fr-CA
اندونزیایی (اندونزی) شناسه
ایتالیایی (ایتالیا) it-IT
ژاپنی (ژاپن) ja-JP
ترکی (ترکیه) tr-TR
ویتنامی (ویتنام) vi-VN
بنگالی (هند) bn-IN
گجراتی (هند) gu-IN
کانادا (هند) kn-IN
مالایالام (هند) ml-IN
مراتی (هند) mr-IN
تامیل (هند) ta-IN
تلوگو (هند) te-IN
هلندی (هلند) nl-NL
کره ای (کره جنوبی) ko-KR
چینی ماندارین (چین) cmn-CN
لهستانی (لهستان) pl-PL
روسی (روسیه) ru-RU
تایلندی (تایلند) th-TH

ادغام های شخص ثالث

برای استقرار برنامه های وب و تلفن همراه، می توانید گزینه های زیر را بررسی کنید:

بعدش چی