Live API

Live API تعامل صوتی و تصویری دو جهته با تأخیر کم با Gemini را امکان پذیر می کند. با استفاده از Live API، می‌توانید تجربه مکالمات صوتی طبیعی و شبیه انسان را در اختیار کاربران نهایی قرار دهید و با استفاده از دستورات صوتی، پاسخ‌های مدل را قطع کنید. این مدل می تواند ورودی متن، صدا و تصویر را پردازش کند و می تواند متن و خروجی صدا را ارائه دهد.

می‌توانید Live API را در Google AI Studio امتحان کنید.

چه خبر است

Live API ویژگی ها و قابلیت های جدیدی دارد!

قابلیت های جدید:

  • دو صدای جدید و 30 زبان جدید، با زبان خروجی قابل تنظیم
  • وضوح تصویر قابل تنظیم 66/256 توکن
  • پوشش نوبتی قابل تنظیم: همه ورودی ها را همیشه یا فقط زمانی که کاربر در حال صحبت است ارسال کنید
  • پیکربندی کنید که آیا ورودی باید مدل را قطع کند یا خیر
  • تشخیص فعالیت صوتی قابل تنظیم و رویدادهای مشتری جدید برای سیگنال دهی پایان کار
  • توکن شمارش می شود
  • یک رویداد مشتری برای سیگنال دادن به پایان جریان
  • جریان متن
  • از سرگیری جلسه قابل تنظیم، با داده های جلسه به مدت 24 ساعت در سرور ذخیره می شود
  • پشتیبانی از جلسه طولانی تر با یک پنجره زمینه کشویی

رویدادهای مشتری جدید:

  • پایان پخش صدا / میکروفون بسته شد
  • رویدادهای شروع/پایان فعالیت برای کنترل دستی انتقال نوبت

رویدادهای سرور جدید:

  • اعلان‌هایی که نیاز به راه‌اندازی مجدد جلسه را نشان می‌دهند، کنار بروید
  • نسل کامل شد

از Live API استفاده کنید

این بخش نحوه استفاده از Live API را با یکی از SDK های ما شرح می دهد. برای اطلاعات بیشتر در مورد WebSockets API اساسی، به مرجع WebSockets API مراجعه کنید.

ارسال و دریافت متن

import asyncio
from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")
model = "gemini-2.0-flash-live-001"

config = {"response_modalities": ["TEXT"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        while True:
            message = input("User> ")
            if message.lower() == "exit":
                break
            await session.send_client_content(
                turns={"role": "user", "parts": [{"text": message}]}, turn_complete=True
            )

            async for response in session.receive():
                if response.text is not None:
                    print(response.text, end="")

if __name__ == "__main__":
    asyncio.run(main())

صدا را دریافت کنید

مثال زیر نحوه دریافت داده های صوتی و نوشتن آن ها در فایل .wav را نشان می دهد.

import asyncio
import wave
from google import genai

client = genai.Client(api_key="GEMINI_API_KEY", http_options={'api_version': 'v1alpha'})
model = "gemini-2.0-flash-live-001"

config = {"response_modalities": ["AUDIO"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        wf = wave.open("audio.wav", "wb")
        wf.setnchannels(1)
        wf.setsampwidth(2)
        wf.setframerate(24000)

        message = "Hello? Gemini are you there?"
        await session.send_client_content(
            turns={"role": "user", "parts": [{"text": message}]}, turn_complete=True
        )

        async for idx,response in async_enumerate(session.receive()):
            if response.data is not None:
                wf.writeframes(response.data)

            # Un-comment this code to print audio data info
            # if response.server_content.model_turn is not None:
            #      print(response.server_content.model_turn.parts[0].inline_data.mime_type)

        wf.close()

if __name__ == "__main__":
    asyncio.run(main())

فرمت های صوتی

Live API از فرمت های صوتی زیر پشتیبانی می کند:

  • فرمت صوتی ورودی: صدای خام 16 بیتی PCM با فرکانس 16 کیلوهرتز کمی اندین
  • فرمت صدای خروجی: صدای خام 16 بیتی PCM با فرکانس 24 کیلوهرتز کمی endian

پخش صدا و تصویر

دستورالعمل های سیستم

دستورالعمل های سیستم به شما امکان می دهد رفتار یک مدل را بر اساس نیازهای خاص و موارد استفاده خود هدایت کنید. دستورالعمل‌های سیستم را می‌توان در پیکربندی راه‌اندازی تنظیم کرد و برای کل جلسه قابل اجرا خواهد بود.

from google.genai import types

config = {
    "system_instruction": types.Content(
        parts=[
            types.Part(
                text="You are a helpful assistant and answer in a friendly tone."
            )
        ]
    ),
    "response_modalities": ["TEXT"],
}

به روز رسانی افزایشی محتوا

از به‌روزرسانی‌های افزایشی برای ارسال ورودی متن، ایجاد زمینه جلسه یا بازیابی بافت جلسه استفاده کنید. برای زمینه‌های کوتاه، می‌توانید تعاملات گام به گام را برای نشان دادن توالی دقیق رویدادها ارسال کنید:

turns = [
    {"role": "user", "parts": [{"text": "What is the capital of France?"}]},
    {"role": "model", "parts": [{"text": "Paris"}]},
]

await session.send_client_content(turns=turns, turn_complete=False)

turns = [{"role": "user", "parts": [{"text": "What is the capital of Germany?"}]}]

await session.send_client_content(turns=turns, turn_complete=True)
{
  "clientContent": {
    "turns": [
      {
        "parts":[
          {
            "text": ""
          }
        ],
        "role":"user"
      },
      {
        "parts":[
          {
            "text": ""
          }
        ],
        "role":"model"
      }
    ],
    "turnComplete": true
  }
}

برای زمینه‌های طولانی‌تر، توصیه می‌شود یک خلاصه پیام واحد ارائه کنید تا پنجره زمینه برای تعاملات بعدی آزاد شود.

صداها را تغییر دهید

Live API از صداهای زیر پشتیبانی می کند: Puck، Charon، Kore، Fenrir، Aoede، Leda، Orus و Zephyr.

برای تعیین یک صدا، نام صدا را در شی speechConfig به عنوان بخشی از پیکربندی جلسه تنظیم کنید:

from google.genai import types

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    speech_config=types.SpeechConfig(
        voice_config=types.VoiceConfig(
            prebuilt_voice_config=types.PrebuiltVoiceConfig(voice_name="Kore")
        )
    )
)
{
  "voiceConfig": {
    "prebuiltVoiceConfig": {
      "voiceName": "Kore"
    }
  }
}

از فراخوانی تابع استفاده کنید

شما می توانید ابزارها را با Live API تعریف کنید. برای کسب اطلاعات بیشتر در مورد فراخوانی تابع، آموزش فراخوانی تابع را ببینید.

ابزارها باید به عنوان بخشی از پیکربندی جلسه تعریف شوند:

config = types.LiveConnectConfig(
    response_modalities=["TEXT"],
    tools=[set_light_values]
)

async with client.aio.live.connect(model=model, config=config) as session:
    await session.send_client_content(
        turns={
            "role": "user",
            "parts": [{"text": "Turn the lights down to a romantic level"}],
        },
        turn_complete=True,
    )

    async for response in session.receive():
        print(response.tool_call)

از یک اعلان واحد، مدل می تواند چندین فراخوانی تابع و کدهای لازم برای زنجیره خروجی های آنها را ایجاد کند. این کد در محیط sandbox اجرا می شود و پیام های BidiGenerateContentToolCall بعدی را ایجاد می کند. اجرا متوقف می شود تا زمانی که نتایج هر فراخوانی در دسترس باشد، که پردازش متوالی را تضمین می کند.

مشتری باید با BidiGenerateContentToolResponse پاسخ دهد.

ورودی‌ها و خروجی‌های صوتی بر توانایی مدل برای استفاده از فراخوانی تابع تأثیر منفی می‌گذارند.

وقفه ها را مدیریت کنید

کاربران می توانند خروجی مدل را در هر زمانی قطع کنند. هنگامی که تشخیص فعالیت صوتی (VAD) یک وقفه را تشخیص می‌دهد، تولید در حال انجام لغو و کنار گذاشته می‌شود. فقط اطلاعاتی که قبلاً برای مشتری ارسال شده است در تاریخچه جلسه حفظ می شود. سپس سرور یک پیام BidiGenerateContentServerContent برای گزارش وقفه ارسال می کند.

بعلاوه، سرور Gemini هرگونه تماس تابع معلق را کنار می گذارد و یک پیام BidiGenerateContentServerContent با شناسه تماس های لغو شده ارسال می کند.

async for response in session.receive():
    if response.server_content.interrupted is not None:
        # The generation was interrupted

پیکربندی تشخیص فعالیت صوتی (VAD)

به‌طور پیش‌فرض، مدل به‌طور خودکار تشخیص فعالیت صوتی (VAD) را در جریان ورودی صوتی پیوسته انجام می‌دهد. VAD را می توان با فیلد realtimeInputConfig.automaticActivityDetection پیکربندی راه اندازی پیکربندی کرد.

هنگامی که جریان صوتی برای بیش از یک ثانیه متوقف می‌شود (مثلاً به دلیل خاموش کردن میکروفون توسط کاربر)، باید یک رویداد audioStreamEnd ارسال شود تا هر صدای ذخیره شده در حافظه پنهان پاک شود. مشتری می تواند در هر زمانی ارسال داده های صوتی را از سر بگیرد.

از طرف دیگر، VAD خودکار را می‌توان با تنظیم realtimeInputConfig.automaticActivityDetection.disabled روی true در پیام راه‌اندازی غیرفعال کرد. در این پیکربندی، کلاینت مسئول تشخیص گفتار کاربر و ارسال پیام های activityStart و activityEnd در زمان های مناسب است. یک audioStreamEnd در این پیکربندی ارسال نشده است. در عوض، هرگونه وقفه در جریان با یک پیام activityEnd مشخص می شود.

پشتیبانی از SDK برای این ویژگی در هفته های آینده در دسترس خواهد بود.

تعداد توکن ها را دریافت کنید

می توانید تعداد کل نشانه های مصرف شده را در قسمت usageMetadata پیام سرور برگشتی پیدا کنید.

from google.genai import types

async with client.aio.live.connect(
    model='gemini-2.0-flash-live-001',
    config=types.LiveConnectConfig(
        response_modalities=['AUDIO'],
    ),
) as session:
    # Session connected
    while True:
        await session.send_client_content(
            turns=types.Content(role='user', parts=[types.Part(text='Hello world!')])
        )
        async for message in session.receive():
            # The server will periodically send messages that include
            # UsageMetadata.
            if message.usage_metadata:
                usage = message.usage_metadata
                print(
                    f'Used {usage.total_token_count} tokens in total. Response token'
                    ' breakdown:'
                )
            for detail in usage.response_tokens_details:
                match detail:
                  case types.ModalityTokenCount(modality=modality, token_count=count):
                      print(f'{modality}: {count}')

            # For the purposes of this example, placeholder input is continually fed
            # to the model. In non-sample code, the model inputs would come from
            # the user.
            if message.server_content and message.server_content.turn_complete:
                break

پیکربندی از سرگیری جلسه

برای جلوگیری از خاتمه جلسه هنگامی که سرور به طور دوره ای اتصال WebSocket را بازنشانی می کند، فیلد sessionResumption را در پیکربندی راه اندازی پیکربندی کنید.

عبور از این پیکربندی باعث می‌شود سرور پیام‌های SessionResumptionUpdate را ارسال کند، که می‌توان با ارسال آخرین نشانه Resumption به عنوان SessionResumptionConfig.handle از اتصال بعدی، جلسه را از سر گرفت.

from google.genai import types

print(f"Connecting to the service with handle {previous_session_handle}...")
async with client.aio.live.connect(
    model="gemini-2.0-flash-live-001",
    config=types.LiveConnectConfig(
        response_modalities=["AUDIO"],
        session_resumption=types.SessionResumptionConfig(
            # The handle of the session to resume is passed here,
            # or else None to start a new session.
            handle=previous_session_handle
        ),
    ),
) as session:
    # Session connected
    while True:
        await session.send_client_content(
            turns=types.Content(
                role="user", parts=[types.Part(text="Hello world!")]
            )
        )
        async for message in session.receive():
            # Periodically, the server will send update messages that may
            # contain a handle for the current state of the session.
            if message.session_resumption_update:
                update = message.session_resumption_update
                if update.resumable and update.new_handle:
                    # The handle should be retained and linked to the session.
                    return update.new_handle

            # For the purposes of this example, placeholder input is continually fed
            # to the model. In non-sample code, the model inputs would come from
            # the user.
            if message.server_content and message.server_content.turn_complete:
                break

قبل از قطع شدن جلسه پیامی دریافت کنید

سرور یک پیام GoAway ارسال می کند که سیگنال می دهد که اتصال فعلی به زودی قطع خواهد شد. این پیام شامل timeLeft است که زمان باقیمانده را نشان می‌دهد و به شما امکان می‌دهد تا قبل از اینکه اتصال به‌عنوان ABORTED قطع شود، اقدامات بیشتری انجام دهید.

هنگامی که نسل کامل شد پیامی دریافت کنید

سرور یک پیام GenerationComplete می فرستد که سیگنال می دهد که مدل تولید پاسخ را به پایان رسانده است.

فشرده سازی پنجره زمینه را فعال کنید

برای فعال کردن جلسات طولانی تر و جلوگیری از قطع ناگهانی اتصال، می توانید فشرده سازی پنجره زمینه را با تنظیم فیلد contextWindowCompression به عنوان بخشی از پیکربندی جلسه فعال کنید.

در ContextWindowCompressionConfig ، می‌توانید مکانیزم پنجره کشویی و تعداد نشانه‌هایی را که فشرده‌سازی را آغاز می‌کنند، پیکربندی کنید.

from google.genai import types

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    context_window_compression=(
        # Configures compression with default parameters.
        types.ContextWindowCompressionConfig(
            sliding_window=types.SlidingWindow(),
        )
    ),
)

وضوح رسانه را تغییر دهید

می توانید با تنظیم فیلد mediaResolution به عنوان بخشی از پیکربندی جلسه، وضوح رسانه را برای رسانه ورودی مشخص کنید:

from google.genai import types

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_LOW,
)

محدودیت ها

هنگام برنامه ریزی پروژه خود، محدودیت های زیر را در مورد Live API و Gemini 2.0 در نظر بگیرید.

روش های پاسخگویی

در پیکربندی جلسه فقط می توانید یک حالت پاسخ ( TEXT یا AUDIO ) را در هر جلسه تنظیم کنید. تلاش برای تنظیم هر دو منجر به پیام خطای پیکربندی می شود. این بدان معناست که می‌توانید مدل را طوری پیکربندی کنید که با متن یا صدا پاسخ دهد، اما نه هر دو در یک جلسه.

احراز هویت مشتری

Live API فقط احراز هویت سرور به سرور را ارائه می دهد و برای استفاده مستقیم از مشتری توصیه نمی شود. ورودی مشتری باید از طریق یک سرور برنامه میانی برای احراز هویت امن با Live API هدایت شود.

مدت زمان جلسه

مدت زمان جلسه را می توان با فعال کردن فشرده سازی جلسه تا نامحدود افزایش داد. بدون فشرده سازی، جلسات فقط صوتی به 15 دقیقه و جلسات صوتی به علاوه ویدیو به 2 دقیقه محدود می شود. تجاوز از این محدودیت ها بدون فشرده سازی، اتصال را قطع می کند.

پنجره زمینه

یک جلسه دارای محدودیت پنجره زمینه 32 هزار توکن است.

زبان های پشتیبانی شده

Live API از زبان های زیر پشتیبانی می کند:

زبان کد BCP-47
آلمانی (آلمان) de-DE
انگلیسی (استرالیا) en-AU
انگلیسی (بریتانیا) en-GB
انگلیسی (هند) en-IN
انگلیسی (ایالات متحده) en-US
اسپانیایی (ایالات متحده آمریکا) es-US
فرانسوی (فرانسه) fr-FR
هندی (هند) سلام ورود
پرتغالی (برزیل) pt-BR
عربی (عمومی) ar-XA
اسپانیایی (اسپانیا) es-ES
فرانسوی (کانادا) fr-CA
اندونزیایی (اندونزی) شناسه
ایتالیایی (ایتالیا) it-IT
ژاپنی (ژاپن) ja-JP
ترکی (ترکیه) tr-TR
ویتنامی (ویتنام) vi-VN
بنگالی (هند) bn-IN
گجراتی (هند) gu-IN
کانادا (هند) kn-IN
مالایالام (هند) ml-IN
مراتی (هند) mr-IN
تامیل (هند) ta-IN
تلوگو (هند) te-IN
هلندی (هلند) nl-NL
کره ای (کره جنوبی) ko-KR
چینی ماندارین (چین) cmn-CN
لهستانی (لهستان) pl-PL
روسی (روسیه) ru-RU
تایلندی (تایلند) th-TH

ادغام های شخص ثالث

برای استقرار برنامه های وب و تلفن همراه، می توانید گزینه های زیر را بررسی کنید: