Multimodal Live API تعاملات دو طرفه و کم تأخیر را فعال می کند که از ورودی متن، صدا و تصویر با خروجی صدا و متن استفاده می کند. این کار مکالمات صوتی طبیعی و شبیه انسان را با توانایی قطع کردن مدل در هر زمان تسهیل می کند. قابلیت درک ویدیوی این مدل، روشهای ارتباطی را گسترش میدهد و شما را قادر میسازد ورودی دوربین یا اسکرینکستها را به اشتراک بگذارید و درباره آنها سؤال بپرسید.
Multimodal Live API شامل قابلیت های کلیدی زیر است:
- چندوجهی : مدل می تواند ببیند، بشنود و صحبت کند.
- تعامل بیدرنگ با تأخیر کم : این مدل می تواند پاسخ های سریعی ارائه دهد.
- حافظه جلسه : مدل تمام تعاملات را در یک جلسه حفظ می کند و اطلاعات شنیده شده یا دیده شده قبلی را به خاطر می آورد.
- پشتیبانی از فراخوانی تابع، اجرای کد و جستجو به عنوان ابزار : می توانید مدل را با خدمات خارجی و منابع داده ادغام کنید.
Multimodal Live API برای ارتباط سرور به سرور طراحی شده است.
برای برنامههای وب و تلفن همراه، توصیه میکنیم از ادغام شرکای ما در Daily استفاده کنید.
راهنمای ادغام
جلسات
یک جلسه نشان دهنده یک اتصال WebSocket واحد بین مشتری و سرور Gemini است.
پس از اینکه یک کلاینت یک اتصال جدید را آغاز کرد، جلسه می تواند پیام هایی را با سرور مبادله کند:
- متن، صدا یا ویدیو را به سرور جمینی ارسال کنید.
- پاسخ های صوتی، متنی یا تماس عملکردی را از سرور Gemini دریافت کنید.
پیکربندی جلسه در اولین پیام پس از اتصال ارسال می شود. پیکربندی جلسه شامل مدل، پارامترهای تولید، دستورالعملهای سیستم و ابزارها است.
پیکربندی نمونه زیر را ببینید:
{ "model": string, "generation_config": { "candidateCount": integer, "maxOutputTokens": integer, "temperature": number, "topP": number, "topK": integer, "presencePenalty": number, "frequencyPenalty": number, "response_modalities": string, "speech_config":object }, "system_instruction": "", "tools":[] }
برای اطلاعات بیشتر، BidiGenerateContentSetup را ببینید.
ارسال پیام
پیامها رشتههایی با فرمت JSON هستند که از طریق اتصال WebSocket رد و بدل میشوند.
برای ارسال پیام، کلاینت باید یک پیام مشتری پشتیبانی شده در یک رشته فرمت JSON با یکی از یک اتصال باز WebSocket ارسال کند.
همچنین ببینید
- برای اطلاعات بیشتر در مورد فیلدهای API که معمولاً استفاده می شود (به عنوان مثال،
Content
وTool
)، به تولید محتوا مراجعه کنید. - درباره فراخوانی تابع بیشتر بیاموزید.