Multimodal Live API

Multimodal Live API تعاملات دو طرفه و کم تأخیر را فعال می کند که از ورودی متن، صدا و تصویر با خروجی صدا و متن استفاده می کند. این کار مکالمات صوتی طبیعی و شبیه انسان را با توانایی قطع کردن مدل در هر زمان تسهیل می کند. قابلیت درک ویدیوی این مدل، روش‌های ارتباطی را گسترش می‌دهد و شما را قادر می‌سازد ورودی دوربین یا اسکرین‌کست‌ها را به اشتراک بگذارید و درباره آنها سؤال بپرسید.

Multimodal Live API شامل قابلیت های کلیدی زیر است:

  • چندوجهی : مدل می تواند ببیند، بشنود و صحبت کند.
  • تعامل بیدرنگ با تأخیر کم : این مدل می تواند پاسخ های سریعی ارائه دهد.
  • حافظه جلسه : مدل تمام تعاملات را در یک جلسه حفظ می کند و اطلاعات شنیده شده یا دیده شده قبلی را به خاطر می آورد.
  • پشتیبانی از فراخوانی تابع، اجرای کد و جستجو به عنوان ابزار : می توانید مدل را با خدمات خارجی و منابع داده ادغام کنید.

Multimodal Live API برای ارتباط سرور به سرور طراحی شده است.

برای برنامه‌های وب و تلفن همراه، توصیه می‌کنیم از ادغام شرکای ما در Daily استفاده کنید.

راهنمای ادغام

جلسات

یک جلسه نشان دهنده یک اتصال WebSocket واحد بین مشتری و سرور Gemini است.

پس از اینکه یک کلاینت یک اتصال جدید را آغاز کرد، جلسه می تواند پیام هایی را با سرور مبادله کند:

  • متن، صدا یا ویدیو را به سرور جمینی ارسال کنید.
  • پاسخ های صوتی، متنی یا تماس عملکردی را از سرور Gemini دریافت کنید.

پیکربندی جلسه در اولین پیام پس از اتصال ارسال می شود. پیکربندی جلسه شامل مدل، پارامترهای تولید، دستورالعمل‌های سیستم و ابزارها است.

پیکربندی نمونه زیر را ببینید:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

برای اطلاعات بیشتر، BidiGenerateContentSetup را ببینید.

ارسال پیام

پیام‌ها رشته‌هایی با فرمت JSON هستند که از طریق اتصال WebSocket رد و بدل می‌شوند.

برای ارسال پیام، کلاینت باید یک پیام مشتری پشتیبانی شده در یک رشته فرمت JSON با یکی از یک اتصال باز WebSocket ارسال کند.

همچنین ببینید

  • برای اطلاعات بیشتر در مورد فیلدهای API که معمولاً استفاده می شود (به عنوان مثال، Content و Tool )، به تولید محتوا مراجعه کنید.
  • درباره فراخوانی تابع بیشتر بیاموزید.