Gemini Deep Research اکنون به صورت پیش‌نمایش با برنامه‌ریزی مشارکتی، تجسم، پشتیبانی MCP و موارد دیگر در دسترس است.

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

مرور کلی API زنده Gemini

رابط برنامه‌نویسی کاربردی زنده (Live API) امکان تعاملات صوتی و تصویری با تأخیر کم و به‌صورت بلادرنگ را با Gemini فراهم می‌کند. این رابط، جریان‌های مداوم صدا، تصاویر و متن را پردازش می‌کند تا پاسخ‌های گفتاری فوری و شبیه به انسان ارائه دهد و یک تجربه مکالمه طبیعی را برای کاربران شما ایجاد کند.

بررسی اجمالی API زنده

API زنده را در استودیوی هوش مصنوعی گوگل امتحان کنید. برنامه‌های نمونه را از گیت‌هاب کپی کنید. مهارت‌های عامل کدنویسی استفاده کنید.

موارد استفاده

API زنده می‌تواند برای ساخت عامل‌های صوتی بلادرنگ برای صنایع مختلف، از جمله موارد زیر، مورد استفاده قرار گیرد:

تجارت الکترونیک و خرده‌فروشی: دستیاران خرید که توصیه‌های شخصی‌سازی‌شده ارائه می‌دهند و نمایندگان پشتیبانی که مشکلات مشتری را حل می‌کنند.
بازی: شخصیت‌های غیربازیکن (NPC) تعاملی، دستیاران کمکی درون بازی و ترجمه همزمان محتوای درون بازی.
رابط‌های نسل بعدی: تجربیات مبتنی بر صدا و تصویر در رباتیک، عینک‌های هوشمند و وسایل نقلیه
مراقبت‌های بهداشتی: همراهان سلامت برای پشتیبانی و آموزش بیمار.
خدمات مالی: مشاوران هوش مصنوعی برای مدیریت ثروت و راهنمایی سرمایه‌گذاری.
آموزش: مربیان و همراهان هوش مصنوعی که آموزش و بازخورد شخصی‌سازی‌شده ارائه می‌دهند.
ترجمه و بومی‌سازی: ترجمه‌ی مکالمات گفتاری با تأخیر کم و به صورت آنی، امکان ارتباط چندزبانه و یکپارچه را فراهم می‌کند.

ویژگی‌های کلیدی

رابط برنامه‌نویسی زنده (Live API) مجموعه‌ای جامع از ویژگی‌ها را برای ساخت عامل‌های صوتی قوی ارائه می‌دهد:

پشتیبانی چندزبانه : مکالمه به ۷۰ زبان پشتیبانی‌شده.
ورود ناگهانی : کاربران می‌توانند در هر زمانی برای تعاملات واکنشی، مدل را متوقف کنند.
استفاده از ابزار : ابزارهایی مانند فراخوانی تابع و جستجوی گوگل را برای تعاملات پویا ادغام می‌کند.
رونوشت‌های صوتی : رونوشت‌های متنی از ورودی کاربر و خروجی مدل را ارائه می‌دهد.
صدای پیشگیرانه : به شما امکان می‌دهد زمان و زمینه‌های پاسخ مدل را کنترل کنید.
گفتگوی عاطفی : سبک و لحن پاسخ را برای مطابقت با عبارت ورودی کاربر تنظیم می‌کند.
ترجمه زنده : ترجمه همزمان صدا به صدا به بیش از ۷۰ زبان.

مشخصات فنی

جدول زیر مشخصات فنی Live API را شرح می‌دهد:

دسته بندی	جزئیات
روش‌های ورودی	صدا (صدای خام PCM 16 بیتی، 16 کیلوهرتز، little-endian)، تصاویر (JPEG <= 1FPS)، متن
روش‌های خروجی	صدا (صدای خام PCM 16 بیتی، 24 کیلوهرتز، little-endian)
پروتکل	اتصال وب سوکت با وضعیت (WSS)

انتخاب رویکرد پیاده‌سازی

هنگام ادغام با Live API، باید یکی از رویکردهای پیاده‌سازی زیر را انتخاب کنید:

سرور به سرور : بک‌اند شما با استفاده از WebSockets به Live API متصل می‌شود. معمولاً کلاینت شما داده‌های استریم (صوت، تصویر، متن) را به سرور شما ارسال می‌کند، که سپس آن را به Live API ارسال می‌کند.
کلاینت به سرور : کد فرانت‌اند شما مستقیماً با استفاده از WebSockets به Live API متصل می‌شود تا داده‌ها را پخش کند و بک‌اند شما را دور بزند.

شروع کنید

راهنمایی را انتخاب کنید که با محیط توسعه شما مطابقت داشته باشد:

سرور به سرور

آموزش GenAI SDK

با استفاده از GenAI SDK به Gemini Live API متصل شوید تا یک برنامه چندوجهی بلادرنگ با بک‌اند پایتون بسازید.

کلاینت به سرور

آموزش وب سوکت

با استفاده از WebSockets به Gemini Live API متصل شوید تا یک برنامه چندوجهی بلادرنگ با رابط کاربری جاوا اسکریپت و توکن‌های موقت بسازید.

کیت توسعه عامل

آموزش ADK

یک عامل ایجاد کنید و از کیت توسعه عامل (ADK) Streaming برای فعال کردن ارتباط صوتی و تصویری استفاده کنید.

ادغام شرکا

برای ساده‌سازی توسعه برنامه‌های صوتی و تصویری بلادرنگ، می‌توانید از یکپارچه‌سازی شخص ثالثی استفاده کنید که از Gemini Live API روی WebRTC یا WebSockets پشتیبانی می‌کند.

لایو کیت

از Gemini Live API به همراه LiveKit Agents استفاده کنید.

پیپکت توسط دیلی

با استفاده از Gemini Live و Pipecat یک چت‌بات هوش مصنوعی بلادرنگ ایجاد کنید.

فیشجام توسط سافت‌ور منشن

با Fishjam برنامه‌های پخش زنده ویدیو و صدا بسازید.

نمایندگان بینایی بر اساس جریان

با Vision Agents برنامه‌های هوش مصنوعی صوتی و تصویری بلادرنگ بسازید.

وکسی ایمپلنت

تماس‌های ورودی و خروجی را با Voximplant به Live API متصل کنید.

آگورا

با Agora برنامه‌های هوش مصنوعی مکالمه‌ای در زمان واقعی بسازید.

کیت توسعه نرم‌افزاری هوش مصنوعی فایربیس

با استفاده از Firebase AI Logic، کار با Gemini Live API را شروع کنید.