رابط برنامهنویسی کاربردی زنده (Live API) امکان تعاملات صوتی و تصویری با تأخیر کم و بهصورت بلادرنگ را با Gemini فراهم میکند. این رابط، جریانهای مداوم صدا، تصاویر و متن را پردازش میکند تا پاسخهای گفتاری فوری و شبیه به انسان ارائه دهد و یک تجربه مکالمه طبیعی را برای کاربران شما ایجاد کند.

موارد استفاده
API زنده میتواند برای ساخت عاملهای صوتی بلادرنگ برای صنایع مختلف، از جمله موارد زیر، مورد استفاده قرار گیرد:
- تجارت الکترونیک و خردهفروشی: دستیاران خرید که توصیههای شخصیسازیشده ارائه میدهند و نمایندگان پشتیبانی که مشکلات مشتری را حل میکنند.
- بازی: شخصیتهای غیربازیکن (NPC) تعاملی، دستیاران کمکی درون بازی و ترجمه همزمان محتوای درون بازی.
- رابطهای نسل بعدی: تجربیات مبتنی بر صدا و تصویر در رباتیک، عینکهای هوشمند و وسایل نقلیه
- مراقبتهای بهداشتی: همراهان سلامت برای پشتیبانی و آموزش بیمار.
- خدمات مالی: مشاوران هوش مصنوعی برای مدیریت ثروت و راهنمایی سرمایهگذاری.
- آموزش: مربیان و همراهان هوش مصنوعی که آموزش و بازخورد شخصیسازیشده ارائه میدهند.
ویژگیهای کلیدی
رابط برنامهنویسی زنده (Live API) مجموعهای جامع از ویژگیها را برای ساخت عاملهای صوتی قوی ارائه میدهد:
- پشتیبانی چندزبانه : مکالمه به ۷۰ زبان پشتیبانیشده.
- ورود ناگهانی : کاربران میتوانند در هر زمانی برای تعاملات واکنشی، مدل را متوقف کنند.
- استفاده از ابزار : ابزارهایی مانند فراخوانی تابع و جستجوی گوگل را برای تعاملات پویا ادغام میکند.
- رونوشتهای صوتی : رونوشتهای متنی از ورودی کاربر و خروجی مدل را ارائه میدهد.
- صدای پیشگیرانه : به شما امکان میدهد زمان و زمینههای پاسخ مدل را کنترل کنید.
- گفتگوی عاطفی : سبک و لحن پاسخ را برای مطابقت با عبارت ورودی کاربر تنظیم میکند.
مشخصات فنی
جدول زیر مشخصات فنی Live API را شرح میدهد:
| دسته بندی | جزئیات |
|---|---|
| روشهای ورودی | صدا (صدای خام PCM 16 بیتی، 16 کیلوهرتز، little-endian)، تصاویر (JPEG <= 1FPS)، متن |
| روشهای خروجی | صدا (صدای خام PCM 16 بیتی، 24 کیلوهرتز، little-endian) |
| پروتکل | اتصال وب سوکت با وضعیت (WSS) |
انتخاب رویکرد پیادهسازی
هنگام ادغام با Live API، باید یکی از رویکردهای پیادهسازی زیر را انتخاب کنید:
- سرور به سرور : بکاند شما با استفاده از WebSockets به Live API متصل میشود. معمولاً کلاینت شما دادههای استریم (صوت، تصویر، متن) را به سرور شما ارسال میکند، که سپس آن را به Live API ارسال میکند.
- کلاینت به سرور : کد فرانتاند شما مستقیماً با استفاده از WebSockets به Live API متصل میشود تا دادهها را پخش کند و بکاند شما را دور بزند.
شروع کنید
راهنمایی را انتخاب کنید که با محیط توسعه شما مطابقت داشته باشد:
آموزش GenAI SDK
با استفاده از GenAI SDK به Gemini Live API متصل شوید تا یک برنامه چندوجهی بلادرنگ با بکاند پایتون بسازید.
آموزش وب سوکت
با استفاده از WebSockets به Gemini Live API متصل شوید تا یک برنامه چندوجهی بلادرنگ با رابط کاربری جاوا اسکریپت و توکنهای موقت بسازید.
آموزش ADK
یک عامل ایجاد کنید و از کیت توسعه عامل (ADK) Streaming برای فعال کردن ارتباط صوتی و تصویری استفاده کنید.
ادغام شرکا
برای سادهسازی توسعه برنامههای صوتی و تصویری بلادرنگ، میتوانید از یکپارچهسازی شخص ثالثی استفاده کنید که از Gemini Live API روی WebRTC یا WebSockets پشتیبانی میکند.
از Gemini Live API به همراه LiveKit Agents استفاده کنید.
پیپکت توسط دیلیبا استفاده از Gemini Live و Pipecat یک چتبات هوش مصنوعی بلادرنگ ایجاد کنید.
فیشجام توسط سافتور منشنبا Fishjam برنامههای پخش زنده ویدیو و صدا بسازید.
نمایندگان بینایی بر اساس جریانبا Vision Agents برنامههای هوش مصنوعی صوتی و تصویری بلادرنگ بسازید.
وکسی ایمپلنتتماسهای ورودی و خروجی را با Voximplant به Live API متصل کنید.
کیت توسعه نرمافزاری هوش مصنوعی فایربیسبا استفاده از Firebase AI Logic، کار با Gemini Live API را شروع کنید.