Gemini Live API overview

رابط برنامه‌نویسی کاربردی زنده (Live API) امکان تعاملات صوتی و تصویری با تأخیر کم و به‌صورت بلادرنگ را با Gemini فراهم می‌کند. این رابط، جریان‌های مداوم صدا، تصاویر و متن را پردازش می‌کند تا پاسخ‌های گفتاری فوری و شبیه به انسان ارائه دهد و یک تجربه مکالمه طبیعی را برای کاربران شما ایجاد کند.

بررسی اجمالی API زنده

موارد استفاده

API زنده می‌تواند برای ساخت عامل‌های صوتی بلادرنگ برای صنایع مختلف، از جمله موارد زیر، مورد استفاده قرار گیرد:

  • تجارت الکترونیک و خرده‌فروشی: دستیاران خرید که توصیه‌های شخصی‌سازی‌شده ارائه می‌دهند و نمایندگان پشتیبانی که مشکلات مشتری را حل می‌کنند.
  • بازی: شخصیت‌های غیربازیکن (NPC) تعاملی، دستیاران کمکی درون بازی و ترجمه همزمان محتوای درون بازی.
  • رابط‌های نسل بعدی: تجربیات مبتنی بر صدا و تصویر در رباتیک، عینک‌های هوشمند و وسایل نقلیه
  • مراقبت‌های بهداشتی: همراهان سلامت برای پشتیبانی و آموزش بیمار.
  • خدمات مالی: مشاوران هوش مصنوعی برای مدیریت ثروت و راهنمایی سرمایه‌گذاری.
  • آموزش: مربیان و همراهان هوش مصنوعی که آموزش و بازخورد شخصی‌سازی‌شده ارائه می‌دهند.

ویژگی‌های کلیدی

رابط برنامه‌نویسی زنده (Live API) مجموعه‌ای جامع از ویژگی‌ها را برای ساخت عامل‌های صوتی قوی ارائه می‌دهد:

  • پشتیبانی چندزبانه : مکالمه به ۷۰ زبان پشتیبانی‌شده.
  • ورود ناگهانی : کاربران می‌توانند در هر زمانی برای تعاملات واکنشی، مدل را متوقف کنند.
  • استفاده از ابزار : ابزارهایی مانند فراخوانی تابع و جستجوی گوگل را برای تعاملات پویا ادغام می‌کند.
  • رونوشت‌های صوتی : رونوشت‌های متنی از ورودی کاربر و خروجی مدل را ارائه می‌دهد.
  • صدای پیشگیرانه : به شما امکان می‌دهد زمان و زمینه‌های پاسخ مدل را کنترل کنید.
  • گفتگوی عاطفی : سبک و لحن پاسخ را برای مطابقت با عبارت ورودی کاربر تنظیم می‌کند.

مشخصات فنی

جدول زیر مشخصات فنی Live API را شرح می‌دهد:

دسته بندی جزئیات
روش‌های ورودی صدا (صدای خام PCM 16 بیتی، 16 کیلوهرتز، little-endian)، تصاویر (JPEG <= 1FPS)، متن
روش‌های خروجی صدا (صدای خام PCM 16 بیتی، 24 کیلوهرتز، little-endian)
پروتکل اتصال وب سوکت با وضعیت (WSS)

انتخاب رویکرد پیاده‌سازی

هنگام ادغام با Live API، باید یکی از رویکردهای پیاده‌سازی زیر را انتخاب کنید:

  • سرور به سرور : بک‌اند شما با استفاده از WebSockets به Live API متصل می‌شود. معمولاً کلاینت شما داده‌های استریم (صوت، تصویر، متن) را به سرور شما ارسال می‌کند، که سپس آن را به Live API ارسال می‌کند.
  • کلاینت به سرور : کد فرانت‌اند شما مستقیماً با استفاده از WebSockets به Live API متصل می‌شود تا داده‌ها را پخش کند و بک‌اند شما را دور بزند.

شروع کنید

راهنمایی را انتخاب کنید که با محیط توسعه شما مطابقت داشته باشد:

سرور به سرور

با استفاده از GenAI SDK به Gemini Live API متصل شوید تا یک برنامه چندوجهی بلادرنگ با بک‌اند پایتون بسازید.

کلاینت به سرور

با استفاده از WebSockets به Gemini Live API متصل شوید تا یک برنامه چندوجهی بلادرنگ با رابط کاربری جاوا اسکریپت و توکن‌های موقت بسازید.

کیت توسعه عامل

یک عامل ایجاد کنید و از کیت توسعه عامل (ADK) Streaming برای فعال کردن ارتباط صوتی و تصویری استفاده کنید.

ادغام شرکا

برای ساده‌سازی توسعه برنامه‌های صوتی و تصویری بلادرنگ، می‌توانید از یکپارچه‌سازی شخص ثالثی استفاده کنید که از Gemini Live API روی WebRTC یا WebSockets پشتیبانی می‌کند.