اشتراک گذاری

۱۱ دسامبر ۲۰۲۴

والی، نمونه اولیه یک بازی با محوریت صدا را با Gemini 2.0 Flash و رابط برنامه‌نویسی کاربردی چندوجهی Live ارائه می‌دهد.

مکس چایلد

والی

ویشال دارمادیکاری

مهندس راهکارهای محصول

قهرمان نمایشی والیبال

رابط برنامه‌نویسی Gemini به توسعه‌دهندگان این امکان را می‌دهد تا نسل بعدی تجربیات فراگیر را بسازند و Volley در دنیای بازی‌های هوش مصنوعی کنترل‌شده با صدا پیشرو است. Volley که به خاطر بازی‌های پرطرفدار خود مانند Jeopardy! و Song Quiz شناخته می‌شود، از قابلیت‌های پیشرفته Gemini 2.0 Flash که در حال حاضر در مرحله پیش‌نمایش آزمایشی است، برای نمونه‌سازی یک نسخه جدید با محوریت صدا در بازی کلاسیک 20 Question استفاده می‌کند.

والی (Valley) با بازی‌های صوتی جذاب خود در تلویزیون‌های هوشمند، آمازون الکسا، گوگل اسیستنت و پلتفرم‌های موبایل، میلیون‌ها نفر را مجذوب خود کرده است. اکنون، آنها نگاه خود را به مرز جدیدی معطوف کرده‌اند: متحول کردن بازی‌های غیررسمی با قدرت قابلیت‌های زنده و چندوجهی هوش مصنوعی مولد - که با ۲۰ سوال شروع می‌شود.

Gemini 2.0 Flash: کلید گیم‌پلی با صدای فراگیر

نمونه اولیه جدید بازی 20 سوالی والی از ویژگی‌های کلیدی Gemini 2.0 Flash برای ایجاد یک تجربه واقعاً منحصر به فرد استفاده می‌کند که فراتر از قابلیت‌های هوش مصنوعی فعلی بازی است. در حالی که بازی کلاسیک دارای محتوای پویای تولید شده در لحظه است، Gemini 2.0 Flash آن را به چیزی خارق‌العاده تبدیل می‌کند - پاسخ‌های برق‌آسا، شخصیت‌های جدید احساسی و جریان مکالمه‌ای را که به طرز چشمگیری انسانی به نظر می‌رسد، به ارمغان می‌آورد.

نمونه اولیه بازی Volley's 20 Question: یکی از اولین بازی‌هایی که با Gemini 2.0 Flash و Multimodal Live API پشتیبانی می‌شود (توضیحات کوتاه شده است)

در اینجا نحوه کمک Gemini 2.0 Flash آورده شده است:

  • تولید پرسش و پاسخ پویا با تأخیر کم: خروجی صدای بومی Gemini 2.0 Flash و تعاملات با تأخیر کم که توسط Multimodal Live API جدید باز شده‌اند، امکان مکالمات پویا با یک Riddlemaster هوش مصنوعی را فراهم می‌کنند. این نمونه اولیه، امکان مکالمه طبیعی و رو در رو با Riddlemaster را فراهم می‌کند: پرسیدن سوال، دریافت نکات و موارد دیگر. ترکیب هوش مدل و حافظه زمینه طولانی، تجربیات شخصی‌سازی شده‌ای را تضمین می‌کند که به صورت بلادرنگ و بر اساس تعاملات بازیکن تکامل می‌یابند. تأخیر زیر یک ثانیه، امکان مکالمه‌ای واقعاً طبیعی و شبیه به انسان را فراهم می‌کند.

  • تشخیص فعالیت صوتی: قابلیت داخلی API برای ایجاد وقفه‌های صوتی طبیعی در پاسخ‌های مدل، مکالمات روان و قابل فهم را بدون نیاز به ورودی بصری یا لمسی امکان‌پذیر می‌کند.

آینده بازی‌های مبتنی بر صدا: ارائه شده توسط Gemini

والی آینده‌ای را تصور می‌کند که در آن هوش مصنوعی صوتی در قلب گیم‌پلی قرار دارد و تجربیاتی در دسترس و فراگیر برای همه ایجاد می‌کند. تعهد این شرکت به نوآوری در هوش مصنوعی، آنها را در خط مقدم این مرز جدید و هیجان‌انگیز قرار می‌دهد. همانطور که مکس چایلد، یکی از بنیانگذاران و مدیرعامل، توضیح می‌دهد، «LLMها و فناوری تشخیص صدا، بازی‌ها را متحول می‌کنند و از طریق تجربیات پویا و تعاملی، به بازی جان می‌بخشند. آنها بازیکنان را قادر می‌سازند تا خود را در ماجراجویی‌های پر جنب و جوش و جذابی غرق کنند که در آن صدای آنها واقعاً داستان را پیش می‌برد.»

جدیدترین بازی ۲۰ سوالی والی، که با استفاده از رابط برنامه‌نویسی چندوجهی زنده‌ی Gemini 2.0 Flash توسعه داده شده است، هنوز در مرحله‌ی نمونه‌سازی اولیه قرار دارد، اما به زودی برای اطلاعات بیشتر منتظر بمانید.

شروع کار با رابط برنامه‌نویسی کاربردی Gemini: ساخت دنیاهای تعاملی خودتان

کار Volley با Gemini 2.0 Flash و Multimodal Live API، امکانات هیجان‌انگیز هوش مصنوعی در بازی، به ویژه پتانسیل گیم‌پلی پویا، شخصیت‌های زنده و مکالمات با صدای طبیعی را به نمایش می‌گذارد. به عنوان یک توسعه‌دهنده بازی، می‌توانید از قدرت Gemini API برای ایجاد تجربیات غوطه‌ورکننده و نوآورانه مشابه استفاده کنید.

مستندات Gemini API را بررسی کنید و کشف کنید که چگونه قابلیت‌های آن می‌تواند شما را در ساخت نسل بعدی بازی‌های جذاب و فراگیر توانمند سازد.

ویگل

در حال آزمایش با Gemini 2.0 برای ایجاد شخصیت‌های مجازی و روایت صوتی برای پلتفرم ویدیویی مبتنی بر هوش مصنوعی خود هستند.