اشتراک گذاری

۱۱ دسامبر ۲۰۲۴

بازآفرینی خلق ویدیو با Gemini 2.0 Flash

ویشال دارمادیکاری

مهندس راهکارهای محصول

هنگ چو

ویگل

قهرمان نمایشگاه ویگل

رابط برنامه‌نویسی نرم‌افزار Gemini نه تنها برنامه‌ها را بهبود می‌بخشد، بلکه انقلابی در بیان خلاقانه ایجاد می‌کند. Viggle ، پدیده‌ی ویدیویی هوش مصنوعی که به هر کسی امکان می‌دهد عکس‌ها را به انیمیشن‌های جذاب تبدیل کند، در خط مقدم این انقلاب قرار دارد. Viggle با آزمایش جادوی چندوجهی Gemini 2.0 Flash که در حال حاضر فقط در نسخه پیش‌نمایش آزمایشی موجود است - به ویژه قابلیت پیشرفته‌ی درک ویدیو و خروجی صدا در کنار تولید تصویر توسط Imagen 3 - در حال ساخت ویژگی‌هایی است که کاربران را قادر می‌سازد تا به راحتی و به روش‌هایی که قبلاً هرگز امکان‌پذیر نبود، وحشی‌ترین تصورات خود را به واقعیت تبدیل کنند.

درون ویگل: توانمندسازی ساخت ویدیوی هوش مصنوعی با Gemini 2.0 Flash و Imagen 3

ویگل (Viggle) با قابلیت تبدیل آسان تصاویر ثابت به ویدیوهای انیمیشنی با حرکات کامل بدن، میلیون‌ها کاربر را مجذوب خود کرده و محتوای ویروسی را در پلتفرم‌های رسانه‌های اجتماعی منتشر کرده است. ویگل با تمرکز بر میم‌ها و محتوای رقص، اپلیکیشن‌های موبایل (iOS و اندروید) و یک پلتفرم وب (viggle.ai) ارائه می‌دهد. ویژگی‌هایی مانند تعویض چهره، متحرک‌سازی تصاویر با حرکات رقص و قرار دادن کاربران در صحنه‌های فیلم، از قبل در بین کاربران ویگل محبوب بوده‌اند و اکنون آنها در حال بررسی راه‌های جدیدی برای ارتقای خلاقیت به سطح بعدی هستند.

ویگل اکنون در حال نمونه‌سازی اولیه دو ویژگی است که از قدرت Gemini 2.0 Flash و Imagen 3 بهره می‌برند:


  • تبدیل تصویر به شخصیت‌های ویدیویی مجازی: ویگل از Imagen 3 برای تولید تصویر و ایجاد یک آهنگری شخصیت مبتنی بر هوش مصنوعی استفاده می‌کند. کاربران می‌توانند متن‌های ساده‌ای مانند «یک ربات رقصنده با چشمان درخشان» یا «یک اژدهای پشمالو و رنگین‌کمانی» را ارائه دهند و این مدل، شخصیت‌های مجازی منحصر به فردی را که آماده بازی در ویدیوهای آنها هستند، احضار می‌کند. سپس این شخصیت‌ها به طور یکپارچه در موتور انیمیشن ویگل ادغام می‌شوند و دنیایی از امکانات داستان‌سرایی شخصی‌سازی‌شده را به روی شما می‌گشایند. تصور کنید که فیلم کوتاه انیمیشن خود را با شخصیت‌هایی که کاملاً از تخیل شما زاده شده‌اند، کارگردانی می‌کنید - این قدرتی است که ویگل و Imagen 3 در اختیار شما قرار می‌دهند.

  • روایت پویای هوش مصنوعی: ویگل همچنین از توانایی Gemini 2.0 Flash در تولید گفتار و درک عمیق ویدیویی آن بهره می‌برد تا ویژگی‌ای را توسعه دهد که صداهای زمینه‌ای غنی را به هر ویدیویی اضافه کند. این فقط یک صدای یکنواخت برای خواندن یک متن نیست؛ بلکه یک قصه‌گوی هوش مصنوعی است که محتوای ویدیو را تجزیه و تحلیل می‌کند - لحظات کلیدی، اعمال و حتی احساسات را شناسایی می‌کند - تا روایتی تولید کند که کاملاً مکمل تصاویر باشد. چه یک تفسیر طنزآمیز در مورد یک ویدیوی رقص باشد و چه توصیف حماسی از یک صحنه فانتزی، راوی هوش مصنوعی بُعد کاملاً جدیدی از جذابیت را اضافه می‌کند.

گشودن سطوح جدیدی از خلاقیت و تعامل

ادغام هوش مصنوعی مولد، تجربه Viggle را از چندین طریق کلیدی بهبود می‌بخشد:


  • خلق شخصیت ساده‌شده: تولید تصویر Imagen 3 فرآیند خلق و سفارشی‌سازی شخصیت‌های ویدیویی را ساده می‌کند. کاربران اکنون می‌توانند شخصیت‌های منحصر به فردی را بر اساس ایده‌های خود تولید کنند و نیاز به مهارت‌های طراحی پیشرفته یا اتکا به گزینه‌های از پیش تعیین‌شده‌ی محدود را از بین ببرند. این گردش کار ساده‌شده، کاربران بیشتری را قادر می‌سازد تا به رؤیاهای خلاقانه‌ی خود جان ببخشند.

  • محتوای شخصی‌سازی‌شده‌تر: Gemini 2.0 Flash به کاربران این امکان را می‌دهد تا روایت‌های ویدیویی بسیار شخصی‌سازی‌شده‌ای بسازند. شخصیت‌های طراحی‌شده سفارشی، همراه با روایت پویای هوش مصنوعی، امکان داستان‌سرایی منحصربه‌فردی را فراهم می‌کنند که ارتباط بین سازندگان و مخاطبانشان را تقویت می‌کند.

  • گسترش امکانات خلاقانه: ترکیب شخصیت‌های مجازی و روایت هوش مصنوعی، پتانسیل خلاقانه‌ی ویدیوهای کوتاه در Viggle را گسترش می‌دهد. کاربران می‌توانند اشکال جدیدی از داستان‌سرایی را کشف کنند و از قالب‌های ویدیویی سنتی فراتر روند.

نگاه به آینده

ویگل مشتاق است تا پتانسیل Gemini 2.0 و مدل‌های تولید تصویر را برای بهبود پلتفرم خود بیشتر بررسی کند و آینده‌ای را تصور می‌کند که در آن هوش مصنوعی به طور یکپارچه در هر مرحله از فرآیند خلاقیت ادغام می‌شود و هر کسی را قادر می‌سازد تا به یک خالق ویدیو تبدیل شود.

«در ویگل، همه یک خالق هستند. ما در حال ساخت میم‌ها، کاوش در ضبط حرکت برای پروژه‌های سطح بعدی و ساخت چندجهانی خودمان هستیم. با قابلیت‌های روایت صوتی واقعی Gemini 2.0 Flash، ما معتقدیم که کاربران ما پتانسیل جدیدی را آزاد خواهند کرد - داستان‌سرایی را به گونه‌ای بی‌سابقه خلق خواهند کرد.»

— هانگ چو، بنیانگذار ویگل

کار ویگل با Gemini 2.0 Flash و Imagen 3 پتانسیل هوش مصنوعی را برای متحول کردن فرآیند ساخت ویدیو و توانمندسازی کاربران با ابزارهای جدید برای ابراز وجود نشان می‌دهد. این همکاری گامی به سوی آینده‌ی داستان‌سرایی مبتنی بر هوش مصنوعی است. برای کسب اطلاعات بیشتر در مورد ساخت با Gemini، به مستندات API Gemini مراجعه کنید و برای آشنایی با آخرین پیشرفت‌های ما در تولید تصویر، اطلاعات بیشتری در مورد Imagen 3 بخوانید.

اتاق‌ها

باز کردن قفل تعاملات غنی‌تر با آواتارها با قابلیت‌های متنی و صوتی Gemini 2.0