Chia sẻ

NGÀY 11 THÁNG 12 NĂM 2024

Tái tạo quy trình tạo video bằng Gemini 2.0 Flash

Vishal Dharmadhikari

Kỹ sư giải pháp sản phẩm

Hang Chu

Viggle

Hình ảnh chính trong trang trưng bày của Viggle

Gemini API không chỉ giúp nâng cao hiệu suất của ứng dụng mà còn tạo ra một cuộc cách mạng trong việc thể hiện ý tưởng sáng tạo. Viggle, một ứng dụng video AI gây sốt trên mạng cho phép mọi người biến ảnh thành ảnh động hấp dẫn, đang đi đầu trong cuộc cách mạng này. Bằng cách thử nghiệm với phép thuật đa phương thức của Gemini 2.0 Flash (hiện chỉ có bản xem trước thử nghiệm), cụ thể là khả năng hiểu video và xuất âm thanh nâng cao cùng với tính năng tạo hình ảnh của Imagen 3, Viggle đang xây dựng các tính năng giúp người dùng dễ dàng hiện thực hoá những tưởng tượng điên rồ nhất của họ theo những cách chưa từng có.

Bên trong Viggle: Tạo video bằng AI bằng Gemini 2.0 Flash và Imagen 3

Viggle đã thu hút hàng triệu người dùng nhờ khả năng dễ dàng biến đổi ảnh tĩnh thành video động với chuyển động toàn thân, tạo ra nội dung lan truyền trên các nền tảng mạng xã hội. Tập trung vào nội dung meme và nội dung nhảy múa, Viggle cung cấp ứng dụng di động (iOS và Android) và nền tảng web (viggle.ai). Các tính năng như hoán đổi khuôn mặt, tạo ảnh động bằng các động tác nhảy và chèn người dùng vào cảnh phim đã phổ biến với cơ sở người dùng của Viggle. Giờ đây, họ đang khám phá những cách mới để nâng tầm khả năng sáng tạo.

Viggle hiện đang tạo bản minh hoạ cho hai tính năng tận dụng sức mạnh của Gemini 2.0 Flash và Imagen 3:


  • Hình ảnh thành nhân vật video ảo: Viggle đang sử dụng Imagen 3 để tạo hình ảnh nhằm tạo ra một công cụ tạo nhân vật bằng AI. Người dùng có thể cung cấp câu lệnh văn bản đơn giản – "một robot nhảy múa với đôi mắt sáng" hoặc "một con rồng màu cầu vồng, mềm mại" – và mô hình sẽ tạo ra các nhân vật ảo độc đáo sẵn sàng xuất hiện trong video của họ. Sau đó, các nhân vật này được tích hợp liền mạch vào công cụ tạo ảnh động của Viggle, mở ra một thế giới đầy khả năng kể chuyện được cá nhân hoá. Hãy tưởng tượng bạn sẽ làm đạo diễn cho bộ phim hoạt hình ngắn của riêng mình, trong đó các nhân vật hoàn toàn do trí tưởng tượng của bạn tạo ra. Đó chính là sức mạnh mà Viggle và Imagen 3 mang đến cho bạn.

  • Nội dung tường thuật động bằng AI: Viggle cũng đang tận dụng khả năng tạo lời nói và khả năng hiểu sâu về video của Gemini 2.0 Flash để phát triển một tính năng thêm giọng lồng tiếng phong phú theo ngữ cảnh vào bất kỳ video nào. Đây không chỉ là giọng đọc một màu đọc theo kịch bản; mà là một người kể chuyện bằng AI phân tích nội dung của video – xác định các khoảnh khắc chính, hành động và thậm chí là cảm xúc – để tạo ra lời tường thuật bổ trợ hoàn hảo cho hình ảnh. Cho dù đó là lời bình luận hài hước về một video nhảy múa hay lời mô tả hoành tráng về một cảnh trong phim giả tưởng, giọng đọc của AI sẽ mang đến một khía cạnh tương tác hoàn toàn mới.

Nâng tầm sáng tạo và mức độ tương tác

Việc tích hợp AI tạo sinh hứa hẹn sẽ nâng cao trải nghiệm Viggle theo một số cách chính:


  • Đơn giản hoá quá trình tạo nhân vật: Tính năng tạo hình ảnh của Imagen 3 giúp đơn giản hoá quy trình tạo và tuỳ chỉnh nhân vật trong video. Giờ đây, người dùng có thể tạo các nhân vật độc đáo dựa trên ý tưởng của họ mà không cần có kỹ năng thiết kế nâng cao hoặc dựa vào các lựa chọn đặt sẵn có hạn. Quy trình làm việc đơn giản này giúp nhiều người dùng hơn hiện thực hoá tầm nhìn sáng tạo của mình.

  • Nội dung được cá nhân hoá hơn: Flash Gemini 2.0 cho phép người dùng tạo nội dung video mang tính cá nhân hoá cao. Các nhân vật được thiết kế tuỳ chỉnh kết hợp với giọng đọc linh động của AI giúp tạo nên những câu chuyện độc đáo, giúp củng cố mối liên kết giữa nhà sáng tạo và khán giả.

  • Mở rộng khả năng sáng tạo: Việc kết hợp nhân vật ảo và giọng đọc bằng AI giúp mở rộng tiềm năng sáng tạo của video dạng ngắn trên Viggle. Người dùng có thể khám phá những hình thức kể chuyện mới, vượt ra ngoài các định dạng video truyền thống.

Trong tương lai

Viggle rất hào hứng được khám phá thêm tiềm năng của Gemini 2.0 và các mô hình tạo hình ảnh để cải thiện nền tảng của mình. Chúng tôi cũng hình dung một tương lai mà AI tích hợp liền mạch vào mọi bước trong quy trình sáng tạo, giúp mọi người có thể trở thành nhà sáng tạo video.

"Tại Viggle, mọi người đều là nhà sáng tạo. Chúng tôi đang tạo meme, khám phá công nghệ quay chuyển động cho các dự án nâng cao và xây dựng đa vũ trụ của riêng mình. Với khả năng lồng tiếng sống động của Gemini 2.0 Flash, chúng tôi tin rằng người dùng sẽ khai thác được tiềm năng mới – tạo ra những câu chuyện chưa từng có”.

— Hang Chu, Nhà sáng lập Viggle

Công việc của Viggle với Gemini 2.0 Flash và Imagen 3 minh hoạ tiềm năng của AI trong việc biến đổi quy trình tạo video và trao quyền cho người dùng bằng các công cụ mới để thể hiện bản thân. Dự án hợp tác này đánh dấu một bước tiến trong tương lai của công nghệ kể chuyện bằng AI. Để tìm hiểu thêm về cách tạo bằng Gemini, hãy truy cập vào tài liệu về API Gemini và đọc thêm về Imagen 3 để biết những tiến bộ mới nhất của chúng tôi trong việc tạo hình ảnh.