Toonsutra biến truyện tranh thành thế giới sinh động: Trải nghiệm đọc sống động dựa trên Gemini API, bản dùng thử Gemini 2.5 Pro và Lyria 2

Sharad Devarajan | Vishal Anand

Nhà sáng lập Toonsutra

Avneet Singh

Nhà quản lý sản phẩm, Nhóm đổi mới cùng đối tác của Google

Toonsutra, nền tảng truyện tranh trực tuyến và tiểu thuyết bằng hình ảnh lớn nhất ở Ấn Độ, có sứ mệnh kết nối khán giả trên toàn cầu với vũ trụ truyện tranh trực tuyến rộng lớn, đặc biệt tập trung vào việc cung cấp những câu chuyện đẳng cấp thế giới bằng các ngôn ngữ của Ấn Độ. Với mong muốn tăng cường mức độ tương tác của khán giả, Toonsutra đã đặt ra câu hỏi: làm cách nào để biến trải nghiệm đọc truyện tranh truyền thống thành một hành trình sống động như xem phim, nơi giọng nói, âm nhạc và câu chuyện diễn ra một cách tự nhiên bằng ngôn ngữ mà độc giả mong muốn?

Tạo nên chương mới trong nghệ thuật kể chuyện tương tác

Đây là câu hỏi trọng tâm của Toonsutra. Phản hồi từ cộng đồng của họ cho thấy khán giả mong muốn tương tác sâu sắc hơn với khả năng tiếp cận rộng rãi hơn. Nhận thấy tiềm năng to lớn của AI và được quỹ AI Futures Fund của Google hỗ trợ, Toonsutra đã hợp tác với Labs và Nhóm đổi mới cùng đối tác tại Google. Cả hai đang tận dụng Gemini API, có tính năng Gemini 2.5 Pro Preview và Lyria 2 (mô hình tạo nhạc của Google DeepMind) để cải tiến trải nghiệm đọc truyện tranh trực tuyến cho người hâm mộ trên toàn cầu.

Sự hợp tác này được công bố tại Google I/O, mang đến trải nghiệm truyện tranh dựa trên AI, nơi các câu chuyện không chỉ nằm trên trang truyện, mà còn phản hồi và tương tác, biến hình ảnh tĩnh thành những câu chuyện âm thanh sinh động:

Tường thuật thích ứng bằng AI: Gemini 2.5 Pro (bản xem trước) tạo ra lời tường thuật bằng AI phù hợp với tốc độ đọc, giúp các nhân vật trở nên sống động với giọng nói riêng biệt. Điều này đặc biệt có quan trọng đối với độc giả Ấn Độ, nơi có nhiều sắc thái văn hoá trong ngôn ngữ. Khả năng thích ứng và đa ngôn ngữ của Gemini 2.5 Pro, kết hợp với công cụ ngữ cảnh nhân vật độc quyền của Toonsutra, giúp đảm bảo kể chuyện nhất quán và tinh tế.
Bối cảnh âm thanh sống động: Nhờ khả năng hiểu biết đa phương thức của Gemini 2.5 Pro (Bản xem trước) và khả năng tạo âm thanh gốc của Lyria và Gemini, nền tảng này tạo ra những bối cảnh âm thanh sống động, bao gồm cả nhạc, giọng lồng tiếng và âm thanh chuyển động phù hợp – từ tiếng kiếm va chạm cho đến không khí của một khu chợ nhộn nhịp.
Tăng cường tính tương tác: Các phần tử dựa trên Gemini 2.5 Pro (Bản xem trước) cho phép người đọc kích hoạt các đoạn hội thoại độc đáo, khám phá những chi tiết ẩn hoặc tác động tinh tế đến các mạch truyện, qua đó đảm bảo trải nghiệm đọc đa dạng.

Chi tiết kỹ thuật

Dự án này giới thiệu một phương pháp mới để tự động tạo âm thanh sống động cho truyện tranh kỹ thuật số, kết hợp hoàn chỉnh với siêu dữ liệu không gian được đồng bộ hoá. Nền tảng này có cấu trúc đa tác nhân được xây dựng dựa trên Gemini 2.5 Pro (Bản xem trước), bao gồm các tác nhân chuyên biệt: Trình trích xuất bối cảnh truyện tranh, Trình kể chuyện, Trình soạn nhạc, Trình đạo diễn âm nhạc và Tác nhân hiệu ứng âm thanh.

Quy trình công việc này bắt đầu bằng việc Tác nhân trích xuất bối cảnh truyện tranh phân tích nhiều chương truyện tranh để đưa ra một bản tóm tắt, thể loại và đặc điểm nhân vật toàn diện. Sau đó, các khung truyện sẽ được trích xuất theo ranh giới đã xác định. Tác nhân kể chuyện sẽ điều chỉnh lời thoại trong bản chép lời cho phù hợp với các khung truyện này. Sau đó, Gemini Native Audio sẽ lồng tiếng cho các khung truyện này dựa trên bối cảnh của nhân vật. Đồng thời, lấy cảm hứng từ việc sáng tác nhạc cho phim, Tác nhân sáng tác nhạc sẽ dùng Gemini 2.5 Pro (Bản xem trước) để phân biệt các chủ đề và cảm xúc trong các chương, chuyển chúng thành câu lệnh tạo nhạc để Lyria tạo nhạc nền. Tác nhân đạo diễn âm nhạc liên kết bản nhạc này với các khung truyện cụ thể, trong khi Tác nhân hiệu ứng âm thanh liên kết các khung truyện với thẻ hiệu ứng âm thanh có liên quan, được truy xuất từ cơ sở dữ liệu.

Quy trình này kết thúc bằng việc gửi một tệp JSON nêu chi tiết toạ độ của khung truyện, giọng lồng tiếng, hiệu ứng âm thanh và nhạc đã đồng bộ hoá, đến giao diện người dùng của Toonsutra.

Một yếu tố quan trọng tạo nên thành công là khả năng tạo âm thanh điện ảnh bằng các ngôn ngữ Ấn của Gemini, bắt đầu từ tiếng Hindi, giúp Toonsutra tiến gần hơn đến mục tiêu tăng cường khả năng tiếp cận.

"Đây là một trường hợp sử dụng thú vị và hấp dẫn để khai thác khả năng đa phương thức và đa ngôn ngữ của Gemini. Việc sử dụng các mô hình ngôn ngữ lớn mạnh mẽ của Google để hiểu hình ảnh, nhân vật, bản phác thảo và chủ đề theo ngữ nghĩa là một cơ chế tuyệt vời để cô đọng nội dung nghe nhìn đầu vào thành những yếu tố cơ bản. Khả năng tạo nhạc mạnh mẽ của Lyria và khả năng tạo lời nói tự nhiên của Gemini, đặc biệt là bằng các ngôn ngữ Ấn, đã nâng cao trải nghiệm cuối cùng mà chúng tôi có thể mang đến khi hợp tác với Toonsutra"

– Avneet (Quản lý sản phẩm, Nhóm đổi mới cùng đối tác của Google)

Từ Google I/O đến giai đoạn phát hành rộng rãi

Sự kiện Google I/O là một cột mốc đáng kinh ngạc, cho thấy cách AI có thể cải thiện đáng kể nội dung kỹ thuật số. Đối với Toonsutra, đây chỉ là chương đầu tiên.

Như nhóm của chúng tôi thường nói: "Tầm nhìn của Toonsutra luôn là làm cho truyện tranh hấp dẫn và dễ tiếp cận hơn đối với mọi người ở khắp mọi nơi. Hoạt động hợp tác này với Google là một bước tiến lớn hướng tới tầm nhìn đó. Khả năng tạo ra những trải nghiệm đọc sống động, dựa trên AI nêu trên giúp chúng tôi giải quyết trực tiếp ý kiến phản hồi của cộng đồng và đẩy nhanh quá trình đổi mới. Chúng tôi rất vui mừng khi nhận được phản hồi tại I/O và mong muốn tích hợp tính năng này vào ứng dụng Toonsutra, thậm chí sau cùng là khám phá một API tiềm năng để hỗ trợ các nhà sáng tạo khác."

Toonsutra hiện đang tập trung vào việc từng bước tích hợp các tính năng này vào ứng dụng chính của họ, đồng thời lắng nghe ý kiến phản hồi của cộng đồng. Họ tin rằng mình không chỉ làm phong phú nền tảng của mình mà còn giúp tạo ra một lộ trình mới cho nội dung được cải thiện bằng AI.

Bạn đã sẵn sàng xây dựng? Hãy khám phá tài liệu về Gemini API và bắt đầu sử dụng Google AI Studio ngay hôm nay.

Toonsutra là một thành viên của quỹ AI Futures Fund của Google. Quỹ này đầu tư và hợp tác với những công ty khởi nghiệp đầy tham vọng đang xây dựng những sản phẩm thế hệ mới trong kỷ nguyên AI.

Toonsutra biến truyện tranh thành thế giới sinh động: Trải nghiệm đọc sống động dựa trên Gemini API, bản dùng thử Gemini 2.5 Pro và Lyria 2

Tạo nên chương mới trong nghệ thuật kể chuyện tương tác

Chi tiết kỹ thuật

Từ Google I/O đến giai đoạn phát hành rộng rãi

Nghiên cứu điển hình có liên quan