Ngày 20 tháng 5 năm 2025
Toonsutra mang truyện tranh đến với cuộc sống: Trải nghiệm đọc sống động nhờ Gemini API, bản dùng thử Gemini 2.5 Pro và Lyria 2

Toonsutra, nền tảng truyện tranh trực tuyến và tiểu thuyết bằng hình ảnh lớn nhất ở Ấn Độ, có sứ mệnh kết nối khán giả trên toàn cầu với vũ trụ truyện tranh trực tuyến rộng lớn, đặc biệt tập trung vào việc cung cấp những câu chuyện đẳng cấp thế giới bằng các ngôn ngữ của Ấn Độ. Để tăng mức độ tương tác của khán giả, Toonsutra đã đặt ra câu hỏi: làm cách nào để chúng ta có thể biến trải nghiệm đọc truyện tranh truyền thống thành một hành trình sống động như xem phim, nơi giọng nói, âm nhạc và câu chuyện diễn ra một cách tự nhiên bằng ngôn ngữ mà độc giả mơ ước?
Tạo nên chương tiếp theo trong nghệ thuật kể chuyện tương tác
Đây là câu hỏi trọng tâm của Toonsutra. Phản hồi từ cộng đồng của họ cho thấy khán giả mong muốn có mức độ tương tác sâu sắc hơn và khả năng tiếp cận rộng rãi hơn. Nhận thấy tiềm năng to lớn của AI và được Quỹ AI cho tương lai của Google hỗ trợ, Toonsutra đã hợp tác với Phòng thí nghiệm và Nhóm đổi mới cùng đối tác tại Google. Cả hai đang tận dụng Gemini API, có tính năng Gemini 2.5 Pro Preview và Lyria 2 (mô hình tạo nhạc của Google DeepMind) để đổi mới trải nghiệm truyện tranh trực tuyến cho người hâm mộ trên toàn cầu.
Sự hợp tác này được công bố tại Google I/O, mang đến trải nghiệm truyện tranh dựa trên AI, trong đó các câu chuyện không chỉ nằm trên trang mà còn phản hồi và tương tác, biến hình ảnh tĩnh thành nội dung kể chuyện bằng âm thanh sinh động:
- Lời tường thuật bằng AI thích ứng: Gemini 2.5 Pro (bản xem trước) tạo lời tường thuật bằng AI phù hợp với tốc độ đọc, giúp các nhân vật trở nên sống động với giọng nói riêng biệt. Điều này đặc biệt có tác động lớn đối với độc giả Ấn Độ, nơi có nhiều sắc thái văn hoá trong ngôn ngữ. Khả năng thích ứng và đa ngôn ngữ của Gemini 2.5 Pro, kết hợp với công cụ ngữ cảnh nhân vật độc quyền của Toonsutra, đảm bảo việc kể chuyện nhất quán và tinh tế.
- Cảnh âm thanh sống động: Nhờ khả năng hiểu biết đa phương thức của Gemini 2.5 Pro Preview và khả năng tạo âm thanh tự nhiên của Lyria và Gemini, nền tảng này tạo ra những cảnh âm thanh sống động, bao gồm cả nhạc, bản lồng tiếng và âm thanh chuyển động riêng biệt – từ tiếng kiếm va chạm đến không khí của một khu chợ nhộn nhịp.
- Tăng cường tính tương tác: Các phần tử dựa trên Gemini 2.5 Pro Preview cho phép người đọc kích hoạt các đoạn hội thoại độc đáo, khám phá những chi tiết ẩn hoặc ảnh hưởng tinh tế đến các mạch truyện, đảm bảo trải nghiệm đọc đa dạng.
Chi tiết kỹ thuật
Dự án này giới thiệu một phương pháp mới để tự động tạo âm thanh sống động cho truyện tranh kỹ thuật số, hoàn chỉnh với siêu dữ liệu không gian được đồng bộ hoá. Nền tảng này có cấu trúc đa tác nhân được xây dựng dựa trên Gemini 2.5 Pro Preview, bao gồm các tác nhân chuyên biệt: Trình trích xuất bối cảnh truyện tranh, Người kể chuyện, Nhà soạn nhạc, Đạo diễn âm nhạc và Tác nhân hiệu ứng âm thanh.
Quy trình này bắt đầu bằng việc Comic Context Extractor Agent (Tác nhân trích xuất bối cảnh truyện tranh) phân tích nhiều chương truyện tranh để đưa ra một bản tóm tắt, thể loại và đặc điểm nhân vật toàn diện. Sau đó, các bảng sẽ được trích xuất với ranh giới đã xác định. Narrator Agent (Trợ lý đọc) sẽ điều chỉnh lời thoại trong bản chép lời cho phù hợp với các bảng này. Nhờ đó, Gemini Native Audio (Âm thanh gốc của Gemini) có thể lồng tiếng cho các bảng này dựa trên bối cảnh của nhân vật. Đồng thời, Music Composer Agent (Tác nhân sáng tác nhạc), lấy cảm hứng từ việc sáng tác nhạc cho phim, sử dụng Gemini 2.5 Pro Preview để phân biệt các chủ đề và cảm xúc trong các chương, chuyển chúng thành câu lệnh tạo nhạc cho Lyria để tạo nhạc nền. Tác nhân Đạo diễn âm nhạc liên kết bản nhạc này với các bảng điều khiển cụ thể, trong khi Tác nhân Hiệu ứng âm thanh liên kết các bảng điều khiển với thẻ hiệu ứng âm thanh có liên quan, được truy xuất từ cơ sở dữ liệu.
Quy trình này kết thúc bằng một tệp JSON nêu chi tiết toạ độ của bảng điều khiển, giọng lồng tiếng, hiệu ứng âm thanh và nhạc được đồng bộ hoá, được gửi đến giao diện người dùng của Toonsutra.
Một yếu tố quan trọng dẫn đến thành công là khả năng tạo âm thanh điện ảnh bằng các ngôn ngữ Ấn Độ của Gemini, bắt đầu từ tiếng Hindi, giúp Toonsutra tiến gần hơn đến mục tiêu tăng cường khả năng tiếp cận.
"Đây là một trường hợp sử dụng rất thú vị và hấp dẫn để khai thác khả năng đa phương thức và đa ngôn ngữ của Gemini. Việc sử dụng các mô hình ngôn ngữ lớn mạnh mẽ của Google để hiểu hình ảnh, nhân vật, bản phác thảo và chủ đề theo ngữ nghĩa là một cơ chế tuyệt vời để cô đọng nội dung đầu vào thành những yếu tố cơ bản. Khả năng tạo nhạc mạnh mẽ của Lyria và khả năng tạo lời nói tự nhiên của Gemini, đặc biệt là bằng các ngôn ngữ Ấn Độ, đã nâng cao trải nghiệm cuối cùng mà chúng tôi có thể mang đến cho người dùng khi hợp tác với Toonsutra"
Từ Google I/O đến giai đoạn phát hành công khai
Sự kiện Google I/O là một cột mốc đáng kinh ngạc, cho thấy cách AI có thể cải thiện đáng kể nội dung kỹ thuật số. Đối với Toonsutra, đây chỉ là chương đầu tiên.
Như nhóm của chúng tôi thường nói: "Tầm nhìn của Toonsutra luôn là làm cho truyện tranh hấp dẫn và dễ tiếp cận hơn đối với mọi người ở khắp mọi nơi. Sự hợp tác này với Google là một bước tiến lớn hướng tới tầm nhìn đó. Khả năng tạo ra những trải nghiệm đọc sống động và dựa trên AI như vậy trực tiếp giải quyết ý kiến phản hồi từ cộng đồng của chúng tôi và thúc đẩy quá trình đổi mới. Chúng tôi rất vui mừng khi nhận được phản hồi tích cực tại I/O và mong muốn tích hợp tính năng này vào ứng dụng Toonsutra, thậm chí còn dự định khám phá một API tiềm năng để hỗ trợ các nhà sáng tạo khác."
Toonsutra hiện đang tập trung vào việc từng bước tích hợp các tính năng này vào ứng dụng chính của họ, đồng thời lắng nghe ý kiến phản hồi của cộng đồng. Họ tin rằng mình không chỉ làm phong phú nền tảng của mình mà còn giúp tạo ra một bản kế hoạch mới cho nội dung được AI cải tiến.
Bạn đã sẵn sàng xây dựng? Khám phá tài liệu về Gemini API và bắt đầu sử dụng Google AI Studio ngay hôm nay.
Toonsutra là một thành viên của Quỹ AI cho tương lai của Google. Quỹ này đầu tư và hợp tác với những công ty khởi nghiệp đầy tham vọng đang xây dựng những sản phẩm AI của tương lai.