Chia sẻ

Ngày 12 tháng 12 năm 2025

Toongether duy trì tính nhất quán về phong cách nghệ thuật bằng cách sử dụng Hình ảnh Gemini 2.5 Flash

Samir Nasser Eddine

Nhà đồng sáng lập toongether

Guillaume Vernade

Người hỗ trợ nhà phát triển cấp cao tại DeepMind

Ảnh chính giới thiệu Toongether

Sự phát triển của AI tạo sinh đã mở ra những chân trời mới cho việc thể hiện sức sáng tạo, cho phép nhà phát triển tạo ra những công cụ biến người dùng thông thường thành nghệ sĩ. Tuy nhiên, đối với những tác phẩm nghệ thuật tuần tự như truyện tranh, thách thức không chỉ là tạo ra một hình ảnh đẹp mà còn là tạo ra các nhân vật, phong cách và câu chuyện nhất quán trên hàng chục khung hình.

Toongether, công ty phát triển ứng dụng truyện tranh trực tuyến này, đang trực tiếp giải quyết thách thức này. Sứ mệnh của họ là dân chủ hoá việc kể chuyện bằng hình ảnh, cung cấp một nền tảng nơi người dùng thông thường không chỉ có thể đọc mà còn có thể tạo và chia sẻ truyện tranh của riêng mình ngay trên thiết bị di động. Bằng cách tích hợp Gemini 2.5 Flash Image vào quy trình sáng tạo của mình, họ đang giúp người dùng vượt qua những rào cản kỹ thuật khi vẽ, từ đó tạo ra một cộng đồng mới gồm những người kể chuyện cùng sáng tạo.

Đảm bảo tính nhất quán trên quy mô lớn

Việc sáng tạo truyện tranh đòi hỏi sự nhất quán chặt chẽ. Các nhân vật phải dễ nhận dạng trong nhiều tư thế, trang phục và biểu cảm khuôn mặt, đồng thời tuân thủ một phong cách nghệ thuật thống nhất.

Ban đầu, nhóm toongether dựa vào một ngăn xếp phức tạp liên quan đến mô hình Stable Diffusion XL được tinh chỉnh và nâng cao bằng các công cụ như ControlNet và IPAdapter. Mặc dù mang lại kết quả định tính, nhưng phương pháp này gặp khó khăn về độ trễ và tính linh hoạt – những điểm nghẽn chính đối với các nhà phát triển ứng dụng di động. Việc tạo một hình ảnh mất từ 20 đến 30 giây, quá chậm để mang lại trải nghiệm liền mạch cho người dùng. Hơn nữa, việc thêm chế độ hỗ trợ cho các tư thế hoặc kiểu vẽ mới đòi hỏi nhiều nỗ lực kỹ thuật, hạn chế khả năng lặp lại nhanh chóng của họ.

Điều phối các quy trình phức tạp bằng Gemini

Để khắc phục những điểm nghẽn này, toongether đã di chuyển quy trình tạo hình ảnh cốt lõi của họ sang Gemini API. Họ đã chọn Gemini 2.5 Flash Image (còn được gọi là "Nano Banana" vì tốc độ và sự linh hoạt của mô hình này). Mô hình này có khả năng chỉnh sửa và tuân theo chỉ dẫn vượt trội cần thiết để xử lý các tác vụ tạo phức tạp gồm nhiều bước.

Quá trình chuyển đổi này đã giúp họ đẩy nhanh tốc độ phát triển một cách đáng kể, khi nhóm chuyển từ nguyên mẫu sang triển khai sản xuất đầy đủ chỉ trong vòng 2 tuần.

Để duy trì tính nhất quán của nhân vật trong khi cho phép người dùng tuỳ chỉnh, toongether đã tận dụng Gemini 2.5 Flash Image để xây dựng một quy trình nhiều giai đoạn tinh vi:

  • Phân tích kiểu và tạo tài liệu tham khảo: Khi người dùng tạo một nhân vật mới, ứng dụng sẽ cung cấp cho mô hình một danh sách nhân vật tham khảo được tuyển chọn để phân tích kiểu mong muốn. Dựa trên nội dung mô tả đơn giản dạng văn bản, mô hình này sẽ tạo ra một hình ảnh tham khảo "tư thế trung lập" cho nhân vật nguyên gốc mới này.
  • Gói tài sản và tạo dáng: Để đưa nhân vật đó vào một câu chuyện, toongether sử dụng "gói tài sản" – danh sách mô tả được nhóm lại cho các tư thế và trường hợp sử dụng mong muốn. Bằng cách sử dụng câu lệnh hướng dẫn cùng với hình ảnh tham khảo trung tính, họ có thể hướng dẫn Gemini 2.5 Flash Image tạo ra các tình huống cụ thể mà không làm mất đi đặc điểm nhận dạng trực quan của nhân vật.
  • Bố cục cảnh: Đối với hình nền và các phần tử khác, nhóm cung cấp hình ảnh tham khảo để suy luận phong cách nghệ thuật phù hợp, đảm bảo các bảng điều khiển nhất quán.

HubX

Samir Nasser Eddine, đồng sáng lập của toongether, giải thích: "Bằng cách tận dụng các tính năng chỉnh sửa và hướng dẫn nâng cao của Gemini 2.5 Flash Image, chúng tôi có thể hỗ trợ tất cả các trường hợp sử dụng của mình". "Giờ đây, tính năng này là một phần thiết yếu trong quy trình tạo hình ảnh của chúng tôi."

Những dự định tiếp theo của toongether

Sau khi đã có các thành phần cơ bản, nhóm toongether đang hướng đến những tính năng kể chuyện nâng cao mà trước đây họ cho là tốn quá nhiều tài nguyên. Họ dự định sử dụng các mô hình Gemini để hỗ trợ những tương tác phức tạp giữa nhiều nhân vật trong một bảng duy nhất và giới thiệu nhiều kiểu vẽ đa dạng hơn.

Hành trình của toongether cho thấy cách Gemini API giúp thế hệ nhà phát triển tiếp theo vượt qua việc quản lý các ngăn xếp mô hình phức tạp để xây dựng các công cụ sáng tạo tinh vi, nhất quán và có thể mở rộng cho người dùng thông thường.

Để bắt đầu xây dựng các ứng dụng sáng tạo của riêng bạn bằng các mô hình Gemini, hãy đọc tài liệu về API của chúng tôi.