12 DES 2025

Toongether mempertahankan konsistensi gaya seni menggunakan Gemini 2.5 Flash Image

Samir Nasser Eddine

Co-founder toongether

Guillaume Vernade

Advokat Developer Senior DeepMind

Popularitas AI generatif telah membuka peluang baru untuk ekspresi kreatif, sehingga developer dapat membuat alat yang mengubah pengguna biasa menjadi seniman. Namun, untuk seni sekuensial seperti komik, tantangannya bukan hanya menghasilkan satu gambar yang bagus, tetapi juga menghasilkan karakter, gaya, dan narasi yang konsisten di puluhan panel.

Toongether, perusahaan di balik aplikasi komik web, mengatasi tantangan ini secara langsung. Misi mereka adalah mendemokratisasi penceritaan visual, menyediakan platform tempat pengguna biasa tidak hanya dapat membaca, tetapi juga membuat dan membagikan komik mereka sendiri langsung dari perangkat seluler mereka. Dengan mengintegrasikan Gemini 2.5 Flash Image ke dalam alur pembuatan konten mereka, mereka membantu pengguna mengatasi hambatan teknis dalam menggambar, sehingga memungkinkan komunitas pencerita baru berkolaborasi.

Mencapai konsistensi dalam skala besar

Membuat komik memerlukan konsistensi yang ketat. Karakter harus tetap dapat dikenali di berbagai pose, pakaian, dan ekspresi wajah, sekaligus mematuhi gaya seni yang terpadu.

Awalnya, tim toongether mengandalkan stack kompleks yang melibatkan model Stable Diffusion XL yang di-fine-tune dan ditingkatkan dengan alat seperti ControlNet dan IPAdapter. Meskipun memberikan hasil kualitatif, cara ini mengalami masalah latensi dan fleksibilitas—hambatan besar bagi developer seluler. Membuat satu gambar memerlukan waktu antara 20 hingga 30 detik, yang terlalu lambat untuk pengalaman pengguna yang lancar. Selain itu, menambahkan dukungan untuk gaya gambar atau pose baru memerlukan upaya engineering yang signifikan, sehingga membatasi kemampuan mereka untuk melakukan iterasi dengan cepat.

Mengorkestrasi pipeline yang kompleks dengan Gemini

Untuk mengatasi hambatan ini, toongether memigrasikan pipeline pembuatan gambar intinya ke Gemini API. Mereka memilih Gemini 2.5 Flash Image—yang juga dikenal dengan sebutan “Nano Banana” karena kecepatan dan kelincahannya—yang menawarkan kemampuan pengeditan dan mengikuti petunjuk yang lebih unggul yang diperlukan untuk menangani tugas pembuatan multi-langkah yang kompleks.

Transisi ini secara dramatis mempercepat kecepatan pengembangan mereka, dengan tim yang beralih dari prototipe ke implementasi produksi penuh hanya dalam dua minggu.

Untuk mempertahankan konsistensi karakter sekaligus memungkinkan penyesuaian pengguna, toongether memanfaatkan Gemini 2.5 Flash Image untuk membangun pipeline multi-tahap yang canggih:

Analisis gaya & pembuatan referensi: Saat pengguna membuat karakter baru, aplikasi akan memberikan daftar karakter referensi pilihan kepada model untuk menganalisis gaya yang diinginkan. Berdasarkan deskripsi teks sederhana, model menghasilkan gambar referensi “pose netral” untuk karakter orisinal baru ini.
Paket aset & pembuatan pose: Untuk memasukkan karakter tersebut ke dalam cerita, toongether menggunakan “paket aset”—daftar deskripsi yang dikelompokkan untuk pose dan kasus penggunaan yang diinginkan. Dengan menggunakan perintah instruksi bersama dengan gambar referensi netral, mereka dapat menginstruksikan Gemini 2.5 Flash Image untuk membuat skenario tertentu tanpa menghilangkan identitas visual karakter.
Komposisi adegan: Untuk latar belakang dan elemen lainnya, tim menyediakan gambar referensi untuk menyimpulkan gaya seni yang tepat, sehingga memastikan panel yang kohesif.

“Dengan memanfaatkan kemampuan pengeditan dan petunjuk canggih Gemini 2.5 Flash Image, kami dapat mendukung semua kasus penggunaan kami,” jelas Samir Nasser Eddine, salah satu pendiri toongether. “Sekarang, ini menjadi bagian penting dari pipeline pembuatan gambar kami.”

Langkah selanjutnya untuk toongether

Dengan elemen dasar yang sudah ada, tim toongether berfokus pada fitur narasi lanjutan yang sebelumnya dianggap terlalu banyak menggunakan resource. Mereka berencana menggunakan model Gemini untuk mendukung interaksi kompleks antara beberapa karakter dalam satu panel dan untuk memperkenalkan berbagai gaya gambar yang lebih luas.

Perjalanan toongether menyoroti bagaimana Gemini API membantu kelompok developer berikutnya untuk melampaui pengelolaan stack model yang kompleks hingga membangun alat kreatif yang canggih dan konsisten yang dapat diskalakan untuk pengguna biasa.

Untuk mulai membuat aplikasi kreatif Anda sendiri dengan model Gemini, baca dokumentasi API kami.

Toongether mempertahankan konsistensi gaya seni menggunakan Gemini 2.5 Flash Image

Mencapai konsistensi dalam skala besar

Mengorkestrasi pipeline yang kompleks dengan Gemini

Langkah selanjutnya untuk toongether

Studi kasus terkait