12 DES 2025
Toongether mempertahankan konsistensi gaya visual menggunakan Gemini 2.5 Flash Image
Munculnya AI generatif telah membuka cakrawala baru untuk ekspresi kreatif, sehingga memungkinkan developer membuat alat yang mengubah pengguna biasa menjadi seniman. Namun, untuk seni sekuensial seperti komik, tantangannya bukan hanya menghasilkan satu gambar yang bagus, tetapi juga menghasilkan karakter, gaya, dan narasi yang konsisten di puluhan panel.
Toongether, perusahaan di balik aplikasi komik web, mengatasi tantangan ini secara langsung. Misi mereka adalah mendemokratisasi penceritaan visual, menyediakan platform tempat pengguna biasa tidak hanya dapat membaca, tetapi juga membuat dan membagikan komik mereka sendiri langsung dari perangkat seluler mereka. Dengan mengintegrasikan Gemini 2.5 Flash Image ke dalam alur pembuatan konten mereka, mereka membantu pengguna mengatasi hambatan teknis dalam menggambar, sehingga memungkinkan komunitas pencerita baru berkolaborasi dalam membuat konten.
Mencapai konsistensi dalam skala besar
Membuat komik memerlukan konsistensi yang ketat. Karakter harus tetap dapat dikenali di berbagai pose, pakaian, dan ekspresi wajah, sekaligus mematuhi gaya seni yang terpadu.
Awalnya, tim toongether mengandalkan stack kompleks yang melibatkan model Stable Diffusion XL yang di-fine-tune dan ditingkatkan dengan alat seperti ControlNet dan IPAdapter. Meskipun memberikan hasil kualitatif, cara ini mengalami masalah latensi dan fleksibilitas—hambatan utama bagi developer seluler. Pembuatan satu gambar memerlukan waktu antara 20 dan 30 detik, yang terlalu lambat untuk pengalaman pengguna yang lancar. Selain itu, menambahkan dukungan untuk gaya gambar atau pose baru memerlukan upaya engineering yang signifikan, sehingga membatasi kemampuan mereka untuk melakukan iterasi dengan cepat.
Mengorkestrasi pipeline yang kompleks dengan Gemini
Untuk mengatasi hambatan ini, toongether memigrasikan pipeline pembuatan gambar intinya ke Gemini API. Mereka memilih Gemini 2.5 Flash Image—yang juga dikenal dengan sebutan “Nano Banana” karena kecepatan dan kelincahannya—yang menawarkan kemampuan pengeditan dan mengikuti petunjuk yang lebih unggul yang diperlukan untuk menangani tugas pembuatan multi-langkah yang kompleks.
Transisi ini secara dramatis mempercepat kecepatan pengembangan mereka, dengan tim yang beralih dari prototipe ke penerapan produksi penuh hanya dalam dua minggu.
Untuk mempertahankan konsistensi karakter sekaligus memungkinkan penyesuaian pengguna, toongether memanfaatkan Gemini 2.5 Flash Image untuk membangun pipeline multi-tahap yang canggih:
- Analisis gaya & pembuatan referensi: Saat pengguna membuat karakter baru, aplikasi akan memberikan daftar karakter referensi pilihan kepada model untuk menganalisis gaya yang diinginkan. Berdasarkan deskripsi teks sederhana, model menghasilkan gambar referensi “pose netral” untuk karakter orisinal baru ini.
- Paket aset & pembuatan pose: Untuk memasukkan karakter tersebut ke dalam cerita, toongether menggunakan “paket aset”—daftar deskripsi yang dikelompokkan untuk pose dan kasus penggunaan yang diinginkan. Dengan menggunakan perintah instruksi bersama dengan gambar referensi netral, mereka dapat menginstruksikan Gemini 2.5 Flash Image untuk membuat skenario tertentu tanpa menghilangkan identitas visual karakter.
- Komposisi adegan: Untuk latar belakang dan elemen lainnya, tim menyediakan gambar referensi untuk menyimpulkan gaya seni yang tepat, sehingga memastikan panel yang kohesif.
“Dengan memanfaatkan kemampuan pengeditan dan petunjuk canggih Gemini 2.5 Flash Image, kami dapat mendukung semua kasus penggunaan kami,” jelas Samir Nasser Eddine, salah satu pendiri toongether. “Sekarang, ini adalah bagian penting dari pipeline pembuatan gambar kami.”
Langkah selanjutnya untuk toongether
Dengan elemen dasar yang sudah ada, tim toongether berfokus pada fitur narasi lanjutan yang sebelumnya dianggap terlalu banyak menggunakan resource. Mereka berencana menggunakan model Gemini untuk mendukung interaksi kompleks antara beberapa karakter dalam satu panel dan untuk memperkenalkan berbagai gaya gambar yang lebih luas.
Perjalanan toongether menyoroti bagaimana Gemini API membantu kelompok developer berikutnya melampaui pengelolaan tumpukan model yang kompleks hingga membangun alat kreatif yang canggih dan konsisten yang dapat diskalakan untuk pengguna biasa.
Untuk mulai membuat aplikasi kreatif Anda sendiri dengan model Gemini, baca dokumentasi API kami.