Toongether mantiene la coerenza dello stile artistico utilizzando Gemini 2.5 Flash Image

Samir Nasser Eddine

Cofondatore di toongether

Guillaume Vernade

DeepMind Senior Developer Advocate

L'ascesa dell'AI generativa ha aperto nuove frontiere per l'espressione creativa, consentendo agli sviluppatori di creare strumenti che trasformano gli utenti occasionali in artisti. Tuttavia, per l'arte sequenziale come i fumetti, la sfida non è solo generare una singola immagine di buona qualità, ma anche personaggi, stili e narrazioni coerenti in decine di riquadri.

Toongether, l'azienda che ha creato l'app di webcomic, sta affrontando questa sfida. La sua missione è democratizzare lo storytelling visivo, fornendo una piattaforma in cui gli utenti occasionali possono non solo leggere, ma anche creare e condividere i propri fumetti direttamente dai loro dispositivi mobili. Integrando Gemini 2.5 Flash Image nella loro pipeline di creazione, aiutano gli utenti a superare gli ostacoli tecnici del disegno, consentendo a una nuova community di storyteller di collaborare alla creazione.

Garantire la coerenza su larga scala

La creazione di un fumetto richiede una coerenza rigorosa. I personaggi devono rimanere riconoscibili in diverse pose, abiti ed espressioni facciali, il tutto rispettando uno stile artistico unificato.

Inizialmente, il team di toongether si basava su uno stack complesso che prevedeva un modello Stable Diffusion XL ottimizzato e migliorato con strumenti come ControlNet e IPAdapter. Sebbene abbia prodotto risultati qualitativi, ha avuto problemi di latenza e flessibilità, che rappresentano i principali colli di bottiglia per i builder di app mobile. La generazione di una singola immagine richiedeva tra i 20 e i 30 secondi, un tempo troppo lungo per un'esperienza utente fluida. Inoltre, l'aggiunta del supporto per nuove pose o stili di disegno richiedeva un notevole sforzo ingegneristico, limitando la loro capacità di iterare rapidamente.

Orchestrare pipeline complesse con Gemini

Per superare questi colli di bottiglia, toongether ha eseguito la migrazione della pipeline principale di generazione di immagini all'API Gemini. Hanno scelto Gemini 2.5 Flash Image, noto anche come "Nano Banana" per la sua velocità e agilità, che offriva le funzionalità di editing e di esecuzione delle istruzioni superiori necessarie per gestire attività di generazione complesse e in più passaggi.

La transizione ha accelerato notevolmente la velocità di sviluppo, con il team che è passato da un prototipo a un'implementazione completa della produzione in sole due settimane.

Per mantenere la coerenza dei personaggi e consentire la personalizzazione da parte degli utenti, toongether ha sfruttato Gemini 2.5 Flash Image per creare una pipeline sofisticata in più fasi:

Analisi dello stile e generazione di riferimenti:quando un utente crea un nuovo personaggio, l'app fornisce al modello un elenco selezionato di personaggi di riferimento per analizzare lo stile desiderato. In base a una semplice descrizione testuale, il modello genera un'immagine di riferimento in "posa neutra" per questo nuovo personaggio originale.
Pacchetti di asset e generazione di pose:per inserire il personaggio in una storia, toongether utilizza i "pacchetti di asset", ovvero elenchi raggruppati di descrizioni per le pose e i casi d'uso desiderati. Utilizzando un prompt di istruzioni insieme all'immagine di riferimento neutra, possono chiedere a Gemini 2.5 Flash Image di generare scenari specifici senza perdere l'identità visiva del personaggio.
Composizione della scena:per sfondi e altri elementi, il team fornisce immagini di riferimento per dedurre lo stile artistico corretto, garantendo pannelli coerenti.

"Sfruttando le funzionalità avanzate di editing e istruzioni di Gemini 2.5 Flash Image, siamo riusciti a supportare tutti i nostri casi d'uso", spiega Samir Nasser Eddine, cofondatore di toongether. "Ora è una parte essenziale delle nostre pipeline di generazione di immagini".

Novità in arrivo per Toongether

Con gli elementi di base a posto, il team di toongether sta esaminando le funzionalità narrative avanzate precedentemente considerate troppo dispendiose in termini di risorse. Prevedono di utilizzare i modelli Gemini per supportare interazioni complesse tra più personaggi all'interno di un singolo riquadro e per introdurre una più ampia varietà di stili di disegno.

Il percorso di toongether evidenzia come l'API Gemini aiuti la prossima coorte di sviluppatori a superare la gestione di stack di modelli complessi per creare strumenti creativi sofisticati e coerenti che si adattino agli utenti occasionali.

Per iniziare a creare le tue applicazioni creative con i modelli Gemini, leggi la nostra documentazione dell'API.

Toongether mantiene la coerenza dello stile artistico utilizzando Gemini 2.5 Flash Image

Garantire la coerenza su larga scala

Orchestrare pipeline complesse con Gemini

Novità in arrivo per Toongether

Case study correlati