12 DE DEZEMBRO DE 2025
O Toongether mantém a consistência do estilo de arte usando o Gemini 2.5 Flash Image
O surgimento da IA generativa abriu novas fronteiras para a expressão criativa, permitindo que os desenvolvedores criem ferramentas que transformam usuários casuais em artistas. No entanto, para arte sequencial, como quadrinhos, o desafio não é apenas gerar uma única imagem boa, mas criar personagens, estilos e narrativas consistentes em dezenas de painéis.
A Toongether, empresa por trás do app de webcomics, está enfrentando esse desafio. A missão deles é democratizar a narrativa visual, oferecendo uma plataforma em que usuários comuns podem não apenas ler, mas também criar e compartilhar suas próprias histórias em quadrinhos diretamente dos dispositivos móveis. Ao integrar o Gemini 2.5 Flash Image ao pipeline de criação, eles ajudam os usuários a superar os obstáculos técnicos do desenho, permitindo que uma nova comunidade de contadores de histórias crie em conjunto.
Como alcançar consistência em grande escala
Criar uma história em quadrinhos exige consistência rigorosa. Os personagens precisam ser reconhecíveis em diferentes poses, roupas e expressões faciais, tudo isso seguindo um estilo de arte unificado.
Inicialmente, a equipe do toongether usou uma pilha complexa que envolvia um modelo Stable Diffusion XL ajustado com ferramentas como ControlNet e IPAdapters. Embora isso tenha gerado resultados qualitativos, houve problemas com latência e flexibilidade, que são grandes gargalos para criadores de apps para dispositivos móveis. Gerar uma única imagem levava entre 20 e 30 segundos, o que é muito lento para uma experiência do usuário perfeita. Além disso, adicionar suporte para novas poses ou estilos de desenho exigia um esforço de engenharia significativo, limitando a capacidade de iteração rápida.
Orquestração de pipelines complexos com o Gemini
Para superar esses gargalos, a toongether migrou o pipeline principal de geração de imagens para a API Gemini. Eles escolheram o Gemini 2.5 Flash Image, também conhecido como "Nano Banana" por sua velocidade e agilidade, que ofereceu os recursos superiores de edição e acompanhamento de instruções necessários para lidar com tarefas complexas de geração em várias etapas.
A transição acelerou muito a velocidade de desenvolvimento, com a equipe passando de um protótipo para uma implementação de produção completa em apenas duas semanas.
Para manter a consistência dos personagens e permitir a personalização do usuário, o toongether usou o Gemini 2.5 Flash Image para criar um pipeline sofisticado de vários estágios:
- Análise de estilo e geração de referência:quando um usuário cria um novo personagem, o app fornece ao modelo uma lista selecionada de personagens de referência para analisar o estilo desejado. Com base em uma descrição de texto simples, o modelo gera uma imagem de referência de "pose neutra" para esse novo personagem original.
- Pacotes de recursos e geração de poses:para colocar o personagem em uma história, o Toongether usa "pacotes de recursos", que são listas agrupadas de descrições para poses e casos de uso desejados. Ao usar um comando de instrução com a imagem de referência neutra, é possível instruir o Gemini 2.5 Flash Image a gerar cenários específicos sem perder a identidade visual do personagem.
- Composição da cena:para planos de fundo e outros elementos, a equipe fornece imagens de referência para inferir o estilo de arte correto, garantindo painéis coesos.
"Ao aproveitar os recursos avançados de edição e instrução do Gemini 2.5 Flash Image, conseguimos oferecer suporte a todos os nossos casos de uso", explica Samir Nasser Eddine, cofundador da toongether. "Agora ele é uma parte essencial dos nossos pipelines de geração de imagens."
O que vem por aí no ToonTogether
Com os elementos básicos no lugar, a equipe do toongether está buscando recursos narrativos avançados que antes eram considerados muito exigentes em termos de recursos. Eles planejam usar os modelos do Gemini para oferecer suporte a interações complexas entre vários personagens em um único painel e apresentar uma variedade maior de estilos de desenho.
A jornada da toongether mostra como a API Gemini ajuda a próxima geração de criadores a ir além do gerenciamento de stacks de modelos complexos e criar ferramentas criativas sofisticadas e consistentes que podem ser usadas por usuários casuais.
Para começar a criar seus próprios aplicativos criativos com os modelos do Gemini, leia nossa documentação da API.