Compartilhar

7 de novembro de 2025

O HubX integra o Gemini 2.5 Flash Image para edição de fotos contextual e de baixa latência no app ReShoot

Sertaç Çınar

Gerente de produtos sênior, HubX

Vishal Dharmadhikari

Engenheiro de soluções de produtos

Imagem principal da vitrine da IA Pascal

A HubX é um hub de tecnologia global que atende a mais de 300 milhões de usuários em seu portfólio de aplicativos móveis. Ao desenvolver o app mais recente, o ReShoot, o objetivo era democratizar a edição de fotos de nível profissional usando a IA generativa. Ao usar a API Gemini, a equipe alcançou uma velocidade de desenvolvimento notável, levando o projeto do início do desenvolvimento do MVP ao lançamento no iOS em apenas duas semanas. Pouco depois, o ReShoot alcançou o primeiro lugar na categoria Gráficos e design da App Store nos EUA.

O objetivo do app é permitir que os usuários alterem a cena ou o estilo de uma foto sem perder a aparência natural e a identidade do assunto original. Para os desenvolvedores, oferecer esse nível de raciocínio multimodal complexo nos requisitos rigorosos de baixa latência de uma experiência móvel apresenta um desafio arquitetônico significativo. Para resolver isso, o HubX usou a API Gemini para criar um pipeline sofisticado de edição de fotos que equilibra a compreensão contextual de alta fidelidade com uma velocidade de inferência excepcional.

HubX

Edição de alta fidelidade com o Nano Banana

Para criar o mecanismo de inferência por trás do ReShoot, a HubX trabalhou com a equipe do Google para integrar o Gemini 2.5 Flash Image, também conhecido como Nano Banana.

Um desafio técnico principal na geração de imagem para imagem é manter a identidade do assunto ao interpretar solicitações de cenas complexas. Ao contrário dos pipelines tradicionais, que geralmente exigem o encadeamento de modelos separados para inferência de texto e síntese de imagens, o Gemini 2.5 Flash Image é multimodal por natureza. Ele processa comandos de texto e entradas de imagem em uma única etapa unificada.

Essa arquitetura permite que o ReShoot faça edições conversacionais (imagem + texto para imagem) com alta aderência aos comandos do usuário, preservando a identidade e o contexto principais das fotos enviadas. Em comparação com as alternativas testadas, a HubX descobriu que o modelo Gemini oferecia compreensão visual e consistência multimodal superiores.

Redução de 40% na latência do app

Embora a geração de alta fidelidade seja necessária, os usuários de dispositivos móveis esperam resultados quase instantâneos. Qualquer dificuldade no processo criativo pode levar à perda de engajamento.

Ao padronizar o Gemini 2.5 Flash Image, o HubX reduziu o tempo médio de resposta para atualizar e manipular imagens em quase 40%. Essa redução crítica na latência transforma a experiência do usuário de um estado de espera passiva em um processo criativo fluido, o que é essencial para a retenção em apps móveis para consumidores.

Simplificação dos fluxos de trabalho de desenvolvimento

Além dos ganhos de desempenho imediatos, a integração da API Gemini simplificou significativamente a arquitetura de desenvolvimento do HubX. A equipe usa o Google AI Studio para criar protótipos e testar cadeias de comandos antes de implantá-las na produção usando pacotes Node.js personalizados conectados ao back-end móvel.

Antes de usar os modelos do Gemini, as tarefas que envolviam a interpretação de dados multimodais geralmente exigiam uma lógica personalizada complexa ou o encadeamento de modelos diferentes. Ao adotar o Gemini 2.5 Flash Image, o HubX consolidou essas tarefas em uma única estrutura de modelagem coerente, reduzindo a complexidade arquitetônica e melhorando a velocidade de inferência.

Próximas etapas

Após a integração bem-sucedida da API Gemini, o HubX observou um aumento no engajamento dos usuários, indicado por taxas mais altas de salvamento e de marcação como "Gostei" no conteúdo gerado. No futuro, eles planejam transformar o ReShoot de uma ferramenta de uso único em uma plataforma abrangente para edição de fotos nativa e integrada.

A implementação do HubX demonstra como os desenvolvedores podem aproveitar a velocidade e os recursos multimodais nativos da API Gemini para criar aplicativos intuitivos e de alta performance que atendam às demandas dos usuários de dispositivos móveis.

Para começar a criar com os modelos do Gemini, leia nossa documentação de geração de imagens.