Compartilhar

7 de novembro de 2025

O HubX integra o Gemini 2.5 Flash Image para edição de fotos contextual e de baixa latência no app ReShoot

Sertaç Çınar

Gerente sênior de produtos, HubX

Vishal Dharmadhikari

Engenheiro de soluções de produtos

Imagem principal da vitrine da IA Pascal

A HubX é um hub de tecnologia global que atende a mais de 300 milhões de usuários em seu portfólio de aplicativos móveis. Ao desenvolver o app mais recente, o ReShoot, o objetivo era democratizar a edição de fotos de nível profissional usando a IA generativa. Ao usar a API Gemini, a equipe alcançou uma velocidade de desenvolvimento notável, levando o projeto do início do desenvolvimento do MVP ao lançamento no iOS em apenas duas semanas. Pouco depois, o ReShoot alcançou o primeiro lugar na categoria Gráficos e design da App Store nos EUA.

O objetivo do app é permitir que os usuários alterem a cena ou o estilo de uma foto sem perder a aparência natural e a identidade do assunto original. Para os desenvolvedores, oferecer esse nível de raciocínio complexo e multimodal nos requisitos rigorosos de baixa latência de uma experiência móvel representa um desafio arquitetônico significativo. Para resolver isso, o HubX usou a API Gemini para criar um pipeline sofisticado de edição de fotos que equilibra a compreensão contextual de alta fidelidade com uma velocidade de inferência excepcional.

HubX

Edição de alta fidelidade com o Nano Banana

Para criar o mecanismo de raciocínio por trás do ReShoot, a HubX trabalhou com a equipe do Google para integrar o Gemini 2.5 Flash Image, também conhecido como Nano Banana.

Um desafio técnico principal na geração de imagem para imagem é manter a identidade do assunto ao interpretar solicitações de cenas complexas. Ao contrário dos pipelines tradicionais, que geralmente exigem o encadeamento de modelos separados para raciocínio de texto e síntese de imagens, o Gemini 2.5 Flash Image é nativamente multimodal. Ele processa comandos de texto e entradas de imagem em uma única etapa unificada.

Essa arquitetura permite que o ReShoot faça edições conversacionais (imagem + texto para imagem) com alta aderência aos comandos do usuário, preservando a identidade e o contexto principais das fotos enviadas. Em comparação com as alternativas testadas, a HubX descobriu que o modelo Gemini oferecia compreensão visual e consistência multimodal superiores.

Redução de 40% na latência do app

Embora a geração de alta fidelidade seja necessária, os usuários de dispositivos móveis esperam resultados quase instantâneos. Qualquer dificuldade no processo criativo pode levar à perda de engajamento.

Ao padronizar o Gemini 2.5 Flash Image, o HubX reduziu o tempo médio de resposta para atualizar e manipular imagens em quase 40%. Essa redução crítica na latência transforma a experiência do usuário de um estado de espera passiva em um processo criativo fluido, essencial para a retenção em apps móveis para consumidores.

Simplificação dos fluxos de trabalho de desenvolvimento

Além dos ganhos de desempenho imediatos, a integração da API Gemini simplificou significativamente a arquitetura de desenvolvimento do HubX. A equipe usa o Google AI Studio para criar protótipos e testar cadeias de comandos antes de implantá-las na produção usando pacotes Node.js personalizados conectados ao back-end móvel.

Antes de usar os modelos do Gemini, as tarefas que envolviam a interpretação de dados multimodais geralmente exigiam uma lógica personalizada complexa ou o encadeamento de modelos diferentes. Ao adotar o Gemini 2.5 Flash Image, o HubX consolidou essas tarefas em uma única estrutura de modelagem coerente, reduzindo a complexidade arquitetônica e melhorando a velocidade de inferência.

Próximas etapas

Após a integração bem-sucedida da API Gemini, o HubX observou um aumento no engajamento dos usuários, indicado por taxas mais altas de salvamento e de marcação como "Gostei" no conteúdo gerado. No futuro, eles planejam transformar o ReShoot de uma ferramenta de uso único em uma plataforma abrangente para edição de fotos nativa e integrada.

A implementação do HubX demonstra como os desenvolvedores podem aproveitar a velocidade e os recursos multimodais nativos da API Gemini para criar aplicativos intuitivos e de alta performance que atendam às demandas dos usuários de dispositivos móveis.

Para começar a criar com os modelos do Gemini, leia nossa documentação de geração de imagens.