7 de noviembre de 2025
HubX integra Gemini 2.5 Flash Image para la edición contextual de fotos con baja latencia en la app de ReShoot
HubX es un centro tecnológico global que presta servicios a más de 300 millones de usuarios a través de su cartera de aplicaciones para dispositivos móviles. Cuando desarrollaron su app más reciente, ReShoot, su objetivo era democratizar la edición de fotos de nivel profesional con IA generativa. Gracias a la API de Gemini, el equipo logró una velocidad de desarrollo notable, ya que el proyecto pasó del inicio del desarrollo del MVP al lanzamiento en iOS en solo dos semanas. Poco después, ReShoot alcanzó el puesto núm. 1 en la categoría de gráficos y diseño de EE.UU. en App Store.
El objetivo de la app es permitir que los usuarios modifiquen la escena o el estilo de una foto sin perder el aspecto natural y la identidad del sujeto original. Para los desarrolladores, ofrecer este nivel de razonamiento complejo y multimodal dentro de los estrictos requisitos de baja latencia de una experiencia móvil representa un desafío arquitectónico significativo. Para abordar este problema, HubX utilizó la API de Gemini para compilar una canalización sofisticada de edición de fotos que equilibra la comprensión contextual de alta fidelidad con una velocidad de inferencia excepcional.
Edición de alta fidelidad con Nano Banana
Para construir el motor de razonamiento detrás de ReShoot, HubX trabajó con el equipo de Google para integrar Gemini 2.5 Flash Image, también conocido como Nano Banana.
Un desafío técnico principal en la generación de imágenes a partir de otras imágenes es mantener la identidad del sujeto mientras se interpretan solicitudes de escenas complejas. A diferencia de las canalizaciones tradicionales que a menudo requieren encadenar modelos separados para el razonamiento de texto y la síntesis de imágenes, Gemini 2.5 Flash Image es multimodal de forma nativa. Procesa instrucciones de texto y entradas de imágenes en un solo paso unificado.
Esta arquitectura permite que ReShoot realice ediciones conversacionales (imagen + texto a imagen) con un alto nivel de cumplimiento de las instrucciones del usuario, a la vez que conserva la identidad y el contexto principales de las fotos subidas. En comparación con las alternativas probadas, HubX descubrió que el modelo de Gemini ofrecía una comprensión visual y una coherencia multimodal superiores.
Reducción de la latencia de la app en un 40%
Si bien la generación de alta fidelidad es obligatoria, los usuarios de dispositivos móviles esperan resultados casi instantáneos. Cualquier fricción en el proceso creativo puede provocar una pérdida de participación.
Al estandarizar Gemini 2.5 Flash Image, HubX redujo el tiempo de respuesta promedio para actualizar y manipular imágenes en casi un 40%. Esta reducción crítica en la latencia transforma la experiencia del usuario de un estado de espera pasivo a un proceso creativo fluido, lo que es esencial para la retención en las apps para dispositivos móviles de los consumidores.
Optimización de los flujos de trabajo de desarrollo
Más allá de las ganancias de rendimiento inmediatas, la integración de la API de Gemini simplificó significativamente la arquitectura de desarrollo de HubX. El equipo utiliza Google AI Studio para crear prototipos y probar cadenas de instrucciones antes de implementarlas en producción a través de paquetes personalizados de Node.js conectados a su backend para dispositivos móviles.
Antes de usar los modelos de Gemini, las tareas que implicaban la interpretación de datos multimodales a menudo requerían una lógica personalizada compleja o la encadenación de modelos dispares. Con la adopción de Gemini 2.5 Flash Image, HubX consolidó estas tareas en un único marco de modelado coherente, lo que redujo la complejidad de la arquitectura y mejoró la velocidad de inferencia.
Próximos pasos
Tras la integración exitosa de la API de Gemini, HubX observó un aumento en la participación de los usuarios, como lo indican las mayores tasas de guardado y Me gusta en el contenido generado. En el futuro, planean convertir ReShoot en una plataforma integral para la edición de fotos nativa y sin problemas, en lugar de una herramienta de un solo propósito.
La implementación de HubX demuestra cómo los desarrolladores pueden aprovechar la velocidad y las capacidades multimodales nativas de la API de Gemini para crear aplicaciones intuitivas y de alto rendimiento que satisfagan las demandas de los usuarios de dispositivos móviles.
Para comenzar a crear con los modelos de Gemini, lee nuestra documentación sobre la generación de imágenes.