2025 年 11 月 7 日
HubX 集成了 Gemini 2.5 Flash Image,可在 ReShoot 应用中实现低延迟、情境化的照片编辑
HubX 是一家全球性技术中心,通过其移动应用组合为超过 3 亿用户提供服务。在开发最新应用 ReShoot 时,他们旨在利用生成式 AI 实现专业级照片编辑的普及。通过利用 Gemini API,该团队实现了出色的开发速度,仅用了两周时间就完成了从 MVP 开发开始到 iOS 正式版发布的全过程。不久之后,ReShoot 在美国 App Store 的“图形与设计”类别中排名第一。
该应用旨在让用户在不影响原拍摄对象自然外观和身份的情况下,更改照片的场景或风格。对于开发者而言,要在移动体验的严格低延迟要求下实现这种复杂的多模态推理,是一项重大的架构挑战。为了解决这个问题,HubX 利用 Gemini API 构建了一个先进的照片编辑流水线,该流水线在提供高保真上下文理解的同时,还具有出色的推理速度。
使用 Nano Banana 进行高保真编辑
为了构建 ReShoot 背后的推理引擎,HubX 与 Google 团队合作,集成了 Gemini 2.5 Flash Image(也称为 Nano Banana)。
在图像到图像生成中,一个主要的技术挑战是在解读复杂的场景请求时保持正文身份。与通常需要链接单独的模型以进行文本推理和图像合成的传统流水线不同,Gemini 2.5 Flash Image 是原生多模态模型。它在一个统一的步骤中处理文本提示和图片输入。
此架构可让 ReShoot 在高度遵循用户提示的同时,保留上传照片的核心特征和背景信息,从而执行对话式编辑(图片 + 文本转图片)。与测试过的替代方案相比,HubX 发现 Gemini 模型在视觉理解和多模态一致性方面表现出色。
将应用延迟时间缩短了 40%
虽然高保真生成是必需的,但移动用户希望获得近乎即时的结果。广告素材制作过程中的任何阻碍都可能导致互动度下降。
通过将 Gemini 2.5 Flash Image 作为标准模型,HubX 将更新和处理图片的平均响应时间缩短了近 40%。这种延迟时间的显著缩短将用户体验从被动等待状态转变为流畅的创作过程,这对于提高消费者移动应用的用户留存率至关重要。
简化开发工作流程
除了即时性能提升之外,集成 Gemini API 还显著简化了 HubX 开发架构。该团队利用 Google AI Studio 设计提示链原型并对其进行测试,然后通过连接到其移动后端的自定义 Node.js 软件包将提示链部署到生产环境中。
在使用 Gemini 模型之前,涉及多模态数据解读的任务通常需要复杂的自定义逻辑或将不同的模型串联起来。通过采用 Gemini 2.5 Flash Image,HubX 将这些任务整合到一个连贯的建模框架中,从而降低了架构复杂性,同时提高了推理速度。
后续步骤
成功集成 Gemini API 后,HubX 发现用户互动度有所提高,这体现在生成内容的保存率和喜爱率更高。展望未来,他们计划将 ReShoot 从单一用途的工具发展成为一个用于原生无缝照片编辑的综合性平台。
HubX 的实现演示了开发者如何利用 Gemini API 的速度和原生多模态功能来构建直观的高性能应用,以满足移动用户的需求。
如需开始使用 Gemini 模型进行构建,请参阅我们的图片生成文档。