分享

2025 年 11 月 7 日

HubX 整合 Gemini 2.5 Flash Image,在 ReShoot 應用程式中提供低延遲的脈絡式相片編輯功能

Sertac Çınar

HubX 資深產品經理

Vishal Dharmadhikari

產品解決方案工程師

Pascal AI 展示主頁橫幅

HubX 是全球技術中心,旗下行動應用程式組合服務超過 3 億名使用者。在開發最新應用程式 ReShoot 時,他們希望透過生成式 AI,讓一般使用者也能享有專業級的相片編輯體驗。該團隊善用 Gemini API,開發速度驚人,從 MVP 開發開始到 iOS 版上線,只花了兩週。不久後,ReShoot 在 App Store 的美國「圖像與設計」類別中名列第一。

這款應用程式可讓使用者變更相片場景或風格,同時保留原始主體的自然外觀和特徵。對開發人員而言,要在行動體驗嚴格的低延遲需求下,提供這種複雜的多模態推理能力,是一項重大的架構挑戰。為解決這個問題,HubX 運用 Gemini API 建構精密的相片編輯管道,兼顧高保真脈絡理解能力和出色的推論速度。

HubX

使用 Nano Banana 進行高保真編輯

為建構 ReShoot 背後的推理引擎,HubX 團隊與 Google 團隊合作整合了 Gemini 2.5 Flash Image,也就是 Nano Banana

在圖片生成圖片的過程中,主要技術挑戰是解讀複雜的場景要求,同時維持主體身分。傳統管道通常需要串連不同的模型,才能進行文字推理和圖像合成,但 Gemini 2.5 Flash Image 原生支援多模態資料。系統會以單一整合步驟處理文字提示和圖片輸入內容。

這項架構可讓 ReShoot 執行對話式編輯 (圖片 + 文字轉圖片),並在保留上傳相片的核心特徵和背景資訊時,高度遵守使用者提示。與測試的替代方案相比,HubX 發現 Gemini 模型在視覺理解和多模態一致性方面表現更出色。

將應用程式延遲時間縮短 40%

雖然高保真度生成是必要條件,但行動使用者希望結果近乎即時。創意流程中的任何阻礙都可能導致參與度下降。

HubX 採用 Gemini 2.5 Flash Image 後,更新和處理圖片的平均回覆時間減少近 40%。延遲時間大幅縮短後,使用者體驗從被動等待狀態轉變為流暢的創作過程,這對消費者行動應用程式的留存率至關重要。

簡化開發工作流程

除了立即提升效能,整合 Gemini API 也大幅簡化了 HubX 的開發架構。該團隊使用 Google AI Studio 設計提示鏈的原型並進行測試,然後透過連結至行動後端的自訂 Node.js 套件,將提示鏈部署至實際工作環境。

使用 Gemini 模型前,涉及多模態資料解讀的工作通常需要複雜的自訂邏輯,或將不同的模型串連起來。HubX 採用 Gemini 2.5 Flash Image 後,將這些工作整合到單一連貫的建模架構中,降低架構複雜度,同時提升推論速度。

後續步驟

成功整合 Gemini API 後,HubX 發現使用者參與度有所提升,這可從生成內容的儲存和按讚率提高看出。展望未來,他們計畫將 ReShoot 從單一用途的工具,發展為原生無縫相片編輯的全方位平台。

HubX 的實作方式示範了開發人員如何運用 Gemini API 的速度和原生多模態功能,建構直覺式的高效能應用程式,滿足行動裝置使用者的需求。

如要開始使用 Gemini 模型建構應用程式,請參閱圖像生成說明文件