共有

2025 年 11 月 7 日

HubX は、ReShoot アプリで低レイテンシのコンテキストに応じた写真編集を実現するために Gemini 2.5 Flash Image を統合しています

Sertac Çınar

HubX シニア プロダクト マネージャー

Vishal Dharmadhikari

プロダクト ソリューション エンジニア

Pascal AI のショーケースのヒーロー

HubX は、モバイル アプリケーションのポートフォリオ全体で 3 億人を超えるユーザーにサービスを提供するグローバル テクノロジー ハブです。最新のアプリである ReShoot の開発にあたっては、生成 AI を使用してプロレベルの写真編集を民主化することを目指しました。Gemini API を活用することで、チームは驚くべき開発速度を実現し、MVP 開発の開始から iOS 版のリリースまでわずか 2 週間でプロジェクトを完了しました。その後まもなく、ReShoot は App Store の米国グラフィック&デザイン カテゴリで 1 位を獲得しました。

アプリの目的は、元の被写体の自然な外観やアイデンティティを損なうことなく、写真のシーンやスタイルを変更できるようにすることです。デベロッパーにとって、モバイル エクスペリエンスの厳しい低レイテンシ要件内でこのレベルの複雑なマルチモーダル推論を実現することは、大きなアーキテクチャ上の課題となります。この問題を解決するため、HubX は Gemini API を活用して、高忠実度のコンテキスト理解と優れた推論速度のバランスが取れた高度な写真編集パイプラインを構築しました。

HubX

Nano Banana による高忠実度の編集

ReShoot の背後にある推論エンジンを構築するために、HubX は Google チームと協力して Gemini 2.5 Flash Image(別名 Nano Banana)を統合しました。

画像から画像を生成する際の主な技術的な課題は、複雑なシーン リクエストを解釈しながら被写体の同一性を維持することです。テキスト推論と画像合成に別々のモデルをチェーン接続する必要がある従来のパイプラインとは異なり、Gemini 2.5 Flash Image はネイティブにマルチモーダルです。テキスト プロンプトと画像入力を 1 つの統合ステップで処理します。

このアーキテクチャにより、ReShoot は、アップロードされた写真のコア アイデンティティとコンテキストを維持しながら、ユーザーのプロンプトに高い精度で沿って会話型編集(画像 + テキストから画像)を実行できます。HubX は、テストした代替モデルと比較して、Gemini モデルが優れた視覚的理解とマルチモーダルの一貫性を提供することを発見しました。

アプリのレイテンシを 40% 削減

高忠実度の生成は必須ですが、モバイル ユーザーはほぼ瞬時の結果を期待しています。クリエイティブ プロセスで摩擦が生じると、エンゲージメントが低下する可能性があります。

Gemini 2.5 Flash Image を標準化することで、HubX は画像の更新と操作の平均レスポンス時間を約 40% 短縮しました。レイテンシが大幅に短縮されることで、ユーザー エクスペリエンスは受動的な待機状態から流動的なクリエイティブ プロセスへと変化します。これは、コンシューマー モバイルアプリのユーザー維持に不可欠です。

開発ワークフローの効率化

Gemini API を統合することで、パフォーマンスが向上しただけでなく、HubX の開発アーキテクチャも大幅に簡素化されました。チームは Google AI Studio を使用して、プロンプト チェーンのプロトタイプを作成してテストしてから、モバイル バックエンドに接続されたカスタム Node.js パッケージを介して本番環境にデプロイします。

Gemini モデルを使用する前は、マルチモーダル データの解釈を伴うタスクでは、複雑なカスタム ロジックや、異なるモデルの連結が必要になることがよくありました。Gemini 2.5 Flash Image を採用することで、HubX はこれらのタスクを単一のコヒーレントなモデリング フレームワークに統合し、アーキテクチャの複雑さを軽減しながら推論速度を向上させました。

次のステップ

Gemini API の統合に成功した結果、HubX では、生成されたコンテンツの保存率と高評価率が上昇し、ユーザー エンゲージメントの向上を確認しました。今後、ReShoot を単一目的のツールから、ネイティブでシームレスな写真編集のための包括的なプラットフォームへと進化させる予定です。

HubX の実装は、デベロッパーが Gemini API の速度とネイティブのマルチモーダル機能を活用して、モバイル ユーザーのニーズを満たす直感的で高性能なアプリケーションを構築する方法を示しています。

Gemini モデルでの構築を開始するには、画像生成に関するドキュメントをご覧ください。