Udostępnij

7 listopada 2025 r.

HubX integruje Gemini 2.5 Flash Image, aby umożliwić edycję zdjęć w aplikacji ReShoot z niskimi opóźnieniami i z uwzględnieniem kontekstu

Sertac Çınar

Starszy menedżer produktu HubX

Vishal Dharmadhikari

Inżynier ds. rozwiązań produktowych

Baner główny prezentacji Pascal AI

HubX to globalne centrum technologiczne, które obsługuje ponad 300 milionów użytkowników w ramach swojego portfolio aplikacji mobilnych. Podczas tworzenia najnowszej aplikacji ReShoot ich celem było udostępnienie profesjonalnej edycji zdjęć za pomocą generatywnej AI. Dzięki Gemini API zespół osiągnął niezwykłą szybkość rozwoju, wprowadzając projekt od początku tworzenia MVP do uruchomienia na iOS w zaledwie 2 tygodnie. Wkrótce potem aplikacja ReShoot zajęła 1. miejsce w kategorii Grafika i projektowanie w App Store w Stanach Zjednoczonych.

Aplikacja ma umożliwiać użytkownikom zmianę sceny lub stylu zdjęcia bez utraty naturalnego wyglądu i tożsamości oryginalnego obiektu. Dla deweloperów zapewnienie tak złożonego, multimodalnego rozumowania przy rygorystycznych wymaganiach dotyczących małych opóźnień w przypadku urządzeń mobilnych stanowi poważne wyzwanie architektoniczne. Aby rozwiązać ten problem, firma HubX wykorzystała interfejs Gemini API do stworzenia zaawansowanego potoku edycji zdjęć, który łączy wysoką wierność kontekstowego rozumienia z wyjątkową szybkością wnioskowania.

HubX

Edytowanie z wysoką wiernością za pomocą Nano Banana

Aby stworzyć silnik rozumowania ReShoot, HubX współpracował z zespołem Google nad integracją Gemini 2.5 Flash Image, znanego też jako Nano Banana.

Głównym wyzwaniem technicznym w generowaniu obrazów na podstawie innych obrazów jest zachowanie tożsamości obiektu przy jednoczesnym interpretowaniu złożonych żądań dotyczących sceny. W przeciwieństwie do tradycyjnych potoków, które często wymagają łączenia oddzielnych modeli do rozumowania tekstu i syntezy obrazów, Gemini 2.5 Flash Image jest natywnie multimodalny. Przetwarza prompty tekstowe i dane wejściowe w postaci obrazów w ramach jednego, ujednoliconego kroku.

Ta architektura umożliwia ReShoot przeprowadzanie edycji konwersacyjnej (obraz + zamiana tekstu na obraz) z dużą zgodnością z promptami użytkownika przy jednoczesnym zachowaniu podstawowej tożsamości i kontekstu przesłanych zdjęć. W porównaniu z testowanymi alternatywami HubX stwierdził, że model Gemini oferuje lepsze rozumienie wizualne i multimodalną spójność.

skrócenie czasu oczekiwania aplikacji o 40%,

Wymagane jest generowanie obrazów o wysokiej jakości, ale użytkownicy mobilni oczekują niemal natychmiastowych wyników. Wszelkie trudności w procesie tworzenia mogą prowadzić do utraty zaangażowania.

Dzięki ujednoliceniu Gemini 2.5 Flash Image firma HubX skróciła średni czas reakcji na aktualizację i manipulowanie obrazami o prawie 40%. To znaczące skrócenie czasu oczekiwania sprawia, że użytkownik nie musi już biernie czekać, ale może płynnie tworzyć treści. Jest to kluczowe dla utrzymania użytkowników w przypadku aplikacji mobilnych dla konsumentów.

Usprawnianie procesów programistycznych

Oprócz natychmiastowych korzyści w zakresie wydajności integracja interfejsu Gemini API znacznie uprościła architekturę programistyczną HubX. Zespół korzysta z Google AI Studio do tworzenia prototypów i testowania łańcuchów promptów przed wdrożeniem ich w środowisku produkcyjnym za pomocą niestandardowych pakietów Node.js połączonych z backendem mobilnym.

Przed wprowadzeniem modeli Gemini zadania związane z interpretacją danych multimodalnych często wymagały złożonej logiki niestandardowej lub łączenia różnych modeli. Dzięki wdrożeniu Gemini 2.5 Flash Image firma HubX połączyła te zadania w jedną, spójną strukturę modelowania, co zmniejszyło złożoność architektury i zwiększyło szybkość wnioskowania.

Co dalej?

Po udanej integracji interfejsu Gemini API firma HubX zaobserwowała wzrost zaangażowania użytkowników, na co wskazują wyższe wskaźniki zapisywania i polubień wygenerowanych treści. W przyszłości planują przekształcić ReShoot z narzędzia do jednego zastosowania w kompleksową platformę do natywnej, bezproblemowej edycji zdjęć.

Implementacja HubX pokazuje, jak deweloperzy mogą wykorzystać szybkość i natywne funkcje multimodalne interfejsu Gemini API do tworzenia intuicyjnych aplikacji o wysokiej wydajności, które spełniają wymagania użytkowników urządzeń mobilnych.

Aby zacząć korzystać z modeli Gemini, zapoznaj się z naszą dokumentacją generowania obrazów.