Udostępnij

7 listopada 2025 r.

HubX integruje Gemini 2.5 Flash Image, aby umożliwić edycję zdjęć w aplikacji ReShoot z niskimi opóźnieniami i z uwzględnieniem kontekstu

Sertac Çınar

Starszy menedżer produktu HubX

Vishal Dharmadhikari

Inżynier ds. rozwiązań produktowych

Baner główny prezentacji Pascal AI

HubX to globalne centrum technologiczne, które obsługuje ponad 300 milionów użytkowników w ramach swojego portfolio aplikacji mobilnych. Podczas tworzenia najnowszej aplikacji ReShoot ich celem było udostępnienie profesjonalnej edycji zdjęć za pomocą generatywnej AI. Dzięki Gemini API zespół osiągnął niezwykłą szybkość rozwoju. W ciągu zaledwie 2 tygodni przeszedł od rozpoczęcia tworzenia MVP do wprowadzenia aplikacji na iOS. Wkrótce potem aplikacja ReShoot zajęła 1. miejsce w kategorii Grafika i projektowanie w App Store w Stanach Zjednoczonych.

Aplikacja umożliwia użytkownikom zmianę sceny lub stylu zdjęcia bez utraty naturalnego wyglądu i tożsamości oryginalnego obiektu. Dla deweloperów zapewnienie tak złożonego, multimodalnego rozumowania przy rygorystycznych wymaganiach dotyczących małych opóźnień w przypadku urządzeń mobilnych stanowi poważne wyzwanie architektoniczne. Aby rozwiązać ten problem, HubX wykorzystał interfejs Gemini API do stworzenia zaawansowanego potoku edycji zdjęć, który łączy wysoką wierność kontekstowego rozumienia z wyjątkową szybkością wnioskowania.

HubX

Edytowanie z wysoką wiernością za pomocą Nano Banana

Aby stworzyć silnik rozumowania ReShoot, HubX współpracował z zespołem Google nad integracją Gemini 2.5 Flash Image, znanego też jako Nano Banana.

Głównym wyzwaniem technicznym w generowaniu obrazów na podstawie innych obrazów jest zachowanie tożsamości obiektu przy jednoczesnym interpretowaniu złożonych żądań dotyczących sceny. W przeciwieństwie do tradycyjnych potoków, które często wymagają łączenia oddzielnych modeli do rozumowania tekstu i syntezy obrazów, Gemini 2.5 Flash Image jest natywnie multimodalny. Przetwarza prompty tekstowe i dane wejściowe w postaci obrazów w ramach jednego, ujednoliconego kroku.

Ta architektura umożliwia ReShoot przeprowadzanie edycji konwersacyjnej (obraz + zamiana tekstu na obraz) z dużą zgodnością z promptami użytkownika przy jednoczesnym zachowaniu podstawowej tożsamości i kontekstu przesłanych zdjęć. W porównaniu z testowanymi alternatywami HubX stwierdził, że model Gemini oferuje lepsze rozumienie wizualne i multimodalną spójność.

skrócenie czasu oczekiwania aplikacji o 40%,

Wymagane jest generowanie obrazów o wysokiej jakości, ale użytkownicy mobilni oczekują niemal natychmiastowych wyników. Wszelkie trudności w procesie tworzenia mogą prowadzić do utraty zaangażowania.

Dzięki ujednoliceniu modelu Gemini 2.5 Flash Image firma HubX skróciła średni czas reakcji na aktualizację i manipulację obrazami o prawie 40%. To znaczące skrócenie czasu oczekiwania sprawia, że użytkownik nie musi już biernie czekać, ale może płynnie tworzyć treści. Jest to kluczowe dla utrzymania użytkowników w aplikacjach mobilnych dla konsumentów.

Usprawnianie procesów programowania

Oprócz natychmiastowych korzyści w zakresie wydajności integracja interfejsu Gemini API znacznie uprościła architekturę programistyczną HubX. Zespół korzysta z Google AI Studio do tworzenia prototypów i testowania łańcuchów promptów przed wdrożeniem ich w środowisku produkcyjnym za pomocą niestandardowych pakietów Node.js połączonych z backendem mobilnym.

Przed wprowadzeniem modeli Gemini zadania związane z interpretacją danych multimodalnych często wymagały złożonej logiki niestandardowej lub łączenia różnych modeli. Dzięki zastosowaniu Gemini 2.5 Flash Image firma HubX połączyła te zadania w jedną, spójną strukturę modelowania, co zmniejszyło złożoność architektury i zwiększyło szybkość wnioskowania.

Co dalej?

Po udanej integracji interfejsu Gemini API firma HubX zaobserwowała wzrost zaangażowania użytkowników, na co wskazują wyższe wskaźniki zapisywania i polubień wygenerowanych treści. W przyszłości planują przekształcić ReShoot z narzędzia do jednego zastosowania w kompleksową platformę do natywnej, bezproblemowej edycji zdjęć.

Implementacja HubX pokazuje, jak deweloperzy mogą wykorzystać szybkość i natywne funkcje multimodalne interfejsu Gemini API do tworzenia intuicyjnych aplikacji o wysokiej wydajności, które spełniają wymagania użytkowników mobilnych.

Aby zacząć tworzyć aplikacje z modelami Gemini, zapoznaj się z naszą dokumentacją generowania obrazów.