7 listopada 2025 r.
HubX integruje Gemini 2.5 Flash Image, aby umożliwić edycję zdjęć w aplikacji ReShoot z niskimi opóźnieniami i z uwzględnieniem kontekstu
HubX to globalne centrum technologiczne, które obsługuje ponad 300 milionów użytkowników w ramach swojego portfolio aplikacji mobilnych. Podczas tworzenia najnowszej aplikacji ReShoot ich celem było udostępnienie profesjonalnej edycji zdjęć za pomocą generatywnej AI. Dzięki Gemini API zespół osiągnął niezwykłą szybkość rozwoju. W ciągu zaledwie 2 tygodni przeszedł od rozpoczęcia tworzenia MVP do wprowadzenia aplikacji na iOS. Wkrótce potem aplikacja ReShoot zajęła 1. miejsce w kategorii Grafika i projektowanie w App Store w Stanach Zjednoczonych.
Aplikacja umożliwia użytkownikom zmianę sceny lub stylu zdjęcia bez utraty naturalnego wyglądu i tożsamości oryginalnego obiektu. Dla deweloperów zapewnienie tak złożonego, multimodalnego rozumowania przy rygorystycznych wymaganiach dotyczących małych opóźnień w przypadku urządzeń mobilnych stanowi poważne wyzwanie architektoniczne. Aby rozwiązać ten problem, HubX wykorzystał interfejs Gemini API do stworzenia zaawansowanego potoku edycji zdjęć, który łączy wysoką wierność kontekstowego rozumienia z wyjątkową szybkością wnioskowania.
Edytowanie z wysoką wiernością za pomocą Nano Banana
Aby stworzyć silnik rozumowania ReShoot, HubX współpracował z zespołem Google nad integracją Gemini 2.5 Flash Image, znanego też jako Nano Banana.
Głównym wyzwaniem technicznym w generowaniu obrazów na podstawie innych obrazów jest zachowanie tożsamości obiektu przy jednoczesnym interpretowaniu złożonych żądań dotyczących sceny. W przeciwieństwie do tradycyjnych potoków, które często wymagają łączenia oddzielnych modeli do rozumowania tekstu i syntezy obrazów, Gemini 2.5 Flash Image jest natywnie multimodalny. Przetwarza prompty tekstowe i dane wejściowe w postaci obrazów w ramach jednego, ujednoliconego kroku.
Ta architektura umożliwia ReShoot przeprowadzanie edycji konwersacyjnej (obraz + zamiana tekstu na obraz) z dużą zgodnością z promptami użytkownika przy jednoczesnym zachowaniu podstawowej tożsamości i kontekstu przesłanych zdjęć. W porównaniu z testowanymi alternatywami HubX stwierdził, że model Gemini oferuje lepsze rozumienie wizualne i multimodalną spójność.
skrócenie czasu oczekiwania aplikacji o 40%,
Wymagane jest generowanie obrazów o wysokiej jakości, ale użytkownicy mobilni oczekują niemal natychmiastowych wyników. Wszelkie trudności w procesie tworzenia mogą prowadzić do utraty zaangażowania.
Dzięki ujednoliceniu modelu Gemini 2.5 Flash Image firma HubX skróciła średni czas reakcji na aktualizację i manipulację obrazami o prawie 40%. To znaczące skrócenie czasu oczekiwania sprawia, że użytkownik nie musi już biernie czekać, ale może płynnie tworzyć treści. Jest to kluczowe dla utrzymania użytkowników w aplikacjach mobilnych dla konsumentów.
Usprawnianie procesów programowania
Oprócz natychmiastowych korzyści w zakresie wydajności integracja interfejsu Gemini API znacznie uprościła architekturę programistyczną HubX. Zespół korzysta z Google AI Studio do tworzenia prototypów i testowania łańcuchów promptów przed wdrożeniem ich w środowisku produkcyjnym za pomocą niestandardowych pakietów Node.js połączonych z backendem mobilnym.
Przed wprowadzeniem modeli Gemini zadania związane z interpretacją danych multimodalnych często wymagały złożonej logiki niestandardowej lub łączenia różnych modeli. Dzięki zastosowaniu Gemini 2.5 Flash Image firma HubX połączyła te zadania w jedną, spójną strukturę modelowania, co zmniejszyło złożoność architektury i zwiększyło szybkość wnioskowania.
Co dalej?
Po udanej integracji interfejsu Gemini API firma HubX zaobserwowała wzrost zaangażowania użytkowników, na co wskazują wyższe wskaźniki zapisywania i polubień wygenerowanych treści. W przyszłości planują przekształcić ReShoot z narzędzia do jednego zastosowania w kompleksową platformę do natywnej, bezproblemowej edycji zdjęć.
Implementacja HubX pokazuje, jak deweloperzy mogą wykorzystać szybkość i natywne funkcje multimodalne interfejsu Gemini API do tworzenia intuicyjnych aplikacji o wysokiej wydajności, które spełniają wymagania użytkowników mobilnych.
Aby zacząć tworzyć aplikacje z modelami Gemini, zapoznaj się z naszą dokumentacją generowania obrazów.