12 GRUDZIEŃ 2025
Toongether zachowuje spójność stylu artystycznego dzięki Gemini 2.5 Flash Image
Rozwój generatywnej AI otworzył nowe możliwości kreatywnego wyrażania siebie, umożliwiając deweloperom tworzenie narzędzi, które zamieniają zwykłych użytkowników w artystów. W przypadku sztuki sekwencyjnej, takiej jak komiksy, wyzwaniem nie jest tylko wygenerowanie jednego dobrego obrazu, ale stworzenie spójnych postaci, stylów i narracji na dziesiątkach paneli.
Firma Toongether, która stworzyła aplikację do komiksów internetowych, stawia czoła temu wyzwaniu. Ich misją jest demokratyzacja wizualnego opowiadania historii poprzez udostępnienie platformy, na której zwykli użytkownicy mogą nie tylko czytać, ale też tworzyć i udostępniać własne komiksy bezpośrednio na urządzeniach mobilnych. Dzięki zintegrowaniu modelu Gemini 2.5 Flash Image z procesem tworzenia pomagają użytkownikom pokonać techniczne trudności związane z rysowaniem, umożliwiając nowej społeczności opowiadaczy wspólne tworzenie.
Spójność na dużą skalę
Tworzenie komiksu wymaga rygorystycznej spójności. Postacie muszą być rozpoznawalne w różnych pozach, strojach i wyrazach twarzy, a jednocześnie zachowywać jednolity styl graficzny.
Początkowo zespół toongether korzystał ze złożonego stosu obejmującego dostrojony model Stable Diffusion XL wzbogacony o narzędzia takie jak ControlNet i IPAdapter. Chociaż przynosiło to dobre wyniki jakościowe, miało problemy z opóźnieniami i elastycznością, co stanowiło poważne wąskie gardło dla twórców aplikacji mobilnych. Wygenerowanie jednego obrazu zajmowało od 20 do 30 sekund, co jest zbyt długo, aby zapewnić użytkownikom płynne działanie. Dodanie obsługi nowych póz lub stylów rysowania wymagało znacznego nakładu pracy inżynierskiej, co ograniczało możliwość szybkiego wprowadzania zmian.
Orkiestracja złożonych potoków za pomocą Gemini
Aby pokonać te wąskie gardła, firma toongether przeniosła swój podstawowy potok generowania obrazów do interfejsu Gemini API. Wybrali Gemini 2.5 Flash Image, czyli „Nano Banana” – model znany z szybkości i zwinności, który oferował doskonałe możliwości edycji i wykonywania instrukcji potrzebne do obsługi złożonych zadań generowania wieloetapowego.
Przejście to znacznie przyspieszyło tempo rozwoju. Zespół w ciągu zaledwie 2 tygodni przeszedł od prototypu do pełnej implementacji produkcyjnej.
Aby zachować spójność postaci, a jednocześnie umożliwić użytkownikom dostosowywanie ich wyglądu, firma toongether wykorzystała Gemini 2.5 Flash Image do stworzenia zaawansowanego, wieloetapowego procesu:
- Analiza stylu i generowanie odniesień: gdy użytkownik tworzy nową postać, aplikacja udostępnia modelowi wyselekcjonowaną listę postaci referencyjnych, aby przeanalizować pożądany styl. Na podstawie prostego opisu tekstowego model generuje obraz referencyjny „pozy neutralnej” dla tej nowej, oryginalnej postaci.
- Pakiety zasobów i generowanie póz: aby umieścić postać w historii, toongether używa „pakietów zasobów”, czyli pogrupowanych list opisów pożądanych póz i przypadków użycia. Używając promptu z instrukcjami wraz z neutralnym obrazem referencyjnym, mogą instruować Gemini 2.5 Flash Image, aby generować konkretne scenariusze bez utraty wizualnej tożsamości postaci.
- Kompozycja sceny: w przypadku tła i innych elementów zespół udostępnia obrazy referencyjne, aby określić odpowiedni styl graficzny i zapewnić spójność paneli.
„Dzięki zaawansowanym funkcjom edycji i instrukcjom modelu Gemini 2.5 Flash Image mogliśmy obsługiwać wszystkie nasze przypadki użycia” – wyjaśnia Samir Nasser Eddine, współzałożyciel toongether. „Jest teraz niezbędnym elementem naszych procesów generowania obrazów”.
Co dalej z toongether
Po wprowadzeniu podstawowych elementów zespół toongether planuje dodać zaawansowane funkcje narracyjne, które wcześniej były uważane za zbyt zasobochłonne. Planują wykorzystać modele Gemini do obsługi złożonych interakcji między wieloma postaciami w jednym panelu i wprowadzenia większej różnorodności stylów rysowania.
Historia toongether pokazuje, jak interfejs Gemini API pomaga kolejnej grupie twórców wyjść poza zarządzanie złożonymi stosami modeli i tworzyć zaawansowane, spójne narzędzia kreatywne, które można skalować do potrzeb zwykłych użytkowników.
Aby zacząć tworzyć własne kreatywne aplikacje z modelami Gemini, zapoznaj się z naszą dokumentacją interfejsu API.