Toongether zachowuje spójność stylu artystycznego dzięki Gemini 2.5 Flash Image

Samir Nasser Eddine

Współzałożyciel toongether

Guillaume Vernade

Starszy przedstawiciel ds. kontaktu z deweloperami w DeepMind

Rozwój generatywnej AI otworzył nowe możliwości wyrażania kreatywności, umożliwiając deweloperom tworzenie narzędzi, które zamieniają zwykłych użytkowników w artystów. W przypadku sztuki sekwencyjnej, takiej jak komiksy, wyzwaniem nie jest tylko wygenerowanie jednego dobrego obrazu, ale stworzenie spójnych postaci, stylów i narracji na dziesiątkach paneli.

Firma Toongether, która stworzyła aplikację do czytania komiksów internetowych, stawia czoła temu wyzwaniu. Ich misją jest demokratyzacja wizualnego opowiadania historii poprzez udostępnienie platformy, na której zwykli użytkownicy mogą nie tylko czytać, ale też tworzyć i udostępniać własne komiksy bezpośrednio na urządzeniach mobilnych. Dzięki zintegrowaniu modelu Gemini 2.5 Flash Image z procesem tworzenia pomagają użytkownikom pokonać techniczne trudności związane z rysowaniem, umożliwiając nowej społeczności opowiadaczy wspólne tworzenie.

Osiąganie spójności na dużą skalę

Tworzenie komiksu wymaga rygorystycznej spójności. Postacie muszą być rozpoznawalne w różnych pozach, strojach i wyrazach twarzy, a jednocześnie zachowywać jednolity styl artystyczny.

Początkowo zespół toongether korzystał ze złożonego stosu obejmującego dostrojony model Stable Diffusion XL wzbogacony o narzędzia takie jak ControlNet i IPAdapter. Chociaż przynosiło to wyniki jakościowe, miało problemy z opóźnieniami i elastycznością, co stanowiło poważne wąskie gardło dla twórców aplikacji mobilnych. Wygenerowanie jednego obrazu zajmowało od 20 do 30 sekund, co jest zbyt długo, aby zapewnić użytkownikom płynne działanie. Dodanie obsługi nowych póz lub stylów rysowania wymagało znacznego nakładu pracy inżynierskiej, co ograniczało możliwość szybkiego wprowadzania zmian.

Orkiestrowanie złożonych potoków za pomocą Gemini

Aby pokonać te ograniczenia, firma toongether przeniosła swój podstawowy proces generowania obrazów do interfejsu Gemini API. Wybrali model Gemini 2.5 Flash Image, zwany też pieszczotliwie „Nano Banana” ze względu na jego szybkość i zwinność. Oferował on doskonałe możliwości edycji i wykonywania instrukcji, które były potrzebne do obsługi złożonych zadań generowania wieloetapowego.

Przejście to znacznie przyspieszyło tempo rozwoju. Zespół w ciągu zaledwie 2 tygodni przeszedł od prototypu do pełnej implementacji produkcyjnej.

Aby zachować spójność postaci, a jednocześnie umożliwić użytkownikom dostosowywanie ich wyglądu, firma toongether wykorzystała Gemini 2.5 Flash Image do stworzenia zaawansowanego, wieloetapowego procesu:

Analiza stylu i generowanie odniesień: gdy użytkownik tworzy nową postać, aplikacja udostępnia modelowi wyselekcjonowaną listę postaci referencyjnych, aby przeanalizować pożądany styl. Na podstawie prostego opisu tekstowego model generuje obraz referencyjny „pozy neutralnej” dla tej nowej, oryginalnej postaci.
Pakiety zasobów i generowanie póz: aby umieścić postać w historii, toongether używa „pakietów zasobów”, czyli pogrupowanych list opisów pożądanych póz i przypadków użycia. Używając promptu z instrukcjami wraz z neutralnym obrazem referencyjnym, mogą instruować Gemini 2.5 Flash Image, aby generować konkretne scenariusze bez utraty wizualnej tożsamości postaci.
Kompozycja sceny: w przypadku tła i innych elementów zespół udostępnia obrazy referencyjne, aby określić odpowiedni styl graficzny i zapewnić spójność paneli.

„Dzięki zaawansowanym funkcjom edycji i instrukcjom modelu Gemini 2.5 Flash Image udało nam się zrealizować wszystkie nasze przypadki użycia” – wyjaśnia Samir Nasser Eddine, współzałożyciel toongether. „Jest to teraz niezbędny element naszych procesów generowania obrazów”.

Co dalej z toongether

Po wprowadzeniu podstawowych elementów zespół toongether planuje dodać zaawansowane funkcje narracyjne, które wcześniej były uważane za zbyt zasobochłonne. Planują wykorzystać modele Gemini do obsługi złożonych interakcji między wieloma postaciami w jednym panelu i wprowadzenia większej różnorodności stylów rysowania.

Historia toongether pokazuje, jak interfejs Gemini API pomaga kolejnej grupie twórców wyjść poza zarządzanie złożonymi stosami modeli i tworzyć zaawansowane, spójne narzędzia kreatywne, które można skalować do potrzeb zwykłych użytkowników.

Aby zacząć tworzyć własne kreatywne aplikacje z modelami Gemini, zapoznaj się z naszą dokumentacją interfejsu API.

Toongether zachowuje spójność stylu artystycznego dzięki Gemini 2.5 Flash Image

Osiąganie spójności na dużą skalę

Orkiestrowanie złożonych potoków za pomocą Gemini

Co dalej z toongether

Powiązane studia przypadków