3 LISTOPADA 2025 R.
Nie tylko prompty tekstowe: jak Cartwheel stworzył generowanie 3D z zachowaniem pozycji dzięki Gemini Flash 2.5
Modele generatywne otworzyły przed artystami i projektantami nowe możliwości. Dla profesjonalnych twórców przełożenie konkretnej wizji twórczej na wygenerowany obraz pozostaje jednak dużym wyzwaniem. W przypadku promptów tekstowych często mamy wrażenie, że korzystamy z „automatu do gier”, co utrudnia precyzyjne sterowanie pozą postaci, kątem kamery i kompozycją.
Cartwheel, platforma do tworzenia gier i multimediów 3D z wykorzystaniem AI, rozwiązuje ten problem, budując innowacyjne rozwiązanie na bazie zaawansowanych modeli Google, w tym przypadku Gemini 2.5 Flash Image Nano Banana. Funkcja „Pose Mode” w Cartwheel Studio wykracza poza proste generowanie obrazów na podstawie tekstu, ponieważ zawiera natywne elementy sterujące 3D, które zapewniają twórcom bezpośrednią, iteracyjną kontrolę nad wynikami.
Wyzwanie: wypełnienie luki między intencją a wynikiem
W profesjonalnych procesach twórczych precyzja jest niezbędna. Artysta, reklamodawca lub projektant gier często musi stworzyć postać w określonej pozie lub pod określonym kątem, aby dopasować ją do scenopisu lub briefu kampanii.
„Ogólnie rzecz biorąc, generatory obrazów są trudne do kontrolowania” – powiedział Jonathan Jarvis, współzałożyciel Cartwheel. „Trudno zrealizować wizję, którą się ma. Zawsze chcieliśmy umożliwić bezpośrednie manipulowanie postacią”.
Wymóg bezpośredniej manipulacji doprowadził zespół Cartwheel do opracowania multimodalnego potoku, który integruje pozowanie 3D, promptowanie tekstowe i wiele modeli AI, aby działały w harmonii.
Rozwiązanie: wielomodelowy potok do generowania obrazów z zachowaniem pozy
Zamiast polegać wyłącznie na tekście, tryb pozy w Cartwheel prezentuje użytkownikowi manekina 3D. Użytkownik może bezpośrednio klikać i przeciągać kończyny manekina, aby stworzyć określoną pozę, a także dostosowywać wirtualną kamerę pod dowolnym kątem. Scena 3D staje się wtedy głównym elementem wejściowym w procesie generatywnym.
Proces techniczny wygląda następująco:
- Etykietowanie póz za pomocą Gemini 2.5 Flash Najpierw zrzut ekranu z ustawionym manekinem 3D jest wysyłany do Gemini 2.5 Flash. W tym kroku Cartwheel używa 2.5 Flash, ponieważ jego szybkość jest idealna do spełnienia wymagań dotyczących małych opóźnień w narzędziu do tworzenia kreacji w czasie rzeczywistym. Zadaniem modelu jest zwrócenie prostej etykiety tekstowej opisującej pozę, np. „postać w pozycji skoku” lub „postać salutująca”.
- Tworzenie promptów multimodalnych Ta wygenerowana w technologii Flash etykieta dotycząca pozycji ciała jest następnie automatycznie łączona z tekstowym promptem opisowym użytkownika (np. „robot na polu kwiatów”).
- Generowanie obrazów na podstawie warunków. Na koniec połączony prompt tekstowy jest wysyłany do modelu obrazu o wysokiej wierności i dokładności w zakresie pozycji, Gemini 2.5 Flash Image, wraz z oryginalnym zrzutem ekranu z pozycją 3D. Ten multimodalny prompt, który zawiera zarówno obraz pozycji, jak i szczegółowy opis tekstowy, sprawia, że Gemini 2.5 Flash Image generuje obraz ściśle zgodny z pozycją i kątem kamery, a jednocześnie stosuje styl artystyczny, postać i szczegóły sceny z tekstu.
Łączenie modeli – używanie modelu 2.5 Flash do analizy wizualnej i etykietowania oraz modelu 2.5 Flash Image do końcowego renderowania warunkowego – pozwala Cartwheel oferować unikalny proces, który łączy intuicyjne sterowanie oprogramowaniem 3D z kreatywną mocą generatywnej AI. Wyniki: zachowanie spójności postaci pod dowolnym kątem To podejście okazało się skuteczne w generowaniu obrazów, które wcześniej były trudne do utworzenia. „Renderowanie postaci z dowolnego kąta poza przodem nie działało w żadnym innym modelu” – zauważył Andrew Carr, współzałożyciel Cartwheel. „Gdy tylko obróciłeś kamerę, rozpadła się na części”.
Większość modeli obrazów jest trenowana na danych, które w przeważającej mierze przedstawiają postacie z przodu, dlatego mają one trudności z tworzeniem mniej typowych kompozycji, takich jak ujęcia z góry czy widoki z tyłu. Dzięki temu, że narzędzie Cartwheel otrzymuje pozę jako bezpośrednie dane wizualne, omija to odchylenie danych treningowych, co pozwala artyście generować spójne postacie pod dowolnym wybranym przez niego kątem.
Ten proces znacznie przyspiesza tworzenie kreacji. Zadanie, które wcześniej mogło wymagać od artysty 3D godzin iteracyjnego tworzenia promptów lub ręcznego komponowania, można teraz wykonać w kilka sekund.
Co dalej: od obrazów statycznych do generatywnych filmów
Cartwheel planuje już kolejne kroki związane z tą technologią. Zespół eksperymentuje z integracją biblioteki 150 tys. wstępnie skategoryzowanych póz,które użytkownicy mogą wyszukiwać i dopracowywać, co dodatkowo przyspiesza pracę.
Długoterminowa wizja zakłada rozszerzenie tego potoku przekształcania pozycji w piksele na ruch. Ta sama poza 3D i wyrenderowany obraz mogą służyć jako klatka początkowa dla modelu wideo do wideo, takiego jak Veo. Umożliwiłoby to twórcy ustawienie postaci, wyrenderowanie jej w dowolnym stylu, a następnie animowanie jej za pomocą prompta tekstowego, co pozwoliłoby na płynne przejście od pozowania 3D do końcowej, stylizowanej animacji.
Dzięki wykorzystaniu modeli multimodalnych, takich jak te z rodziny Gemini, Cartwheel pokazuje, jak deweloperzy mogą tworzyć zaawansowane narzędzia, które zapewniają artystom kontrolę i spójność, których potrzebują, przekształcając generatywną AI z narzędzia opartego na przypadku w narzędzie precyzyjnie realizujące kreatywne intencje.