Përtej Tekstit: Si Cartwheel Ndërtoi Gjenerimin 3D me Pozë Besnike me Gemini Flash 2.5

Vishal Dharmadhikari

Inxhinier i Zgjidhjeve të Produkteve

Jonathan Jarvis

Drejtor Ekzekutiv

Andrew Carr

Bashkëthemelues dhe Shkencëtar Kryesor

Modelet gjeneruese kanë krijuar mundësi të reja për artistët dhe dizajnerët. Megjithatë, për krijuesit profesionistë, përkthimi i një vizioni specifik krijues në një imazh të gjeneruar mbetet një sfidë e rëndësishme. Nxitja vetëm me tekst shpesh mund të ndihet si një "makinë lojërash fati", duke e bërë të vështirë arritjen e kontrollit të saktë mbi pozën, këndin e kamerës dhe kompozimin e një personazhi.

Cartwheel , një platformë për krijimin e lojërave dhe mediave 3D të bazuara në inteligjencën artificiale, po e adreson këtë problem duke ndërtuar një zgjidhje të re mbi modelet e përparuara të Google, në këtë rast Gemini 2.5 Flash Image Nano Banana. Funksioni i tyre "Pose Mode" brenda Cartwheel Studio shkon përtej gjenerimit të thjeshtë të tekstit në imazh duke përfshirë kontrolle 3D-native, duke u dhënë krijuesve kontroll të drejtpërdrejtë dhe iterativ mbi rezultatet e tyre.

Sfida: kapërcimi i hendekut midis qëllimit dhe rezultatit

Në rrjedhat e punës krijuese profesionale, preciziteti është thelbësor. Një artist, reklamues ose dizajner lojërash shpesh duhet të krijojë një personazh në një pozë specifike ose nga një kënd specifik që t'i përshtatet një skenari ose një përmbledhjeje fushate.

"Në një nivel të lartë, gjeneratorët e imazheve kanë qenë të vështirë për t'u kontrolluar", tha Jonathan Jarvis, bashkëthemelues i Cartwheel. "Është e vështirë të arrish një vizion që e ke realisht. Ne gjithmonë kemi dashur t'ju lejojmë të hyni dhe ta manipuloni drejtpërdrejt personazhin."

Kjo kërkesë për manipulim të drejtpërdrejtë e shtyu Cartwheel të zhvillonte një tubacion multimodal që integron pozimin 3D, nxitjen e tekstit dhe modele të shumta të inteligjencës artificiale për të punuar së bashku.

Zgjidhja: një tubacion me shumë modele për gjenerimin besnik të pozave

Në vend që të mbështetet vetëm në tekst, Modaliteti i Pozës i Cartwheel i paraqet përdoruesit një manekin 3D. Përdoruesi mund të klikojë dhe të zvarrisë drejtpërdrejt gjymtyrët e manekinit për të krijuar një pozë specifike dhe për të rregulluar kamerën virtuale në çdo kënd. Kjo skenë 3D më pas bëhet një hyrje kryesore për procesin gjenerues.

Sekuenca teknike e punës është si më poshtë:

Etiketimi i pozës me Gemini 2.5 Flash. Së pari, një pamje e ekranit e manekinit 3D të pozuar i dërgohet Gemini 2.5 Flash. Cartwheel përdor 2.5 Flash për këtë hap, pasi shpejtësia e tij është ideale për kërkesën e latencës së ulët të një mjeti krijues në kohë reale. Detyra e modelit është të kthejë një etiketë të thjeshtë teksti që përshkruan pozën, siç është "një personazh në një pozë kërcimi" ose "një personazh që përshëndet".
Montim i kërkesave multimodale. Kjo etiketë poze e gjeneruar nga Flash 2.5 kombinohet automatikisht me kërkesën përshkruese të tekstit të përdoruesit (p.sh., "një robot në një fushë me lule").
Gjenerimi i imazhit të kushtëzuar. Së fundmi, kjo kërkesë e kombinuar teksti i dërgohet një modeli imazhi me besnikëri të lartë dhe besnik ndaj pozës, Gemini 2.5 Flash Image, së bashku me pamjen origjinale të ekranit të pozës 3D. Kjo kërkesë multimodale - e cila përfshin si imazhin e pozës ashtu edhe përshkrimin e detajuar të tekstit - e kushtëzon Gemini 2.5 Flash Image për të gjeneruar një imazh që i përmbahet në mënyrë strikte pozës dhe këndit të kamerës, ndërsa zbaton stilin artistik, personazhin dhe detajet e skenës nga teksti.

Ky zinxhir modelesh - duke përdorur 2.5 Flash për analizë dhe etiketim vizual, dhe 2.5 Flash Image për renderimin përfundimtar të kushtëzuar - i lejon Cartwheel të ofrojë një rrjedhë pune unike që kombinon kontrollin intuitiv të softuerit 3D me fuqinë krijuese të IA-së gjeneruese.

Rezultatet: zhbllokimi i qëndrueshmërisë së personazheve nga çdo kënd

Kjo qasje ka rezultuar efektive në gjenerimin e imazheve që më parë ishin të vështira për t'u krijuar. "Renderimi i personazheve nga çdo kënd përveç pjesës së përparme nuk funksionoi në asnjë model tjetër", vuri në dukje Andrew Carr, bashkëthemelues i Cartwheel. "Sapo e rrotulloje kamerën, ajo shpërbëhej."

Meqenëse shumica e modeleve të imazheve trajnohen mbi të dhëna që paraqesin kryesisht personazhe nga përpara, ato kanë vështirësi në krijimin e kompozimeve më pak të zakonshme, siç janë pamjet nga këndi i lartë ose pamjet nga prapa. Duke ofruar pozën si një input të drejtpërdrejtë vizual, mjeti i Cartwheel anashkalon këtë paragjykim të të dhënave të trajnimit, duke i lejuar një artisti të gjenerojë personazhe të qëndrueshëm nga çdo kënd që zgjedh.

Ky fluks pune e përshpejton ndjeshëm procesin krijues. Një detyrë që më parë mund të kishte kërkuar orë të tëra nxitjeje përsëritëse ose kompozim manual nga një artist 3D, tani mund të kryhet brenda sekondash.

Çfarë vjen më pas: nga imazhet statike në video gjeneruese

Cartwheel tashmë po planifikon hapat e mëtejshëm për këtë teknologji. Ekipi po eksperimenton me integrimin e një biblioteke me 150,000 poza të para-kategorizuara që përdoruesit mund t'i kërkojnë dhe përsosin, duke përshpejtuar më tej rrjedhën e punës.

Vizioni afatgjatë është që ky kanal poze-në-piksel të zgjerohet në lëvizje. E njëjta pozë 3D dhe imazh i renderuar mund të shërbejnë si korniza fillestare për një model video-në-video, siç është Veo. Kjo do t'i lejonte një krijuesi të pozonte një personazh, ta renderonte atë në çdo stil dhe më pas ta animonte atë duke përdorur një mesazh tekstual, duke krijuar një rrjedhë pune pa probleme nga pozimi 3D në një animacion përfundimtar të stilizuar.

Duke u bazuar në modele multimodale si ato në familjen Gemini, Cartwheel po demonstron se si zhvilluesit mund të krijojnë mjete të sofistikuara që u ofrojnë artistëve kontrollin dhe qëndrueshmërinë që u nevojiten, duke e zhvendosur IA-në gjeneruese nga një mjet i rastësisë në një me qëllim të saktë krijues.

Promise Studios

Promise Studios përdor Gemini 2.5 Pro dhe Veo 2 për të transformuar prodhimin e filmave, duke mundësuar analizë të thellë të skenarit, storyboarding të asistuar nga inteligjenca artificiale dhe trajtime vizuale të ndërgjegjshme për kontekstin.

Përtej Tekstit: Si Cartwheel Ndërtoi Gjenerimin 3D me Pozë Besnike me Gemini Flash 2.5

Sfida: kapërcimi i hendekut midis qëllimit dhe rezultatit

Zgjidhja: një tubacion me shumë modele për gjenerimin besnik të pozave

Rezultatet: zhbllokimi i qëndrueshmërisë së personazheve nga çdo kënd

Çfarë vjen më pas: nga imazhet statike në video gjeneruese

Studime rastesh të ngjashme