3 NOV 2025
Lebih dari Sekadar Perintah Teks: Cara Cartwheel Membangun Pembuatan 3D yang Sesuai dengan Pose Menggunakan Gemini Flash 2.5
Model generatif telah menciptakan kemungkinan baru bagi seniman dan desainer. Namun, bagi kreator profesional, menerjemahkan visi kreatif tertentu ke dalam gambar yang dihasilkan tetap menjadi tantangan yang signifikan. Perintah berbasis teks saja sering kali terasa seperti "mesin slot", sehingga sulit untuk mendapatkan kontrol yang tepat atas pose karakter, sudut kamera, dan komposisi.
Cartwheel, platform untuk pembuatan game dan media 3D yang dibuat khusus untuk AI, mengatasi masalah ini dengan membangun solusi baru di atas model canggih Google, dalam hal ini Gemini 2.5 Flash Image Nano Banana. Fitur "Pose Mode" dalam Cartwheel Studio melampaui pembuatan teks ke gambar sederhana dengan menggabungkan kontrol native 3D, sehingga kreator dapat mengontrol output mereka secara langsung dan berulang.
Tantangannya: menjembatani kesenjangan antara maksud dan output
Dalam alur kerja kreatif profesional, presisi sangat penting. Seorang artis, pengiklan, atau desainer game sering kali perlu membuat karakter dalam pose tertentu atau dari sudut tertentu agar sesuai dengan storyboard atau ringkasan kampanye.
"Secara umum, generator gambar sulit dikontrol," kata Jonathan Jarvis, salah satu pendiri Cartwheel. "Sulit untuk mewujudkan visi yang sebenarnya Anda miliki. Kami selalu ingin Anda masuk dan memanipulasi karakter secara langsung."
Persyaratan manipulasi langsung ini mendorong Cartwheel mengembangkan pipeline multimodal yang mengintegrasikan penentuan pose 3D, perintah teks, dan beberapa model AI untuk bekerja secara bersamaan.
Solusinya: pipeline multi-model untuk pembuatan yang sesuai dengan pose
Daripada hanya mengandalkan teks, Mode Pose Cartwheel menampilkan manekin 3D kepada pengguna. Pengguna dapat langsung mengklik dan menarik anggota tubuh manekin untuk membuat pose tertentu dan menyesuaikan kamera virtual ke sudut mana pun. Adegan 3D ini kemudian menjadi input utama untuk proses generatif.
Alur kerja teknisnya adalah sebagai berikut:
- Pelabelan pose dengan Gemini 2.5 Flash. Pertama, screenshot manekin 3D yang berpose dikirim ke Gemini 2.5 Flash. Cartwheel menggunakan 2.5 Flash untuk langkah ini, karena kecepatannya ideal untuk persyaratan latensi rendah dari alat materi iklan real-time. Tugas model adalah menampilkan label teks sederhana yang mendeskripsikan pose, seperti "karakter dalam pose melompat" atau "karakter sedang memberi hormat".
- Perakitan perintah multimodal. Label pose yang dibuat dengan Flash 2.5 ini kemudian otomatis digabungkan dengan perintah teks deskriptif pengguna sendiri (misalnya, "robot di ladang bunga").
- Pembuatan gambar bersyarat. Terakhir, perintah teks gabungan ini dikirim ke model gambar fidelitas tinggi yang sesuai dengan pose, Gemini 2.5 Flash Image, bersama dengan screenshot asli pose 3D. Perintah multimodal ini—yang mencakup gambar pose dan deskripsi teks yang mendetail—mengondisikan Gemini 2.5 Flash Image untuk menghasilkan gambar yang secara ketat mematuhi pose dan sudut kamera, sekaligus menerapkan gaya artistik, karakter, dan detail adegan dari teks.
Penggabungan model ini—menggunakan 2.5 Flash untuk analisis dan pelabelan visual, serta 2.5 Flash Image untuk rendering akhir yang dikondisikan—memungkinkan Cartwheel menawarkan alur kerja unik yang menggabungkan kontrol intuitif software 3D dengan kemampuan kreatif AI generatif. Hasilnya: membuka konsistensi karakter dari sudut mana pun Pendekatan ini terbukti efektif dalam menghasilkan gambar yang sebelumnya sulit dibuat. "Merender karakter dari sudut mana pun selain depan tidak berfungsi di model lain," kata Andrew Carr, salah satu pendiri Cartwheel. "Segera setelah Anda memutar kamera, kamera tersebut rusak."
Karena sebagian besar model gambar dilatih dengan data yang sebagian besar menampilkan karakter dari depan, model tersebut kesulitan membuat komposisi yang kurang umum, seperti bidikan sudut tinggi atau tampilan dari belakang. Dengan memberikan pose sebagai input visual langsung, alat Cartwheel melewati bias data pelatihan ini, sehingga memungkinkan artis membuat karakter yang konsisten dari sudut mana pun yang mereka pilih.
Alur kerja ini mempercepat proses kreatif secara signifikan. Tugas yang sebelumnya mungkin memerlukan waktu berjam-jam untuk melakukan perintah iteratif atau komposisi manual oleh artis 3D kini dapat diselesaikan dalam hitungan detik.
Langkah selanjutnya: dari gambar statis ke video generatif
Cartwheel sudah merencanakan langkah selanjutnya untuk teknologi ini. Tim bereksperimen dengan mengintegrasikan pustaka 150.000 pose yang telah dikategorikan sebelumnya yang dapat ditelusuri dan disempurnakan pengguna, sehingga mempercepat alur kerja.
Visi jangka panjangnya adalah memperluas pipeline pose-ke-piksel ini menjadi gerakan. Pose 3D dan gambar yang dirender yang sama dapat berfungsi sebagai frame awal untuk model video-ke-video, seperti Veo. Hal ini akan memungkinkan kreator memosisikan karakter, merendernya dalam gaya apa pun, lalu menganimasikannya menggunakan perintah teks, sehingga menciptakan alur kerja yang lancar dari pemosisian 3D hingga animasi akhir yang bergaya.
Dengan membangun di atas model multimodal seperti yang ada dalam rangkaian model Gemini, Cartwheel menunjukkan cara developer dapat membuat alat canggih yang memberi artis kontrol dan konsistensi yang mereka butuhkan, sehingga mengubah AI generatif dari alat yang bersifat kebetulan menjadi alat yang memiliki maksud kreatif yang presisi.