3 KASIM 2025
Metin istemlerinin ötesinde: Cartwheel, Gemini Flash 2.5 ile pozlara uygun 3D üretimi nasıl gerçekleştirdi?
Üretken modeller, sanatçılar ve tasarımcılar için yeni olanaklar yarattı. Ancak profesyonel içerik üreticiler için belirli bir yaratıcı vizyonu oluşturulan bir resme dönüştürmek önemli bir zorluk olmaya devam ediyor. Yalnızca metinle istem oluşturmak genellikle "slot makinesi" gibi hissettirir ve bir karakterin pozu, kamera açısı ve kompozisyonu üzerinde hassas kontrol sağlamayı zorlaştırır.
3D yapay zeka destekli oyun ve medya oluşturma platformu Cartwheel, Google'ın gelişmiş modelleri (bu örnekte Gemini 2.5 Flash Image Nano Banana) üzerine yeni bir çözüm geliştirerek bu sorunu ele alıyor. Cartwheel Studio'daki "Poz Modu" özelliği, 3D'ye özgü kontrolleri kullanarak basit metinden görüntüye dönüştürme işleminin ötesine geçiyor ve içerik üreticilere çıktıları üzerinde doğrudan, yinelemeli kontrol imkanı sunuyor.
Zorluk: Amaç ile sonuç arasındaki boşluğu kapatma
Profesyonel reklam öğesi iş akışlarında hassasiyet çok önemlidir. Bir sanatçı, reklamveren veya oyun tasarımcısı, genellikle bir karakteri belirli bir pozda ya da belirli bir açıdan oluşturarak bir senaryo planına veya kampanya özetine uygun hale getirmesi gerekir.
Cartwheel'ın kurucu ortağı Jonathan Jarvis, "Görüntü üreticilerin kontrolü genel olarak zordu." diyor. "Gerçekten sahip olduğunuz bir vizyonu gerçekleştirmek zordur. Her zaman karakteri doğrudan kontrol etmenizi istedik."
Doğrudan manipülasyon gerekliliği, Cartwheel'un 3D poz verme, metin istemi ve birden fazla yapay zeka modelini birlikte çalışacak şekilde entegre eden çok formatlı bir işlem hattı geliştirmesine yol açtı.
Çözüm: Pozu doğru şekilde oluşturmak için çok modelli bir işlem hattı
Cartwheel'ın Poz Modu, yalnızca metne güvenmek yerine kullanıcıya 3D bir manken sunar. Kullanıcı, mankenin uzuvlarını doğrudan tıklayıp sürükleyerek belirli bir poz oluşturabilir ve sanal kamerayı herhangi bir açıya ayarlayabilir. Bu 3D sahne daha sonra üretken süreç için birincil giriş haline gelir.
Teknik iş akışı aşağıdaki gibidir:
- Gemini 2.5 Flash ile poz etiketleme. İlk olarak, poz verilmiş 3D mankenin ekran görüntüsü Gemini 2.5 Flash'e gönderilir. Cartwheel, bu adım için 2.5 Flash kullanır. Bunun nedeni, hızının gerçek zamanlı bir reklam öğesi aracının düşük gecikme süresi gereksinimi için ideal olmasıdır. Modelin görevi, pozu açıklayan basit bir metin etiketi döndürmektir. Örneğin, "zıplama pozunda bir karakter" veya "selam veren bir karakter".
- Çok formatlı istem oluşturma. Bu 2,5 Flash ile oluşturulan poz etiketi, kullanıcının kendi açıklayıcı metin istemiyle (ör. "çiçek tarlasındaki bir robot").
- Koşullandırılmış görüntü üretme. Son olarak, bu birleştirilmiş metin istemi, 3D pozun orijinal ekran görüntüsüyle birlikte yüksek kaliteli ve poza uygun bir görüntü modeli olan Gemini 2.5 Flash Image'e gönderilir. Hem pozun görüntüsünü hem de ayrıntılı metin açıklamasını içeren bu çok formatlı istem, Gemini 2.5 Flash Image'i metindeki sanatsal stili, karakteri ve sahne ayrıntılarını uygularken poza ve kamera açısına sıkı sıkıya bağlı bir görüntü oluşturacak şekilde koşullandırır.
Modellerin bu şekilde zincirlenmesi (görsel analiz ve etiketleme için 2.5 Flash, son koşullu oluşturma için 2.5 Flash Image kullanılması), Cartwheel'un 3D yazılımın sezgisel kontrolünü üretken yapay zekanın yaratıcı gücüyle birleştiren benzersiz bir iş akışı sunmasına olanak tanır. Sonuçlar: Karakter tutarlılığını her açıdan sağlama Bu yaklaşım, daha önce oluşturulması zor olan görüntülerin üretilmesinde etkili olduğunu kanıtladı. Cartwheel'in kurucu ortağı Andrew Carr, "Karakterleri ön dışında herhangi bir açıdan oluşturmak başka hiçbir modelde çalışmıyordu" diyor. "Kamerayı döndürdüğünüz anda parçalandı."
Çoğu görüntü modeli, ağırlıklı olarak önden çekilmiş karakterlerin yer aldığı verilerle eğitildiğinden, daha az kullanılan kompozisyonlar (ör. yüksek açılı çekimler veya arkadan görünümler) oluşturmakta zorlanır. Cartwheel'un aracı, pozu doğrudan görsel giriş olarak sağlayarak bu eğitim verisi önyargısını atlar ve sanatçının istediği açıdan tutarlı karakterler oluşturmasına olanak tanır.
Bu iş akışı, reklam öğesi sürecini önemli ölçüde hızlandırır. Daha önce saatler süren yinelemeli istemler veya bir 3D sanatçısı tarafından manuel olarak birleştirme gerektiren bir görev artık saniyeler içinde tamamlanabilir.
Sıradaki adım: Statik resimlerden üretken videolara
Cartwheel, bu teknolojiyle ilgili sonraki adımları planlamaya başladı. Ekip,kullanıcıların arayıp iyileştirebileceği, önceden kategorize edilmiş 150.000 pozdan oluşan bir kitaplığı entegre etme denemeleri yapıyor. Bu sayede iş akışı daha da hızlanacak.
Uzun vadeli hedef, bu pozdan piksele ardışık düzenini harekete dönüştürmektir. Aynı 3D poz ve oluşturulmuş görüntü, Veo gibi bir videodan videoya model için başlangıç karesi olarak kullanılabilir. Bu sayede içerik üreticiler, bir karaktere poz verebilir, onu herhangi bir stilde oluşturabilir ve ardından metin istemi kullanarak canlandırabilir. Böylece, 3D poz verme işleminden son, stilize edilmiş animasyona kadar sorunsuz bir iş akışı oluşturabilirler.
Cartwheel, Gemini ailesindeki modeller gibi çok formatlı modelleri temel alarak geliştiricilerin, sanatçılara ihtiyaç duydukları kontrolü ve tutarlılığı sağlayan gelişmiş araçlar oluşturabileceğini gösteriyor. Böylece üretken yapay zeka, şansa dayalı bir araç olmaktan çıkıp hassas yaratıcı amaçlara yönelik bir araca dönüşüyor.