3 בנובמבר 2025
מעבר להנחיות טקסט: איך Cartwheel יצרו דור תלת-ממד נאמן לתנוחה באמצעות Gemini Flash 2.5
מודלים גנרטיביים פתחו אפשרויות חדשות לאומנים ולמעצבים. עם זאת, ליוצרים מקצועיים, התרגום של חזון קריאייטיבי ספציפי לתמונה שנוצרה על ידי AI עדיין מהווה אתגר משמעותי. הנחיות שמבוססות על טקסט בלבד יכולות להרגיש כמו "מכונת מזל", ולכן קשה להשיג שליטה מדויקת בתנוחה של הדמות, בזווית המצלמה ובקומפוזיציה.
פלטפורמת Cartwheel, שמאפשרת ליצור משחקים ותוכן מדיה תלת-ממדיים מבוססי-AI, נותנת מענה לבעיה הזו באמצעות פתרון חדשני שמבוסס על המודלים המתקדמים של Google, במקרה הזה Gemini 2.5 Flash Image Nano Banana. התכונה 'מצב תנוחה' ב-Cartwheel Studio היא מעבר ליצירת תמונות פשוטה מטקסט, כי היא משלבת אמצעי בקרה מובנים בתלת-ממד, ומעניקה ליוצרים שליטה ישירה ואיטרטיבית על התוצאה.
האתגר: גישור הפער בין הכוונה לבין הפלט
בתהליכי עבודה יצירתיים מקצועיים, הדיוק הוא חיוני. לפעמים אומנים, מפרסמים או מעצבי משחקים צריכים ליצור דמות בתנוחה מסוימת או מזווית מסוימת כדי שתתאים ללוח תכנון או לתקציר קמפיין.
"באופן כללי, קשה לשלוט במחוללי תמונות", אומר ג'ונתן ג'רוויס, אחד מהמייסדים של Cartwheel. "קשה להשיג חזון שיש לך בפועל. תמיד רצינו לאפשר לכם פשוט להיכנס ולשנות את הדמות ישירות".
הדרישה הזו למניפולציה ישירה הובילה את Cartwheel לפתח צינור מולטי-מודאלי שמשלב בין תנוחות תלת-ממדיות, הנחיות טקסט ומודלים מרובים של AI כדי לעבוד יחד.
הפתרון: צינור (pipeline) מרובה-מודלים ליצירת תנוחה נאמנה
במקום להסתמך רק על טקסט, מצב התנוחה של Cartwheel מציג למשתמש בובה תלת-ממדית. המשתמש יכול ללחוץ ולגרור ישירות את הגפיים של הדוגמן כדי ליצור תנוחה ספציפית, ולשנות את הזווית של המצלמה הווירטואלית. הסצנה התלת-ממדית הזו הופכת לקלט העיקרי לתהליך הגנרטיבי.
תהליך העבודה הטכני הוא כזה:
- תיוג תנוחות בעזרת Gemini 2.5 Flash קודם כל, צילום מסך של בובת התצוגה התלת-ממדית בתנוחה נשלח אל Gemini 2.5 Flash. בשלב הזה, Cartwheel משתמש ב-2.5 Flash, כי המהירות שלו אידיאלית לדרישה של השהיה נמוכה בכלי יצירתי בזמן אמת. המשימה של המודל היא להחזיר תווית טקסט פשוטה שמתארת את התנוחה, כמו 'דמות בתנוחת קפיצה' או 'דמות מצדיעה'.
- הרכבת הנחיות מרובות מצבים. תווית התנוחה הזו שנוצרה ב-Flash (2.5) משולבת באופן אוטומטי עם הנחיית הטקסט התיאורי של המשתמש (למשל, "רובוט בשדה פרחים").
- יצירת תמונות מותנית. לבסוף, הנחיית הטקסט המשולבת הזו נשלחת למודל תמונה באיכות גבוהה שמייצר תמונה נאמנה לתנוחה, Gemini 2.5 Flash Image, יחד עם צילום המסך המקורי של התנוחה בתלת-ממד. ההנחיה המולטימודאלית הזו – שכוללת גם את התמונה של התנוחה וגם את תיאור הטקסט המפורט – מנחה את Gemini 2.5 Flash Image ליצור תמונה שתואמת באופן מדויק לתנוחה ולזווית המצלמה, תוך יישום הסגנון האומנותי, הדמות ופרטי הסצנה מהטקסט.
השימוש במודלים שונים – Gemini 2.5 Flash לניתוח חזותי ולתיוג, ו-Gemini 2.5 Flash Image לעיבוד סופי מותנה – מאפשר ל-Cartwheel להציע תהליך עבודה ייחודי שמשלב את השליטה האינטואיטיבית של תוכנת תלת-ממד עם היכולות היצירתיות של AI גנרטיבי. התוצאות: יצירת עקביות בדמות מכל זווית הגישה הזו הוכיחה את עצמה ביצירת תמונות שבעבר היה קשה ליצור. "הצגת תווים מכל זווית מלבד החזית לא פעלה באף מודל אחר", ציין אנדרו קאר, אחד מהמייסדים של Cartwheel. "ברגע שסובבת את המצלמה, היא התפרקה".
רוב מודלי התמונות מאומנים על נתונים שכוללים בעיקר דמויות מלפנים, ולכן הם מתקשים ליצור קומפוזיציות פחות נפוצות, כמו צילומים מזווית גבוהה או תצוגות מאחור. הכלי של Cartwheel מאפשר לאמן ליצור דמויות עקביות מכל זווית שיבחר, כי הוא מקבל את התנוחה כקלט חזותי ישיר, וכך עוקף את ההטיה בנתוני האימון.
תהליך העבודה הזה מייעל משמעותית את תהליך היצירה. משימה שבעבר הייתה יכולה לדרוש שעות של הנחיות חוזרות או קומפוזיציה ידנית של אמן תלת-ממד, יכולה להתבצע עכשיו תוך שניות.
מה השלב הבא: מתמונות סטטיות לסרטונים גנרטיביים
צוות Cartwheel כבר מתכנן את השלבים הבאים לשימוש בטכנולוגיה הזו. הצוות עורך ניסויים בשילוב של ספרייה עם 150,000 תנוחות שסווגו מראש, שהמשתמשים יכולים לחפש ולשפר, כדי להאיץ עוד יותר את תהליך העבודה.
החזון לטווח הארוך הוא להרחיב את צינור העיבוד הזה של תנוחה לפיקסל לתנועה. אותה תנוחת תלת-ממד ותמונה שעברה רינדור יכולות לשמש כפריים ההתחלתי למודל של סרטון לסרטון, כמו Veo. כך יוצרים תהליך עבודה חלק, החל מהצגת דמות בתלת-ממד ועד ליצירת אנימציה סופית ומסוגננת: יוצר יכול להציג דמות, לעבד אותה בכל סגנון ואז להנפיש אותה באמצעות הנחיית טקסט.
הפלטפורמה Cartwheel מבוססת על מודלים מרובי-מוֹדָל כמו אלה שבמשפחת Gemini, ומדגימה איך מפתחים יכולים ליצור כלים מתוחכמים שמספקים לאומנים את השליטה והעקביות שהם צריכים. כך הם יכולים להפוך את ה-AI הגנרטיבי מכלי של מזל לכלי של כוונות יצירתיות מדויקות.