מעבר להנחיות טקסט: איך Cartwheel יצרו דור תלת-ממד נאמן לתנוחה באמצעות Gemini Flash 2.5

וישאל דהרמדיקארי (Vishal Dharmadhikari)

מהנדס פתרונות מוצר

Jonathan Jarvis

מנכ"ל

Andrew Carr

מייסד שותף ומדען ראשי

מודלים גנרטיביים פתחו אפשרויות חדשות לאומנים ולמעצבים. עם זאת, ליוצרים מקצועיים, התרגום של חזון קריאייטיבי ספציפי לתמונה שנוצרה על ידי AI עדיין מהווה אתגר משמעותי. הנחיות שמבוססות על טקסט בלבד יכולות להרגיש כמו "מכונת מזל", ולכן קשה להשיג שליטה מדויקת בתנוחה של הדמות, בזווית הצילום ובהרכב התמונה.

פלטפורמת Cartwheel, שמאפשרת ליצור משחקים ותוכן מדיה תלת-ממדיים מבוססי-AI, נותנת מענה לבעיה הזו באמצעות פתרון חדשני שמבוסס על המודלים המתקדמים של Google, במקרה הזה Gemini 2.5 Flash Image Nano Banana. התכונה 'מצב תנוחה' ב-Cartwheel Studio היא מעבר ליצירת תמונות פשוטה מטקסט, כי היא משלבת אמצעי בקרה מובנים בתלת-ממד, ומעניקה ליוצרים שליטה ישירה ואיטרטיבית על התוצרים שלהם.

האתגר: גישור הפער בין הכוונה לבין הפלט

בתהליכי עבודה יצירתיים מקצועיים, דיוק הוא חיוני. אומנים, מפרסמים או מעצבי משחקים צריכים לעיתים ליצור דמות בתנוחה מסוימת או מזווית מסוימת כדי שתתאים ללוח תכנון או לתקציר קמפיין.

"קשה לשלוט ביוצרי תמונות," אומר ג'ונתן ג'רוויס, מייסד שותף של Cartwheel. "קשה להשיג חזון שיש לך בפועל. תמיד רצינו לאפשר לכם פשוט להיכנס ולשנות את הדמות ישירות".

הדרישה הזו למניפולציה ישירה הובילה את Cartwheel לפתח צינור מולטי-מודאלי שמשלב בין תנוחות תלת-ממדיות, הנחיות טקסט ומודלים מרובים של AI כדי לעבוד יחד.

הפתרון: צינור רב-מודלי ליצירת תמונות עם תנוחות נאמנות

במקום להסתמך רק על טקסט, במצב התנוחה של Cartwheel מוצג למשתמש בובה תלת-ממדית. המשתמש יכול ללחוץ ולגרור ישירות את הגפיים של הדוגמן כדי ליצור תנוחה ספציפית, ולהתאים את המצלמה הווירטואלית לכל זווית. הסצנה התלת-ממדית הזו הופכת לקלט העיקרי בתהליך הגנרטיבי.

תהליך העבודה הטכני הוא כזה:

תיוג תנוחות בעזרת Gemini ‎2.5 Flash קודם כל, צילום מסך של בובת התצוגה התלת-ממדית בתנוחה נשלח אל Gemini 2.5 Flash. ‫Cartwheel משתמש ב-2.5 Flash בשלב הזה, כי המהירות שלו אידיאלית לדרישה של השהיה נמוכה בכלי יצירתי בזמן אמת. המשימה של המודל היא להחזיר תווית טקסט פשוטה שמתארת את התנוחה, כמו 'דמות בתנוחת קפיצה' או 'דמות מצדיעה'.
הרכבת הנחיות מרובות מצבים. תווית התנוחה הזו שנוצרה ב-Flash, עם ערך של 2.5, משולבת באופן אוטומטי עם הנחיית הטקסט התיאורי של המשתמש (למשל, "רובוט בשדה פרחים").
יצירת תמונות מותנית. לבסוף, ההנחיה המשולבת הזו נשלחת למודל תמונה באיכות גבוהה שמייצר תמונה נאמנה לתנוחה, Gemini 2.5 Flash Image, יחד עם צילום המסך המקורי של התנוחה בתלת-ממד. ההנחיה המולטי-מודאלית הזו – שכוללת גם את התמונה של התנוחה וגם את תיאור הטקסט המפורט – גורמת ל-Gemini 2.5 Flash Image ליצור תמונה שתואמת באופן מדויק לתנוחה ולזווית המצלמה, תוך יישום הסגנון האומנותי, הדמות ופרטי הסצנה מהטקסט.

השימוש ברצף של מודלים – Gemini 2.5 Flash לניתוח חזותי ולתיוג, ו-Gemini 2.5 Flash Image לעיבוד סופי מותנה – מאפשר ל-Cartwheel להציע תהליך עבודה ייחודי שמשלב את השליטה האינטואיטיבית של תוכנת תלת-ממד עם היכולות היצירתיות של AI גנרטיבי.

התוצאות: שמירה על עקביות הדמויות מכל זווית

הגישה הזו הוכיחה את עצמה ביצירת תמונות שקודם היה קשה ליצור. "הצגת תווים מכל זווית מלבד החזית לא פעלה באף מודל אחר", ציין אנדרו קאר, אחד מהמייסדים של Cartwheel. "ברגע שסובבת את המצלמה, היא התפרקה".

רוב מודלי התמונות מאומנים על נתונים שכוללים בעיקר דמויות מלפנים, ולכן הם מתקשים ליצור קומפוזיציות פחות נפוצות, כמו צילומים מזווית גבוהה או תצוגות מאחור. הכלי של Cartwheel מאפשר לאמן ליצור דמויות עקביות מכל זווית שיבחר, כי הוא מקבל את התנוחה כקלט חזותי ישיר, וכך עוקף את ההטיה בנתוני האימון.

תהליך העבודה הזה מייעל משמעותית את תהליך הקריאייטיב. משימה שבעבר הייתה עשויה לדרוש שעות של הנחיות חוזרות או של קומפוזיציה ידנית על ידי אמן תלת-ממד, יכולה להתבצע עכשיו תוך שניות.

מה השלב הבא: מתמונות סטטיות לסרטונים גנרטיביים

ב-Cartwheel כבר מתכננים את השלבים הבאים לטכנולוגיה הזו. הצוות בודק שילוב של ספרייה עם 150,000 תנוחות שסווגו מראש, שהמשתמשים יכולים לחפש ולשפר, כדי להאיץ עוד יותר את תהליך העבודה.

החזון לטווח הארוך הוא להרחיב את צינור העיבוד הזה של תנוחה לפיקסל לתנועה. אותה תנוחת תלת-ממד ותמונה שעברה רינדור יכולות לשמש כפריים ההתחלתי למודל של סרטון לסרטון, כמו Veo. כך יוצרים יכולים להציב דמות, לעבד אותה בכל סגנון ואז להנפיש אותה באמצעות הנחיית טקסט, וליצור תהליך עבודה חלק מהצבת תלת-ממד ועד לאנימציה סופית ומסוגננת.

הפלטפורמה Cartwheel מבוססת על מודלים מולטימודאליים כמו אלה שבמשפחת Gemini, ומדגימה איך מפתחים יכולים ליצור כלים מתוחכמים שמספקים לאומנים את השליטה והעקביות שהם צריכים. כך הופכת הבינה המלאכותית הגנרטיבית מכלי של מזל לכלי של כוונות יצירתיות מדויקות.

מעבר להנחיות טקסט: איך Cartwheel יצרו דור תלת-ממד נאמן לתנוחה באמצעות Gemini Flash 2.5

האתגר: גישור הפער בין הכוונה לבין הפלט

הפתרון: צינור רב-מודלי ליצירת תמונות עם תנוחות נאמנות

התוצאות: שמירה על עקביות הדמויות מכל זווית

מה השלב הבא: מתמונות סטטיות לסרטונים גנרטיביים

מקרים לדוגמה שקשורים לנושא