מעבר להנחיות טקסט: איך Cartwheel יצרו תמונות תלת-ממד שמשקפות את התנוחה המקורית באמצעות Gemini Flash 2.5

וישאל דהרמדיקארי (Vishal Dharmadhikari)

מהנדס פתרונות מוצר

ג'ונתן ג'רוויס

מנכ"ל

Andrew Carr

מייסד שותף ומדען ראשי

מודלים גנרטיביים פתחו אפשרויות חדשות לאומנים ולמעצבים. עם זאת, ליוצרים מקצועיים, התרגום של חזון קריאייטיבי ספציפי לתמונה שנוצרה על ידי AI עדיין מהווה אתגר משמעותי. הנחיות שמבוססות רק על טקסט יכולות להרגיש כמו "מכונת מזל", ולכן קשה להשיג שליטה מדויקת בתנוחה של הדמות, בזווית הצילום ובהרכב התמונה.

פלטפורמת Cartwheel, שנועדה ליצור משחקים ותוכן מדיה תלת-ממדיים מבוססי-AI, נותנת מענה לבעיה הזו באמצעות פתרון חדשני שמבוסס על המודלים המתקדמים של Google, במקרה הזה Gemini 2.5 Flash Image Nano Banana. התכונה 'מצב תנוחה' ב-Cartwheel Studio היא מעבר ליצירת תמונות פשוטה מטקסט, כי היא משלבת אמצעי בקרה מובנים בתלת-ממד, ומעניקה ליוצרים שליטה ישירה ואיטרטיבית על התוצרים שלהם.

האתגר: גישור הפער בין הכוונה לבין הפלט

בתהליכי עבודה יצירתיים מקצועיים, דיוק הוא חיוני. לפעמים אומנים, מפרסמים או מעצבי משחקים צריכים ליצור דמות בתנוחה מסוימת או מזווית מסוימת כדי שתתאים ללוח תכנון או לתקציר קמפיין.

‫"קשה לשלוט ביוצרי תמונות," אומר ג'ונתן ג'רוויס, מייסד שותף של Cartwheel. "קשה להשיג חזון שיש לך באמת. תמיד רצינו לאפשר לכם פשוט להיכנס ולשנות את הדמות ישירות".

הדרישה הזו למניפולציה ישירה הובילה את Cartwheel לפתח צינור מולטימודאלי שמשלב בין הצגת תלת-ממד, הנחיות טקסט ומודלים מרובים של AI כדי לעבוד יחד.

הפתרון: צינור מרובה-מודלים ליצירת תמונות נאמנות לתנוחה

במקום להסתמך רק על טקסט, מצב התנוחה של Cartwheel מציג למשתמש בובה תלת-ממדית. המשתמש יכול ללחוץ ולגרור ישירות את הגפיים של הדוגמן כדי ליצור תנוחה ספציפית, ולשנות את הזווית של המצלמה הווירטואלית. הסצנה התלת-ממדית הזו הופכת לקלט העיקרי לתהליך הגנרטיבי.

תהליך העבודה הטכני הוא כזה:

תיוג תנוחות בעזרת Gemini ‎2.5 Flash קודם כל, צילום מסך של בובת התצוגה התלת-ממדית בתנוחה נשלח אל Gemini 2.5 Flash. בשלב הזה, Cartwheel משתמש ב-2.5 Flash, כי המהירות שלו אידיאלית לדרישה של השהיה נמוכה בכלי יצירתי בזמן אמת. המשימה של המודל היא להחזיר תווית טקסט פשוטה שמתארת את התנוחה, כמו 'דמות בתנוחת קפיצה' או 'דמות מצדיעה'.
הרכבת הנחיות ל-multimodal תווית התנוחה הזו שנוצרה ב-Flash (2.5) משולבת באופן אוטומטי עם הנחיית הטקסט התיאורי של המשתמש (למשל, "רובוט בשדה פרחים").
יצירת תמונות מותנית. לבסוף, ההנחיה המשולבת הזו נשלחת למודל תמונה באיכות גבוהה שמייצר תמונה נאמנה לתנוחה, Gemini 2.5 Flash Image, יחד עם צילום המסך המקורי של התנוחה בתלת-ממד. ההנחיה המולטימודאלית הזו – שכוללת גם את התמונה של התנוחה וגם את תיאור הטקסט המפורט – מכוונת את Gemini 2.5 Flash Image ליצור תמונה שתואמת באופן מדויק לתנוחה ולזווית המצלמה, תוך יישום הסגנון האומנותי, הדמות ופרטי הסצנה מהטקסט.

השימוש במודלים שונים – Gemini 2.5 Flash לניתוח חזותי ולתיוג, ו-Gemini 2.5 Flash Image לעיבוד סופי מותנה – מאפשר ל-Cartwheel להציע תהליך עבודה ייחודי שמשלב את השליטה האינטואיטיבית של תוכנת תלת-ממד עם היכולות היצירתיות של AI גנרטיבי.

התוצאות: שמירה על עקביות הדמויות מכל זווית

הגישה הזו הוכיחה את עצמה ביצירת תמונות שקודם היה קשה ליצור. "הצגת תווים מכל זווית מלבד החזית לא פעלה באף מודל אחר", ציין אנדרו קאר, אחד מהמייסדים של Cartwheel. "ברגע שסובבת את המצלמה, היא התפרקה".

רוב מודלי התמונות מאומנים על נתונים שכוללים בעיקר דמויות מלפנים, ולכן הם מתקשים ליצור קומפוזיציות פחות נפוצות, כמו צילומים מזווית גבוהה או תצוגות מאחור. הכלי של Cartwheel מאפשר לאמן ליצור דמויות עקביות מכל זווית שיבחר, כי הוא מקבל את התנוחה כקלט חזותי ישיר, וכך עוקף את ההטיה בנתוני האימון.

תהליך העבודה הזה מייעל משמעותית את תהליך היצירה. משימה שבעבר הייתה יכולה לדרוש שעות של הנחיות חוזרות או קומפוזיציה ידנית של אומן תלת-ממד, יכולה להתבצע עכשיו תוך שניות.

מה השלב הבא: מתמונות סטטיות לסרטונים גנרטיביים

צוות Cartwheel כבר מתכנן את השלבים הבאים לשימוש בטכנולוגיה הזו. הצוות עורך ניסויים בשילוב של ספרייה עם 150,000 תנוחות שסווגו מראש, שהמשתמשים יכולים לחפש ולשפר, כדי להאיץ עוד יותר את תהליך העבודה.

החזון לטווח הארוך הוא להרחיב את צינור העיבוד הזה של תנוחה לפיקסל לתנועה. אותה תנוחת תלת-ממד ותמונה שעברה רינדור יכולות לשמש כפריים ההתחלתי למודל של סרטון לסרטון, כמו Veo. כך יוצרים יכולים להציב דמות בתנוחה, לעבד אותה בכל סגנון ואז להנפיש אותה באמצעות הנחיית טקסט, וליצור תהליך עבודה חלק מהצבת הדמות בתלת-ממד ועד לאנימציה סופית ומסוגננת.

הפלטפורמה Cartwheel מבוססת על מודלים מרובי-מוֹדָל כמו אלה שבמשפחת Gemini, ומדגימה איך מפתחים יכולים ליצור כלים מתוחכמים שמספקים לאומנים את השליטה והעקביות שהם צריכים. כך הם יכולים להפוך את ה-AI הגנרטיבי מכלי של ניסוי וטעייה לכלי של כוונות יצירתיות מדויקות.

מעבר להנחיות טקסט: איך Cartwheel יצרו תמונות תלת-ממד שמשקפות את התנוחה המקורית באמצעות Gemini Flash 2.5

האתגר: גישור הפער בין הכוונה לבין הפלט

הפתרון: צינור מרובה-מודלים ליצירת תמונות נאמנות לתנוחה

התוצאות: שמירה על עקביות הדמויות מכל זווית

מה השלב הבא: מתמונות סטטיות לסרטונים גנרטיביים

מקרים לדוגמה שקשורים לנושא