นอกเหนือจากพรอมต์ข้อความ: วิธีที่ Cartwheel สร้างการสร้างโมเดล 3 มิติที่ตรงกับท่าทางด้วย Gemini Flash 2.5

Vishal Dharmadhikari

วิศวกรโซลูชันผลิตภัณฑ์

Jonathan Jarvis

CEO

Andrew Carr

ผู้ร่วมก่อตั้งและหัวหน้านักวิทยาศาสตร์

โมเดล Generative ได้สร้างความเป็นไปได้ใหม่ๆ ให้กับศิลปินและนักออกแบบ อย่างไรก็ตาม สำหรับครีเอเตอร์มืออาชีพ การเปลี่ยนวิสัยทัศน์ด้านครีเอทีฟโฆษณาที่เฉพาะเจาะจงให้เป็นรูปภาพที่สร้างขึ้นยังคงเป็นความท้าทายที่สำคัญ การป้อนข้อความเพียงอย่างเดียวมักให้ความรู้สึกเหมือน "ตู้สล็อต" ซึ่งทำให้ควบคุมท่าทางของตัวละคร มุมกล้อง และองค์ประกอบได้อย่างแม่นยำได้ยาก

Cartwheel ซึ่งเป็นแพลตฟอร์มสำหรับเกมและสื่อ 3 มิติที่สร้างขึ้นด้วย AI กำลังแก้ปัญหานี้ด้วยการสร้างโซลูชันใหม่บนโมเดลขั้นสูงของ Google ซึ่งในกรณีนี้คือ Gemini 2.5 Flash Image Nano Banana ฟีเจอร์ "โหมดท่าทาง" ใน Cartwheel Studio ไม่ได้หยุดอยู่แค่การสร้างรูปภาพจากข้อความแบบง่ายๆ แต่ยังรวมการควบคุมแบบ 3 มิติ ซึ่งช่วยให้ครีเอเตอร์ควบคุมผลลัพธ์ได้โดยตรงและทำซ้ำได้

ความท้าทาย: การเชื่อมช่องว่างระหว่างความตั้งใจกับผลลัพธ์

ความแม่นยำเป็นสิ่งสำคัญในเวิร์กโฟลว์การสร้างสรรค์ระดับมืออาชีพ ศิลปิน ผู้ลงโฆษณา หรือนักออกแบบเกมมักต้องสร้างตัวละครในท่าทางหรือมุมมองที่เฉพาะเจาะจงเพื่อให้เข้ากับสตอรีบอร์ดหรือบรีฟแคมเปญ

"ในระดับสูง เครื่องมือสร้างรูปภาพควบคุมได้ยาก" Jonathan Jarvis ผู้ร่วมก่อตั้ง Cartwheel กล่าว "การทำให้วิสัยทัศน์ที่คุณมีอยู่จริงเป็นจริงนั้นเป็นเรื่องยาก เราต้องการให้คุณเข้าไปปรับแต่งตัวละครได้โดยตรงมาโดยตลอด"

ข้อกำหนดในการจัดการโดยตรงนี้ทำให้ Cartwheel พัฒนาไปป์ไลน์แบบมัลติโมดัลที่ผสานรวมการวางท่า 3 มิติ การแจ้งด้วยข้อความ และโมเดล AI หลายรายการให้ทำงานร่วมกัน

โซลูชัน: ไปป์ไลน์แบบหลายโมเดลสำหรับการสร้างท่าทางที่สมจริง

โหมดท่าทางของ Cartwheel จะแสดงหุ่นจำลอง 3 มิติแก่ผู้ใช้แทนที่จะพึ่งพาข้อความเพียงอย่างเดียว ผู้ใช้สามารถคลิกและลากแขนขาของหุ่นโดยตรงเพื่อสร้างท่าทางเฉพาะและปรับกล้องเสมือนให้เป็นมุมใดก็ได้ จากนั้นฉาก 3 มิตินี้จะกลายเป็นอินพุตหลักสำหรับกระบวนการสร้าง

เวิร์กโฟลว์ทางเทคนิคมีดังนี้

การติดป้ายกำกับท่าทางด้วย Gemini 2.5 Flash ก่อนอื่น ระบบจะส่งภาพหน้าจอของหุ่นจำลอง 3 มิติที่จัดท่าทางไปยัง Gemini 2.5 Flash Cartwheel ใช้ Flash 2.5 สำหรับขั้นตอนนี้ เนื่องจากความเร็วของ Flash เหมาะสมกับข้อกำหนดด้านเวลาในการตอบสนองต่ำของเครื่องมือครีเอทีฟโฆษณาแบบเรียลไทม์ งานของโมเดลคือการแสดงป้ายกำกับข้อความอย่างง่ายที่อธิบายท่าทาง เช่น "ตัวละครในท่ากระโดด" หรือ "ตัวละครกำลังทำความเคารพ"
การประกอบพรอมต์หลายรูปแบบ จากนั้นระบบจะรวมป้ายกำกับท่าทางที่สร้างด้วย Flash 2.5 นี้เข้ากับพรอมต์ข้อความอธิบายของผู้ใช้โดยอัตโนมัติ (เช่น "หุ่นยนต์ในทุ่งดอกไม้")
การสร้างรูปภาพที่ปรับสภาพ สุดท้าย ระบบจะส่งพรอมต์ข้อความที่รวมกันนี้ไปยังโมเดลรูปภาพที่มีความเที่ยงตรงสูงและตรงกับท่าทาง ซึ่งก็คือ Gemini 2.5 Flash Image พร้อมกับภาพหน้าจอต้นฉบับของท่าทาง 3 มิติ พรอมต์มัลติโมดัลนี้ซึ่งมีทั้งรูปภาพท่าทางและคำอธิบายข้อความโดยละเอียด จะกำหนดเงื่อนไขให้ Gemini 2.5 Flash Image สร้างรูปภาพที่ยึดมั่นในท่าทางและมุมกล้องอย่างเคร่งครัด พร้อมทั้งใช้สไตล์ศิลปะ ตัวละคร และรายละเอียดฉากจากข้อความ

การเชื่อมโยงโมเดลนี้ ซึ่งใช้ 2.5 Flash สำหรับการวิเคราะห์และการติดป้ายกำกับภาพ และใช้ 2.5 Flash Image สำหรับการแสดงผลขั้นสุดท้ายที่มีเงื่อนไข ช่วยให้ Cartwheel นำเสนอเวิร์กโฟลว์ที่ไม่เหมือนใครซึ่งรวมการควบคุมซอฟต์แวร์ 3 มิติที่ใช้งานง่ายเข้ากับพลังสร้างสรรค์ของ Generative AI

ผลลัพธ์: ปลดล็อกความสอดคล้องของตัวละครจากทุกมุมมอง

วิธีนี้มีประสิทธิภาพในการสร้างรูปภาพที่ก่อนหน้านี้สร้างได้ยาก "การแสดงตัวละครจากมุมใดก็ได้ที่ไม่ใช่ด้านหน้าใช้ไม่ได้ในโมเดลอื่นๆ" แอนดรูว์ คาร์ ผู้ร่วมก่อตั้ง Cartwheel กล่าว "ทันทีที่คุณหมุนกล้อง กล้องก็หลุดออกจากกัน"

เนื่องจากโมเดลรูปภาพส่วนใหญ่ได้รับการฝึกด้วยข้อมูลที่มีตัวละครจากด้านหน้าเป็นส่วนใหญ่ จึงสร้างองค์ประกอบที่พบบ่อยน้อยกว่าได้ยาก เช่น ภาพมุมสูงหรือมุมมองจากด้านหลัง การระบุท่าทางเป็นอินพุตภาพโดยตรงช่วยให้เครื่องมือของ Cartwheel หลีกเลี่ยงอคติของข้อมูลการฝึกนี้ได้ ซึ่งช่วยให้ศิลปินสร้างตัวละครที่สอดคล้องกันจากมุมใดก็ได้ที่ต้องการ

เวิร์กโฟลว์นี้จะช่วยเร่งกระบวนการสร้างสรรค์ได้อย่างมาก งานที่ก่อนหน้านี้อาจต้องใช้เวลาหลายชั่วโมงในการป้อนพรอมต์ซ้ำๆ หรือการคอมโพสิตด้วยตนเองโดยศิลปิน 3 มิติ ตอนนี้สามารถทำได้ภายในไม่กี่วินาที

ขั้นตอนถัดไป: จากรูปภาพนิ่งไปจนถึงวิดีโอ Generative

Cartwheel กำลังวางแผนขั้นตอนถัดไปสำหรับเทคโนโลยีนี้อยู่แล้ว ทีมกำลังทดลองผสานรวมคลังท่าทาง 150,000 ท่าที่จัดหมวดหมู่ไว้ล่วงหน้า ซึ่งผู้ใช้สามารถค้นหาและปรับแต่งได้ เพื่อเพิ่มความเร็วเวิร์กโฟลว์ให้เร็วขึ้น

วิสัยทัศน์ระยะยาวคือการขยายไปป์ไลน์จากท่าทางไปจนถึงพิกเซลนี้ให้เป็นการเคลื่อนไหว ท่าทาง 3 มิติและรูปภาพที่เรนเดอร์เดียวกันอาจใช้เป็นเฟรมเริ่มต้นสำหรับโมเดลวิดีโอต่อวิดีโอ เช่น Veo ซึ่งจะช่วยให้ครีเอเตอร์จัดท่าตัวละคร เรนเดอร์ในสไตล์ใดก็ได้ แล้วจึงทำให้เคลื่อนไหวโดยใช้พรอมต์ข้อความ ซึ่งจะสร้างเวิร์กโฟลว์ที่ราบรื่นตั้งแต่การจัดท่า 3 มิติไปจนถึงภาพเคลื่อนไหวสุดท้ายที่มีสไตล์

การสร้างบนโมเดลแบบมัลติโมดัล เช่น โมเดลในตระกูล Gemini ทำให้ Cartwheel แสดงให้เห็นว่านักพัฒนาแอปสามารถสร้างเครื่องมือที่ซับซ้อนซึ่งช่วยให้ศิลปินควบคุมและรักษาความสอดคล้องตามที่ต้องการได้ โดยเปลี่ยน Generative AI จากเครื่องมือที่ขึ้นอยู่กับโชคชะตาไปเป็นเครื่องมือที่ตอบสนองความตั้งใจในการสร้างสรรค์ได้อย่างแม่นยำ

นอกเหนือจากพรอมต์ข้อความ: วิธีที่ Cartwheel สร้างการสร้างโมเดล 3 มิติที่ตรงกับท่าทางด้วย Gemini Flash 2.5

ความท้าทาย: การเชื่อมช่องว่างระหว่างความตั้งใจกับผลลัพธ์

โซลูชัน: ไปป์ไลน์แบบหลายโมเดลสำหรับการสร้างท่าทางที่สมจริง

ผลลัพธ์: ปลดล็อกความสอดคล้องของตัวละครจากทุกมุมมอง

ขั้นตอนถัดไป: จากรูปภาพนิ่งไปจนถึงวิดีโอ Generative

กรณีศึกษาที่เกี่ยวข้อง