แชร์

3 พ.ย. 2025

นอกเหนือจากพรอมต์ข้อความ: วิธีที่ Cartwheel สร้างการสร้างโมเดล 3 มิติที่ตรงกับท่าทางโดยใช้ Gemini Flash 2.5

Vishal Dharmadhikari

วิศวกรโซลูชันผลิตภัณฑ์

Jonathan Jarvis

ผู้ร่วมก่อตั้งและ CTO

Andrew Carr

ผู้ร่วมก่อตั้งและหัวหน้านักวิทยาศาสตร์

ฮีโร่ของ Cartwheel Showcase

โมเดล Generative ได้สร้างความเป็นไปได้ใหม่ๆ ให้กับศิลปินและนักออกแบบ อย่างไรก็ตาม สำหรับครีเอเตอร์มืออาชีพ การเปลี่ยนวิสัยทัศน์ด้านครีเอทีฟโฆษณาที่เฉพาะเจาะจงให้เป็นรูปภาพที่สร้างขึ้นยังคงเป็นความท้าทายที่สำคัญ การป้อนข้อความเพียงอย่างเดียวมักให้ความรู้สึกเหมือน "ตู้สล็อต" ซึ่งทำให้ควบคุมท่าทางของตัวละคร มุมกล้อง และองค์ประกอบได้อย่างแม่นยำได้ยาก

Cartwheel ซึ่งเป็นแพลตฟอร์มสำหรับการสร้างเกมและสื่อ 3 มิติที่สร้างขึ้นด้วย AI กำลังแก้ปัญหานี้ด้วยการสร้างโซลูชันใหม่บนโมเดลขั้นสูงของ Google ซึ่งในกรณีนี้คือ Gemini 2.5 Flash Image Nano Banana ฟีเจอร์ "โหมดท่าทาง" ใน Cartwheel Studio ไม่ได้จำกัดอยู่แค่การสร้างรูปภาพจากข้อความธรรมดา แต่ยังรวมถึงการควบคุมแบบ 3 มิติ ซึ่งช่วยให้ครีเอเตอร์ควบคุมผลงานของตนเองได้โดยตรงและทำซ้ำได้

ท่าล้อเกวียน

ความท้าทาย: การเชื่อมช่องว่างระหว่างความตั้งใจกับผลลัพธ์

ความแม่นยำเป็นสิ่งสำคัญในเวิร์กโฟลว์การสร้างสรรค์ระดับมืออาชีพ ศิลปิน ผู้ลงโฆษณา หรือนักออกแบบเกมมักต้องสร้างตัวละครในท่าทางหรือมุมมองที่เฉพาะเจาะจงเพื่อให้เข้ากับสตอรีบอร์ดหรือบรีฟแคมเปญ

"ในระดับสูง เครื่องมือสร้างรูปภาพควบคุมได้ยาก" Jonathan Jarvis ผู้ร่วมก่อตั้ง Cartwheel กล่าว "การทำให้วิสัยทัศน์ที่คุณมีอยู่จริงเป็นจริงนั้นเป็นเรื่องยาก เราต้องการให้คุณเข้าไปปรับแต่งตัวละครได้โดยตรงมาโดยตลอด"

ข้อกำหนดในการจัดการโดยตรงนี้ทำให้ Cartwheel พัฒนาไปป์ไลน์แบบหลายรูปแบบที่ผสานรวมการวางท่า 3 มิติ การแจ้งด้วยข้อความ และโมเดล AI หลายรายการให้ทำงานร่วมกัน

โซลูชัน: ไปป์ไลน์แบบหลายโมเดลสำหรับการสร้างท่าทางที่สมจริง โหมดท่าทางของ Cartwheel จะแสดงหุ่นจำลอง 3 มิติแก่ผู้ใช้แทนที่จะพึ่งพาข้อความเพียงอย่างเดียว ผู้ใช้สามารถคลิกและลากแขนขาของหุ่นโดยตรงเพื่อสร้างท่าทางเฉพาะและปรับกล้องเสมือนให้เป็นมุมใดก็ได้ จากนั้นฉาก 3 มิตินี้จะกลายเป็นอินพุตหลักสำหรับกระบวนการสร้าง

เวิร์กโฟลว์ทางเทคนิคมีดังนี้

  1. การติดป้ายกำกับท่าทางด้วย Gemini 2.5 Flash ก่อนอื่น ระบบจะส่งภาพหน้าจอของหุ่นจำลอง 3 มิติที่จัดท่าทางไปยัง Gemini 2.5 Flash Cartwheel ใช้ Flash 2.5 สำหรับขั้นตอนนี้ เนื่องจากความเร็วของ Flash เหมาะสมกับข้อกำหนดด้านเวลาในการตอบสนองต่ำของเครื่องมือครีเอทีฟโฆษณาแบบเรียลไทม์ งานของโมเดลคือการแสดงป้ายกำกับข้อความอย่างง่ายที่อธิบายท่าทาง เช่น "ตัวละครในท่ากระโดด" หรือ "ตัวละครกำลังทำความเคารพ"
  2. การประกอบพรอมต์หลายรูปแบบ จากนั้นระบบจะรวมป้ายกำกับท่าทางที่สร้างด้วย Flash 2.5 นี้เข้ากับพรอมต์ข้อความอธิบายของผู้ใช้โดยอัตโนมัติ (เช่น "หุ่นยนต์ในทุ่งดอกไม้")
  3. การสร้างรูปภาพที่ปรับสภาพ สุดท้าย ระบบจะส่งพรอมต์ข้อความที่รวมกันนี้ไปยังโมเดลรูปภาพที่มีความเที่ยงตรงสูงและรักษาท่าทางไว้ได้ ซึ่งก็คือ Gemini 2.5 Flash Image พร้อมกับภาพหน้าจอต้นฉบับของท่าทาง 3 มิติ พรอมต์มัลติโมดัลนี้ซึ่งมีทั้งรูปภาพของท่าทางและคำอธิบายข้อความโดยละเอียด จะกำหนดเงื่อนไขให้ Gemini 2.5 Flash Image สร้างรูปภาพที่ยึดมั่นในท่าทางและมุมกล้องอย่างเคร่งครัด พร้อมทั้งใช้สไตล์ศิลปะ ตัวละคร และรายละเอียดฉากจากข้อความ


การเชื่อมโยงโมเดลนี้ ซึ่งใช้ 2.5 Flash สำหรับการวิเคราะห์และการติดป้ายกำกับภาพ และ 2.5 Flash Image สำหรับการแสดงผลขั้นสุดท้ายที่มีการปรับสภาพ ทำให้ Cartwheel สามารถนำเสนอเวิร์กโฟลว์ที่ไม่เหมือนใครซึ่งรวมการควบคุมซอฟต์แวร์ 3 มิติที่ใช้งานง่ายเข้ากับพลังสร้างสรรค์ของ Generative AI ผลลัพธ์: ปลดล็อกความสอดคล้องของตัวละครจากทุกมุม วิธีนี้พิสูจน์แล้วว่ามีประสิทธิภาพในการสร้างรูปภาพที่ก่อนหน้านี้สร้างได้ยาก "การแสดงตัวละครจากมุมใดก็ได้ที่ไม่ใช่ด้านหน้าใช้ไม่ได้ในโมเดลอื่นๆ" แอนดรูว์ คาร์ ผู้ร่วมก่อตั้ง Cartwheel กล่าว "ทันทีที่คุณหมุนกล้อง กล้องก็หลุดออกจากกัน"

เนื่องจากโมเดลรูปภาพส่วนใหญ่ได้รับการฝึกด้วยข้อมูลที่มีตัวละครจากด้านหน้าเป็นส่วนใหญ่ จึงสร้างองค์ประกอบที่พบบ่อยน้อยกว่าได้ยาก เช่น ภาพมุมสูงหรือมุมมองจากด้านหลัง การระบุท่าทางเป็นอินพุตภาพโดยตรงช่วยให้เครื่องมือของ Cartwheel หลีกเลี่ยงอคติของข้อมูลการฝึกนี้ได้ ซึ่งช่วยให้ศิลปินสร้างตัวละครที่สอดคล้องกันจากมุมใดก็ได้ที่ต้องการ

เวิร์กโฟลว์นี้จะช่วยเร่งกระบวนการสร้างสรรค์ได้อย่างมาก งานที่ก่อนหน้านี้อาจต้องใช้เวลาหลายชั่วโมงในการป้อนพรอมต์ซ้ำๆ หรือการคอมโพสิตด้วยตนเองโดยศิลปิน 3 มิติ ตอนนี้สามารถทำได้ภายในไม่กี่วินาที

ขั้นตอนถัดไป: จากรูปภาพนิ่งไปจนถึงวิดีโอ Generative

Cartwheel กำลังวางแผนขั้นตอนถัดไปสำหรับเทคโนโลยีนี้อยู่แล้ว ทีมกำลังทดลองผสานรวมคลังท่าทาง 150,000 ท่าที่จัดหมวดหมู่ไว้ล่วงหน้า ซึ่งผู้ใช้สามารถค้นหาและปรับแต่งได้ เพื่อเพิ่มความเร็วเวิร์กโฟลว์ให้เร็วขึ้น

วิสัยทัศน์ระยะยาวคือการขยายไปป์ไลน์จากท่าทางไปจนถึงพิกเซลนี้ให้เป็นการเคลื่อนไหว ท่าทาง 3 มิติและรูปภาพที่เรนเดอร์เดียวกันอาจใช้เป็นเฟรมเริ่มต้นสำหรับโมเดลวิดีโอต่อวิดีโอ เช่น Veo ซึ่งจะช่วยให้ครีเอเตอร์จัดท่าทางตัวละคร เรนเดอร์ในสไตล์ใดก็ได้ แล้วทำให้เคลื่อนไหวโดยใช้ข้อความพรอมต์ ซึ่งจะสร้างเวิร์กโฟลว์ที่ราบรื่นตั้งแต่การจัดท่าทาง 3 มิติไปจนถึงภาพเคลื่อนไหวสุดท้ายที่มีสไตล์

การสร้างบนโมเดลแบบมัลติโมดัล เช่น โมเดลในตระกูล Gemini ทำให้ Cartwheel แสดงให้เห็นว่านักพัฒนาแอปสามารถสร้างเครื่องมือที่ซับซ้อนซึ่งช่วยให้ศิลปินควบคุมและรักษาความสอดคล้องตามที่ต้องการได้ โดยเปลี่ยน Generative AI จากเครื่องมือที่ใช้เสี่ยงดวงไปเป็นเครื่องมือที่ใช้เพื่อเจตนาสร้างสรรค์ที่แม่นยำ