12 ธ.ค. 2025
Toongether รักษาความสอดคล้องของสไตล์งานศิลปะโดยใช้รูปภาพ Gemini 2.5 Flash
การเติบโตของ Generative AI ได้เปิดพรมแดนใหม่สำหรับการแสดงออกอย่างสร้างสรรค์ ซึ่งช่วยให้นักพัฒนาแอปสร้างเครื่องมือที่เปลี่ยนผู้ใช้ทั่วไปให้กลายเป็นศิลปินได้ อย่างไรก็ตาม สำหรับภาพศิลปะแบบต่อเนื่องอย่างการ์ตูน ความท้าทายไม่ได้อยู่ที่การสร้างภาพเดี่ยวๆ ที่ดีเท่านั้น แต่อยู่ที่การสร้างตัวละคร สไตล์ และเรื่องราวที่สอดคล้องกันในหลายสิบช่อง
Toongether ซึ่งเป็นบริษัทที่อยู่เบื้องหลังแอปเว็บคอมิกกำลังรับมือกับความท้าทายนี้โดยตรง ภารกิจของบริษัทคือการทำให้การเล่าเรื่องด้วยภาพเป็นสิ่งที่ทุกคนเข้าถึงได้ โดยการจัดหาแพลตฟอร์มที่ผู้ใช้ทั่วไปไม่เพียงแค่อ่าน แต่ยังสร้างและแชร์การ์ตูนของตนเองได้โดยตรงจากอุปกรณ์เคลื่อนที่ การผสานรวมรูปภาพ Gemini 2.5 Flash เข้ากับไปป์ไลน์การสร้างสรรค์ช่วยให้ครีเอเตอร์เหล่านี้ช่วยผู้ใช้ข้ามผ่านอุปสรรคทางเทคนิคในการวาดภาพ และเปิดโอกาสให้ชุมชนใหม่ของนักเล่าเรื่องได้ร่วมสร้างสรรค์
สร้างความสม่ำเสมอในวงกว้าง
การสร้างการ์ตูนต้องมีความสอดคล้องกันอย่างเข้มงวด ตัวละครต้องยังคงจดจำได้ในท่าทาง ชุด และสีหน้าต่างๆ ทั้งหมดนี้ต้องเป็นไปตามสไตล์ศิลปะที่เป็นหนึ่งเดียวกัน
ในตอนแรก ทีม toongether ใช้สแต็กที่ซับซ้อนซึ่งเกี่ยวข้องกับโมเดล Stable Diffusion XL ที่ได้รับการปรับแต่งอย่างละเอียดและเสริมประสิทธิภาพด้วยเครื่องมือต่างๆ เช่น ControlNet และ IPAdapters แม้ว่าวิธีนี้จะให้ผลลัพธ์เชิงคุณภาพ แต่ก็มีปัญหาเรื่องเวลาในการตอบสนองและความยืดหยุ่น ซึ่งเป็นอุปสรรคสำคัญสำหรับผู้สร้างแอปบนอุปกรณ์เคลื่อนที่ การสร้างรูปภาพ 1 รูปใช้เวลา 20-30 วินาที ซึ่งช้าเกินไปสำหรับประสบการณ์ของผู้ใช้ที่ราบรื่น นอกจากนี้ การเพิ่มการรองรับท่าทางหรือสไตล์การวาดใหม่ๆ ยังต้องใช้ความพยายามด้านวิศวกรรมอย่างมาก ซึ่งจำกัดความสามารถในการทำซ้ำอย่างรวดเร็ว
การประสานงานไปป์ไลน์ที่ซับซ้อนด้วย Gemini
toongether จึงย้ายข้อมูลไปป์ไลน์การสร้างรูปภาพหลักไปยัง Gemini API เพื่อแก้ไขปัญหาคอขวดเหล่านี้ โดยเลือกใช้ Gemini 2.5 Flash Image หรือที่รู้จักกันในชื่อ "Nano Banana" ซึ่งมีจุดเด่นด้านความเร็วและความคล่องตัว รวมถึงมีความสามารถในการแก้ไขและทำตามคำสั่งที่เหนือกว่า ซึ่งจำเป็นต่อการจัดการงานสร้างที่ซับซ้อนและมีหลายขั้นตอน
การเปลี่ยนผ่านนี้ช่วยเร่งความเร็วในการพัฒนาของทีมอย่างมาก โดยทีมได้ย้ายจากเวอร์ชันต้นแบบไปสู่การใช้งานจริงอย่างเต็มรูปแบบภายในเวลาเพียง 2 สัปดาห์
เพื่อรักษาความสอดคล้องของตัวละครในขณะที่อนุญาตให้ผู้ใช้ปรับแต่งได้ toongether จึงใช้ประโยชน์จากรูปภาพ Gemini 2.5 Flash เพื่อสร้างไปป์ไลน์แบบหลายขั้นตอนที่ซับซ้อน ดังนี้
- การวิเคราะห์สไตล์และการสร้างข้อมูลอ้างอิง: เมื่อผู้ใช้สร้างตัวละครใหม่ แอปจะให้รายการตัวละครอ้างอิงที่คัดสรรแล้วแก่โมเดลเพื่อวิเคราะห์สไตล์ที่ต้องการ โมเดลจะสร้างรูปภาพอ้างอิง "ท่าทางที่เป็นกลาง" สำหรับตัวละครใหม่ที่เป็นผลงานต้นฉบับนี้โดยอิงตามคำอธิบายข้อความง่ายๆ
- Asset Pack และการสร้างท่าทาง: Toongether ใช้ "Asset Pack" ซึ่งเป็นรายการคำอธิบายที่จัดกลุ่มไว้สำหรับท่าทางและกรณีการใช้งานที่ต้องการ เพื่อนำตัวละครนั้นไปใส่ในเรื่องราว การใช้พรอมต์คำสั่งพร้อมกับรูปภาพอ้างอิงที่เป็นกลางจะช่วยให้ผู้ใช้สั่งให้ Gemini 2.5 Flash Image สร้างสถานการณ์ที่เฉพาะเจาะจงได้โดยไม่สูญเสียเอกลักษณ์ด้านภาพของตัวละคร
- องค์ประกอบฉาก: สำหรับพื้นหลังและองค์ประกอบอื่นๆ ทีมจะจัดเตรียมรูปภาพอ้างอิงเพื่ออนุมานรูปแบบอาร์ตที่ถูกต้องเพื่อให้มั่นใจว่าแผงต่างๆ จะสอดคล้องกัน
"การใช้ประโยชน์จากความสามารถในการแก้ไขและคำสั่งขั้นสูงของ Gemini 2.5 Flash Image ทำให้เราสามารถรองรับ Use Case ทั้งหมดของเราได้" Samir Nasser Eddine ผู้ร่วมก่อตั้ง toongether กล่าว "ตอนนี้เป็นส่วนสำคัญของไปป์ไลน์การสร้างรูปภาพของเรา"
อนาคตของ toongether
เมื่อมีองค์ประกอบพื้นฐานแล้ว ทีม Toongether จึงมองหาฟีเจอร์การเล่าเรื่องขั้นสูงที่ก่อนหน้านี้เคยคิดว่าต้องใช้ทรัพยากรมากเกินไป โดยวางแผนที่จะใช้โมเดล Gemini เพื่อรองรับการโต้ตอบที่ซับซ้อนระหว่างตัวละครหลายตัวภายในแผงเดียว และเพื่อนำเสนอสไตล์การวาดที่หลากหลายมากขึ้น
เส้นทางของ toongether แสดงให้เห็นว่า Gemini API ช่วยให้กลุ่มผู้สร้างรุ่นต่อไปก้าวข้ามการจัดการสแต็กโมเดลที่ซับซ้อนไปสู่การสร้างเครื่องมือสร้างสรรค์ที่ซับซ้อนและสอดคล้องกันซึ่งปรับขนาดให้ผู้ใช้ทั่วไปได้
หากต้องการเริ่มสร้างแอปพลิเคชันที่สร้างสรรค์ของคุณเองด้วยโมเดล Gemini โปรดอ่านเอกสารประกอบเกี่ยวกับ API