7 พฤศจิกายน 2025
HubX ผสานรวมรูปภาพ Gemini 2.5 Flash เพื่อการแก้ไขรูปภาพตามบริบทที่มีเวลาในการตอบสนองต่ำในแอป ReShoot
HubX เป็นศูนย์กลางเทคโนโลยีระดับโลกที่ให้บริการแก่ผู้ใช้กว่า 300 ล้านคนในพอร์ตโฟลิโอแอปพลิเคชันบนอุปกรณ์เคลื่อนที่ เมื่อพัฒนาแอป ReShoot เวอร์ชันล่าสุด พวกเขาตั้งเป้าที่จะทำให้การแก้ไขรูปภาพระดับมืออาชีพเป็นเรื่องง่ายสำหรับทุกคนโดยใช้ Generative AI การใช้ประโยชน์จาก Gemini API ทำให้ทีมมีความเร็วในการพัฒนาที่โดดเด่น โดยใช้เวลาเพียง 2 สัปดาห์ในการนำโปรเจ็กต์ตั้งแต่เริ่มต้นการพัฒนา MVP ไปจนถึงการเปิดตัวใน iOS หลังจากนั้นไม่นาน ReShoot ก็ขึ้นเป็นอันดับ 1 ในหมวดหมู่กราฟิกและการออกแบบของสหรัฐอเมริกาใน App Store
เป้าหมายของแอปคือการอนุญาตให้ผู้ใช้เปลี่ยนฉากหรือสไตล์ของรูปภาพโดยไม่สูญเสียรูปลักษณ์ที่เป็นธรรมชาติและเอกลักษณ์ของวัตถุต้นฉบับ สำหรับนักพัฒนาแอป การส่งมอบการให้เหตุผลที่ซับซ้อนและหลากหลายรูปแบบในระดับนี้ภายในข้อกำหนดด้านการตอบสนองที่รวดเร็วอย่างเข้มงวดของประสบการณ์การใช้งานบนอุปกรณ์เคลื่อนที่ถือเป็นความท้าทายด้านสถาปัตยกรรมที่สำคัญ เพื่อแก้ปัญหานี้ HubX จึงใช้ Gemini API เพื่อสร้างไปป์ไลน์การแก้ไขรูปภาพที่ซับซ้อนซึ่งผสานความเข้าใจตามบริบทที่มีความเที่ยงตรงสูงเข้ากับความเร็วในการอนุมานที่ยอดเยี่ยม
การแก้ไขที่มีความเที่ยงตรงสูงด้วย Nano Banana
HubX ทำงานร่วมกับทีม Google เพื่อผสานรวมรูปภาพ Gemini 2.5 Flash หรือที่เรียกว่า Nano Banana เพื่อสร้างเครื่องมือให้เหตุผลที่อยู่เบื้องหลัง ReShoot
ความท้าทายทางเทคนิคหลักในการสร้างรูปภาพต่อรูปภาพคือการรักษาเอกลักษณ์ของวัตถุในขณะที่ตีความคำขอฉากที่ซับซ้อน Gemini 2.5 Flash Image เป็นโมเดลหลายรูปแบบโดยกำเนิด ซึ่งแตกต่างจากไปป์ไลน์แบบเดิมที่มักต้องเชื่อมโยงโมเดลแยกกันสำหรับการให้เหตุผลด้วยข้อความและการสังเคราะห์รูปภาพ โดยจะประมวลผลพรอมต์ข้อความและอินพุตรูปภาพในขั้นตอนเดียวที่รวมเป็นหนึ่ง
สถาปัตยกรรมนี้ช่วยให้ ReShoot ทำการแก้ไขแบบสนทนา (รูปภาพ + การเปลี่ยนข้อความเป็นรูปภาพ) โดยยึดตามพรอมต์ของผู้ใช้ในระดับสูง ขณะเดียวกันก็ยังคงเอกลักษณ์และบริบทหลักของรูปภาพที่อัปโหลดไว้ เมื่อเทียบกับทางเลือกอื่นๆ ที่ทดสอบแล้ว HubX พบว่าโมเดล Gemini มีความเข้าใจด้านภาพที่เหนือกว่าและความสอดคล้องของมัลติโมดัล
ลดเวลาในการตอบสนองของแอปได้ 40%
แม้ว่าการสร้างที่มีความเที่ยงตรงสูงจะเป็นสิ่งจำเป็น แต่ผู้ใช้อุปกรณ์เคลื่อนที่ก็คาดหวังว่าจะได้รับผลลัพธ์ในเวลาเกือบจะทันที ความไม่ราบรื่นในกระบวนการครีเอทีฟโฆษณาอาจทำให้การมีส่วนร่วมลดลง
การใช้รูปภาพ Gemini 2.5 Flash เป็นมาตรฐานช่วยให้ HubX ลดเวลาในการตอบสนองโดยเฉลี่ยสำหรับการอัปเดตและปรับแต่งรูปภาพได้เกือบ 40% การลดเวลาในการตอบสนองที่สำคัญนี้จะเปลี่ยนประสบการณ์ของผู้ใช้จากสถานะการรอแบบพาสซีฟไปเป็นกระบวนการสร้างสรรค์ที่ลื่นไหล ซึ่งจำเป็นต่อการรักษาผู้ใช้ไว้ในแอปบนอุปกรณ์เคลื่อนที่สำหรับผู้บริโภค
การเพิ่มประสิทธิภาพเวิร์กโฟลว์การพัฒนา
นอกเหนือจากการเพิ่มประสิทธิภาพในทันทีแล้ว การผสานรวม Gemini API ยังช่วยลดความซับซ้อนของสถาปัตยกรรมการพัฒนา HubX ได้อย่างมาก ทีมใช้ Google AI Studio เพื่อสร้างต้นแบบและทดสอบเชนพรอมต์ก่อนที่จะนําไปใช้งานจริงผ่านแพ็กเกจ Node.js ที่กําหนดเองซึ่งเชื่อมต่อกับแบ็กเอนด์ของแอปบนอุปกรณ์เคลื่อนที่
ก่อนที่จะใช้โมเดล Gemini งานที่เกี่ยวข้องกับการตีความข้อมูลหลายรูปแบบมักต้องใช้ตรรกะที่กำหนดเองที่ซับซ้อนหรือการเชื่อมโยงโมเดลที่แตกต่างกัน การนำ Gemini 2.5 Flash Image มาใช้ทำให้ HubX รวมงานเหล่านี้ไว้ในกรอบการสร้างโมเดลที่สอดคล้องกันเพียงกรอบเดียว ซึ่งช่วยลดความซับซ้อนของสถาปัตยกรรมและเพิ่มความเร็วในการอนุมาน
สิ่งที่จะเกิดขึ้นหลังจากนี้
หลังจากผสานรวม Gemini API สำเร็จแล้ว HubX สังเกตเห็นว่าการมีส่วนร่วมของผู้ใช้เพิ่มขึ้น ดังที่เห็นได้จากอัตราการบันทึกและกดถูกใจที่สูงขึ้นในเนื้อหาที่สร้างขึ้น ในอนาคต ทีมวางแผนที่จะพัฒนา ReShoot จากเครื่องมือแบบอเนกประสงค์ให้เป็นแพลตฟอร์มที่ครอบคลุมสำหรับการแต่งภาพอย่างราบรื่นและเป็นธรรมชาติ
การติดตั้งใช้งานของ HubX แสดงให้เห็นว่านักพัฒนาแอปสามารถใช้ประโยชน์จากความเร็วและความสามารถแบบมัลติโมดัลดั้งเดิมของ Gemini API เพื่อสร้างแอปพลิเคชันที่มีประสิทธิภาพสูงและใช้งานง่ายซึ่งตอบสนองความต้องการของผู้ใช้บนอุปกรณ์เคลื่อนที่ได้อย่างไร
หากต้องการเริ่มสร้างด้วยโมเดล Gemini ให้อ่านเอกสารประกอบการสร้างรูปภาพ