12 ธ.ค. 2025
Ava: สร้างเวิร์กโฟลว์แบบเอเจนต์ด้วย Gemini 2.5 Flash และ Live API
Ava เป็น "ระบบปฏิบัติการสำหรับครอบครัวที่ทำงานด้วยระบบ AI" ซึ่งออกแบบมาเพื่อจัดการด้านลอจิสติกส์ของชีวิตครอบครัวโดยการคาดการณ์ความต้องการและทำให้งานต่างๆ เป็นแบบอัตโนมัติ
ข้อมูลที่ผู้ปกครองจัดการมักไม่มีโครงสร้าง โดยจะมาทางอีเมลของโรงเรียนที่ไม่สอดคล้องกัน ภาพหน้าจอของใบปลิว ไฟล์แนบ PDF เธรดยาวๆ ใน WhatsApp และข้อความเสียง Ava ต้องเข้าใจบริบทและโต้ตอบกับบริการภายนอกได้อย่างราบรื่น
ทีม Ava ได้ใช้สถาปัตยกรรมแบบแบ่งชั้นโดยใช้โมเดล Gemini 2.5 Flash สำหรับขั้นตอนต่างๆ ของไปป์ไลน์แบบเอเจนต์ และใช้ Live API เพื่อมอบอินเทอร์เฟซแบบสนทนาเพื่อจัดการอินพุตที่ไม่มีโครงสร้างและไม่เป็นระเบียบในโลกแห่งความเป็นจริง
การเพิ่มประสิทธิภาพและประสิทธิผล
คำขอขาเข้าจะพบเราเตอร์ตัวแทนแบบเบาก่อนเพื่อให้ผู้ใช้รู้สึกว่าระบบตอบสนองได้ดี เราเตอร์นี้ทำหน้าที่เป็นระบบการคัดกรอง โดยจัดประเภทลำดับความสำคัญของอินพุต แยกช่องที่สำคัญ (ใคร เมื่อไหร่ ที่ไหน) และตัดสินใจว่าต้องใช้เครื่องมือเฉพาะทางหรือโมเดลถัดไป
Joe Alicata ผู้ร่วมก่อตั้งและ CTO ของ Ava กล่าวว่า "Gemini 2.5 Flash-Lite โดดเด่นในด้านการตรวจสอบที่มีน้ำหนักเบามาก" โดยสามารถจัดการการตรวจหาเจตนาและการสรุปแบบย่อได้ในขณะที่ให้คำตอบภายในเวลาไม่ถึงวินาที
การจัดการการวางแผนและการดำเนินการที่ซับซ้อน
เมื่อระบุความตั้งใจแล้ว งานมักต้องใช้การให้เหตุผลที่ลึกซึ้งยิ่งขึ้น ตัวอย่างเช่น การแยกวิเคราะห์ปฏิทินของโรงเรียน การปรับวันที่ที่ไม่สอดคล้องกันให้เป็นมาตรฐาน และการเสนอเหตุการณ์ที่ถูกต้องต้องอาศัยความเข้าใจที่ลึกซึ้ง Gemini 2.5 Flash ช่วยให้ Ava ทำหน้าที่เป็น "COO ของครัวเรือน" ที่มีความสามารถได้โดยการตอบสนองข้อกำหนดทางเทคนิคที่เข้มงวด ดังนี้
- ความเข้าใจหลายรูปแบบ: ประมวลผลข้อความ รูปภาพ และเสียงในครั้งเดียว
- ความแม่นยําที่เพิ่มขึ้นภายใต้ความคลุมเครือ: การตีความการสื่อสารของโรงเรียนที่ไม่สอดคล้องกันอย่างถูกต้อง
- การเรียกใช้ฟังก์ชันที่เชื่อถือได้: ตรวจสอบว่าการดำเนินการต่างๆ เช่น การเรียกใช้ Gmail และ Calendar API ใช้ข้อมูลที่มีโครงสร้างและเชื่อถือได้
ครอบครัวสามารถจัดการงานในบ้านทั้งหมดผ่านการโต้ตอบด้วยเสียงที่เปิดใช้โดย Live API Alicata กล่าวว่า "เรามีข้อกำหนดที่เข้มงวดเกี่ยวกับเสียงต้นฉบับ" ดังนั้น Ava จึงเป็นเครื่องมือที่เหมาะสมในการนำมาใช้
แนวทางที่รอบคอบในการสร้างระบบการทำงานเป็นตัวแทน
ทีมใช้ Google AI Studio อย่างกว้างขวางในระหว่างการพัฒนาเพื่อวนซ้ำพรอมต์และสคีมาเครื่องมืออย่างรวดเร็ว รวมถึงทดสอบ A/B โมเดลผู้สมัครรับเลือก ซึ่งช่วยลดระยะเวลาจากไอเดียไปสู่การทดสอบจากหลายวันเหลือเพียงไม่กี่ชั่วโมง
ผลลัพธ์แสดงให้เห็นถึงประสิทธิภาพของแนวทางแบบหลายโมเดล โดยพบว่ามีความแม่นยำในการส่งผ่านครั้งแรกสูงขึ้นเมื่อใช้ข้อมูลที่มีสัญญาณรบกวน เช่น เธรดอีเมลและรูปภาพของใบปลิว ในช่วงการทดสอบเวอร์ชันอัลฟ่า ผู้ใช้ Ava 80% เป็นผู้ใช้ที่ใช้งานอยู่รายวัน และมีการอนุมัติและเพิ่มกิจกรรมที่จัดเรียงลำดับความสำคัญแล้วหลายพันรายการลงในปฏิทิน
การใช้โมเดลที่มีประสิทธิภาพสูงสำหรับการอ่านที่รวดเร็วและการจองโมเดลที่ใช้ทรัพยากรมากสำหรับการวิเคราะห์ที่ซับซ้อนทำให้ระบบเอเจนต์ทำงานได้รวดเร็วเหมือนในชีวิตจริง
หากต้องการดูวิธีที่โมเดล Gemini และ Live API ช่วยปรับปรุงเวิร์กโฟลว์ของเอเจนต์ โปรดอ่านเอกสารประกอบ API