แชร์

12 ธ.ค. 2025

Ava: สร้างเวิร์กโฟลว์แบบเอเจนต์ด้วย Gemini 2.5 Flash และ Live API

Joe Alicata

ผู้ร่วมก่อตั้งและ CTO ของ Ava

Vishal Dharmadhikari

วิศวกรโซลูชันสำหรับนักพัฒนาซอฟต์แวร์

รูปภาพหลักของ Ava Showcase

Ava เป็น "ระบบปฏิบัติการสำหรับครอบครัวที่ทำงานด้วยระบบ AI" ซึ่งออกแบบมาเพื่อจัดการด้านลอจิสติกส์ของชีวิตครอบครัวโดยการคาดการณ์ความต้องการและทำให้งานต่างๆ เป็นแบบอัตโนมัติ

ข้อมูลที่ผู้ปกครองจัดการมักไม่มีโครงสร้าง โดยจะมาทางอีเมลของโรงเรียนที่ไม่สอดคล้องกัน ภาพหน้าจอของใบปลิว ไฟล์แนบ PDF เธรดยาวๆ ใน WhatsApp และข้อความเสียง Ava ต้องเข้าใจบริบทและโต้ตอบกับบริการภายนอกได้อย่างราบรื่น

ทีม Ava ได้ใช้สถาปัตยกรรมแบบแบ่งชั้นโดยใช้โมเดล Gemini 2.5 Flash สำหรับขั้นตอนต่างๆ ของไปป์ไลน์แบบเอเจนต์ และใช้ Live API เพื่อมอบอินเทอร์เฟซแบบสนทนาเพื่อจัดการอินพุตที่ไม่มีโครงสร้างและไม่เป็นระเบียบในโลกแห่งความเป็นจริง

โชว์เคสของ Ava

การเพิ่มประสิทธิภาพและประสิทธิผล

คำขอขาเข้าจะพบเราเตอร์ตัวแทนแบบเบาก่อนเพื่อให้ผู้ใช้รู้สึกว่าระบบตอบสนองได้ดี เราเตอร์นี้ทำหน้าที่เป็นระบบการคัดกรอง โดยจัดประเภทลำดับความสำคัญของอินพุต แยกช่องที่สำคัญ (ใคร เมื่อไหร่ ที่ไหน) และตัดสินใจว่าต้องใช้เครื่องมือเฉพาะทางหรือโมเดลถัดไป

Joe Alicata ผู้ร่วมก่อตั้งและ CTO ของ Ava กล่าวว่า "Gemini 2.5 Flash-Lite โดดเด่นในด้านการตรวจสอบที่มีน้ำหนักเบามาก" โดยสามารถจัดการการตรวจหาเจตนาและการสรุปแบบย่อได้ในขณะที่ให้คำตอบภายในเวลาไม่ถึงวินาที

การจัดการการวางแผนและการดำเนินการที่ซับซ้อน

เมื่อระบุความตั้งใจแล้ว งานมักต้องใช้การให้เหตุผลที่ลึกซึ้งยิ่งขึ้น ตัวอย่างเช่น การแยกวิเคราะห์ปฏิทินของโรงเรียน การปรับวันที่ที่ไม่สอดคล้องกันให้เป็นมาตรฐาน และการเสนอเหตุการณ์ที่ถูกต้องต้องอาศัยความเข้าใจที่ลึกซึ้ง Gemini 2.5 Flash ช่วยให้ Ava ทำหน้าที่เป็น "COO ของครัวเรือน" ที่มีความสามารถได้โดยการตอบสนองข้อกำหนดทางเทคนิคที่เข้มงวด ดังนี้

  • ความเข้าใจหลายรูปแบบ: ประมวลผลข้อความ รูปภาพ และเสียงในครั้งเดียว
  • ความแม่นยําที่เพิ่มขึ้นภายใต้ความคลุมเครือ: การตีความการสื่อสารของโรงเรียนที่ไม่สอดคล้องกันอย่างถูกต้อง
  • การเรียกใช้ฟังก์ชันที่เชื่อถือได้: ตรวจสอบว่าการดำเนินการต่างๆ เช่น การเรียกใช้ Gmail และ Calendar API ใช้ข้อมูลที่มีโครงสร้างและเชื่อถือได้


ครอบครัวสามารถจัดการงานในบ้านทั้งหมดผ่านการโต้ตอบด้วยเสียงที่เปิดใช้โดย Live API Alicata กล่าวว่า "เรามีข้อกำหนดที่เข้มงวดเกี่ยวกับเสียงต้นฉบับ" ดังนั้น Ava จึงเป็นเครื่องมือที่เหมาะสมในการนำมาใช้

แนวทางที่รอบคอบในการสร้างระบบการทำงานเป็นตัวแทน

ทีมใช้ Google AI Studio อย่างกว้างขวางในระหว่างการพัฒนาเพื่อวนซ้ำพรอมต์และสคีมาเครื่องมืออย่างรวดเร็ว รวมถึงทดสอบ A/B โมเดลผู้สมัครรับเลือก ซึ่งช่วยลดระยะเวลาจากไอเดียไปสู่การทดสอบจากหลายวันเหลือเพียงไม่กี่ชั่วโมง

ผลลัพธ์แสดงให้เห็นถึงประสิทธิภาพของแนวทางแบบหลายโมเดล โดยพบว่ามีความแม่นยำในการส่งผ่านครั้งแรกสูงขึ้นเมื่อใช้ข้อมูลที่มีสัญญาณรบกวน เช่น เธรดอีเมลและรูปภาพของใบปลิว ในช่วงการทดสอบเวอร์ชันอัลฟ่า ผู้ใช้ Ava 80% เป็นผู้ใช้ที่ใช้งานอยู่รายวัน และมีการอนุมัติและเพิ่มกิจกรรมที่จัดเรียงลำดับความสำคัญแล้วหลายพันรายการลงในปฏิทิน

การใช้โมเดลที่มีประสิทธิภาพสูงสำหรับการอ่านที่รวดเร็วและการจองโมเดลที่ใช้ทรัพยากรมากสำหรับการวิเคราะห์ที่ซับซ้อนทำให้ระบบเอเจนต์ทำงานได้รวดเร็วเหมือนในชีวิตจริง

หากต้องการดูวิธีที่โมเดล Gemini และ Live API ช่วยปรับปรุงเวิร์กโฟลว์ของเอเจนต์ โปรดอ่านเอกสารประกอบ API