Chia sẻ

Ngày 12 tháng 12 năm 2025

Ava: Xây dựng quy trình công việc dựa trên tác nhân bằng Gemini 2.5 Flash và Live API

Joe Alicata

Nhà đồng sáng lập kiêm Giám đốc công nghệ của Ava

Vishal Dharmadhikari

Kỹ sư giải pháp cho nhà phát triển

Ảnh chính giới thiệu Ava

Ava là một "hệ điều hành gia đình dựa trên AI" được thiết kế để quản lý các hoạt động hậu cần trong cuộc sống gia đình bằng cách dự đoán nhu cầu và tự động hoá các công việc.

Thông tin mà cha mẹ quản lý hiếm khi có cấu trúc; thông tin đến từ email không nhất quán của trường học, ảnh chụp màn hình tờ rơi, tệp PDF đính kèm, chuỗi tin nhắn dài trên WhatsApp và ghi chú thoại. Ava phải hiểu được bối cảnh và tương tác liền mạch với các dịch vụ bên ngoài.

Để xử lý các dữ liệu đầu vào lộn xộn, không có cấu trúc của thế giới thực, nhóm Ava đã triển khai một cấu trúc phân cấp bằng cách sử dụng các mô hình Gemini 2.5 Flash cho các giai đoạn khác nhau trong quy trình dựa trên tác nhân của họ và Live API để cung cấp một giao diện đàm thoại.

Quảng cáo trưng bày Ava

Tối ưu hoá hiệu suất và hiệu quả

Các yêu cầu đến trước tiên sẽ gặp một bộ định tuyến tác nhân đơn giản để mang lại trải nghiệm phản hồi cho người dùng. Bộ định tuyến này đóng vai trò là hệ thống phân loại, phân loại mức độ ưu tiên của dữ liệu đầu vào, trích xuất các vị trí chính (ai, khi nào, ở đâu) và quyết định công cụ chuyên dụng hoặc mô hình tiếp theo nào là cần thiết.

Theo Joe Alicata, đồng sáng lập và Giám đốc công nghệ của Ava, "Gemini 2.5 Flash-Lite nổi bật với các hoạt động kiểm tra siêu nhẹ", xử lý việc phát hiện ý định và tóm tắt nội dung ngắn trong khi đưa ra câu trả lời trong vòng chưa đầy một giây.

Xử lý việc lập kế hoạch và thực thi phức tạp

Sau khi xác định được ý định, các tác vụ thường đòi hỏi khả năng suy luận sâu hơn. Ví dụ: việc phân tích lịch trường học, chuẩn hoá ngày không nhất quán và đề xuất sự kiện phù hợp đòi hỏi phải có kiến thức chuyên sâu. Gemini 2.5 Flash giúp Ava trở thành một "giám đốc vận hành hộ gia đình" có năng lực bằng cách đáp ứng các yêu cầu kỹ thuật khắt khe:

  • Hiểu biết đa phương thức: Xử lý văn bản, hình ảnh và âm thanh trong một lần
  • Tăng độ chính xác trong trường hợp có thông tin mơ hồ: Diễn giải chính xác thông tin liên lạc không nhất quán của trường học
  • Gọi hàm đáng tin cậy: Đảm bảo rằng các hành động, chẳng hạn như gọi Gmail và Calendar API, sử dụng dữ liệu có cấu trúc và đáng tin cậy


Các gia đình có thể quản lý hoàn toàn các việc nhà thông qua hoạt động tương tác bằng giọng nói nhờ Live API. Alicata lưu ý rằng họ có "yêu cầu khắt khe về âm thanh gốc", vì vậy Ava là một công cụ tự nhiên để tận dụng.

Một phương pháp hoàn chỉnh để xây dựng các hệ thống tác nhân

Nhóm đã sử dụng Google AI Studio một cách rộng rãi trong quá trình phát triển để nhanh chóng lặp lại các câu lệnh và lược đồ công cụ, cũng như thử nghiệm A/B các mô hình đề xuất, rút ngắn vòng lặp từ ý tưởng đến kiểm thử từ vài ngày xuống còn vài giờ.

Kết quả cho thấy tính hiệu quả của phương pháp sử dụng nhiều mô hình. Họ nhận thấy độ chính xác ở lần đầu tiên cao hơn đối với các dữ liệu đầu vào có nhiều nhiễu như chuỗi email và ảnh tờ rơi. Trong giai đoạn alpha, 80% người dùng Ava là người dùng hoạt động hằng ngày và hàng nghìn sự kiện được phân loại đã được phê duyệt và thêm vào lịch.

Bằng cách sử dụng các mô hình có hiệu suất cao để đọc nhanh và dành riêng các mô hình sử dụng nhiều tài nguyên hơn cho việc phân tích phức tạp, các hệ thống dựa trên tác nhân có thể hoạt động với tốc độ của đời thực.

Để khám phá cách các mô hình Gemini và Live API có thể tinh giản quy trình công việc dựa trên tác nhân, hãy xem tài liệu về API của chúng tôi.