Tác nhân là những hệ thống tận dụng các mô hình Gemini, một bộ công cụ và khả năng suy luận để thực hiện các công việc phức tạp, nhiều bước và đạt được các mục tiêu cụ thể. Không giống như một lệnh gọi mô hình duy nhất, tác nhân có thể lập kế hoạch, thực hiện một loạt hành động, tương tác với các hệ thống bên ngoài và tổng hợp thông tin để đáp ứng yêu cầu của người dùng.
Với Gemini API, bạn có thể tạo các tác nhân mạnh mẽ bằng cách sử dụng các tính năng như:
- Các mô hình Gemini: Nền tảng trí tuệ cốt lõi, cung cấp khả năng suy luận và hiểu ngôn ngữ.
- Công cụ: Các chức năng kết nối mô hình với thông tin và hành động trong thế giới thực. Đây có thể là các công cụ tích hợp (như Google Tìm kiếm, Maps, Thực thi mã) hoặc công cụ tuỳ chỉnh.
- Gọi hàm: Cơ chế xác định và kết nối các công cụ và API tuỳ chỉnh của riêng bạn với mô hình Gemini.
- Tư duy: Các tính năng giúp nâng cao khả năng suy luận và lập kế hoạch cho các nhiệm vụ phức tạp của mô hình.
- Bối cảnh dài: Cho phép các tác nhân duy trì trạng thái và thông tin trong các lượt tương tác kéo dài.
Nhân viên hỗ trợ có thể dùng
- Deep Research Agent: Một tác nhân tự động lập kế hoạch, thực hiện và tổng hợp các nhiệm vụ nghiên cứu nhiều bước cho các trường hợp sử dụng như phân tích thị trường, thẩm định và đánh giá tài liệu.
Tạo tác nhân
Các tác nhân sử dụng mô hình và công cụ để hoàn thành các tác vụ nhiều bước. Mặc dù Gemini cung cấp khả năng suy luận ("bộ não") và các công cụ thiết yếu ("bàn tay"), nhưng bạn thường cần một khung điều phối để quản lý bộ nhớ của tác nhân, lập kế hoạch cho các vòng lặp và thực hiện việc kết hợp các công cụ phức tạp.
Để tối đa hoá độ tin cậy trong quy trình làm việc nhiều bước, bạn nên tạo hướng dẫn kiểm soát rõ ràng cách mô hình suy luận và lập kế hoạch. Mặc dù Gemini cung cấp khả năng suy luận chung mạnh mẽ, nhưng các tác nhân phức tạp sẽ hưởng lợi từ những câu lệnh thực thi các hành vi cụ thể như tính kiên trì khi gặp vấn đề, đánh giá rủi ro và lập kế hoạch chủ động.
Hãy xem Quy trình làm việc dựa trên tác nhân để biết các chiến lược thiết kế những câu lệnh này. Sau đây là ví dụ về một chỉ dẫn hệ thống giúp cải thiện hiệu suất trên một số điểm chuẩn dựa trên tác nhân khoảng 5%.
Khung tác nhân
Gemini tích hợp với các khung tác nhân nguồn mở hàng đầu như:
- LangChain / LangGraph: Xây dựng các luồng ứng dụng phức tạp, có trạng thái và hệ thống nhiều tác nhân bằng cách sử dụng cấu trúc đồ thị.
- LlamaIndex: Kết nối các tác nhân Gemini với dữ liệu riêng tư của bạn để có quy trình làm việc nâng cao bằng RAG.
- CrewAI: Điều phối các tác nhân AI tự động, cộng tác và đóng vai.
- Vercel AI SDK: Xây dựng giao diện người dùng và tác nhân dựa trên AI bằng JavaScript/TypeScript.
- Google ADK: Một khung mã nguồn mở để xây dựng và điều phối các tác nhân AI có khả năng tương tác.