Sử dụng các công cụ với Gemini API

Các công cụ mở rộng khả năng của các mô hình Gemini, cho phép các mô hình này hành động trong thế giới thực, truy cập thông tin theo thời gian thực và thực hiện các tác vụ tính toán phức tạp. Các mô hình có thể sử dụng công cụ trong cả hoạt động tương tác yêu cầu-phản hồi tiêu chuẩn và phiên phát trực tiếp theo thời gian thực thông qua Live API.

Gemini API cung cấp một bộ công cụ tích hợp, được quản lý hoàn toàn và tối ưu hoá cho các mô hình Gemini, hoặc bạn có thể xác định các công cụ tuỳ chỉnh bằng cách sử dụng tính năng Gọi hàm.

Các công cụ tích hợp sẵn có

Công cụ Mô tả Trường hợp sử dụng
Google Tìm kiếm Dựa vào các sự kiện và dữ kiện hiện tại trên web để giảm hiện tượng ảo giác. – Trả lời câu hỏi về các sự kiện gần đây
– Xác minh thông tin thực tế bằng nhiều nguồn
Google Maps Xây dựng trợ lý nhận biết vị trí có thể tìm địa điểm, chỉ đường và cung cấp bối cảnh địa phương phong phú. – Lập kế hoạch hành trình du lịch có nhiều điểm dừng
– Tìm doanh nghiệp địa phương dựa trên tiêu chí của người dùng
Thực thi mã Cho phép mô hình viết và chạy mã Python để giải các bài toán hoặc xử lý dữ liệu một cách chính xác. – Giải các phương trình toán học phức tạp
– Xử lý và phân tích dữ liệu văn bản một cách chính xác
Bối cảnh URL Chỉ đạo mô hình đọc và phân tích nội dung từ các trang web hoặc tài liệu cụ thể. – Trả lời câu hỏi dựa trên các URL hoặc tài liệu cụ thể
– Truy xuất thông tin trên nhiều trang web
Mức sử dụng máy tính (Bản xem trước) Cho phép Gemini xem màn hình và tạo các hành động để tương tác với giao diện người dùng của trình duyệt web (Thực thi phía máy khách). – Tự động hoá các quy trình làm việc lặp đi lặp lại trên web
– Kiểm thử giao diện người dùng của ứng dụng web
Tìm kiếm tệp Lập chỉ mục và tìm kiếm tài liệu của riêng bạn để bật tính năng Tạo thông tin tăng cường (RAG). – Tìm kiếm hướng dẫn kỹ thuật
– Trả lời câu hỏi về dữ liệu độc quyền

Hãy xem trang Định giá để biết thông tin chi tiết về chi phí liên quan đến các công cụ cụ thể.

Cách thực thi công cụ

Các công cụ cho phép mô hình yêu cầu thực hiện hành động trong cuộc trò chuyện. Quy trình này sẽ khác nhau tuỳ thuộc vào việc công cụ đó là công cụ tích hợp (do Google quản lý) hay công cụ tuỳ chỉnh (do bạn quản lý).

Luồng công cụ tích hợp

Đối với các công cụ tích hợp như Google Tìm kiếm hoặc Thực thi mã, toàn bộ quy trình diễn ra trong một lệnh gọi API:

  1. Bạn gửi câu lệnh: "Căn bậc hai của giá cổ phiếu mới nhất của GOOG là bao nhiêu?"
  2. Gemini quyết định cần dùng các công cụ và thực thi các công cụ đó trên máy chủ của Google (ví dụ: tìm kiếm giá cổ phiếu, sau đó chạy mã Python để tính căn bậc hai).
  3. Gemini gửi lại câu trả lời cuối cùng dựa trên kết quả của công cụ.

Luồng công cụ tuỳ chỉnh (Gọi hàm)

Đối với các công cụ tuỳ chỉnh và việc Sử dụng máy tính, ứng dụng của bạn sẽ xử lý việc thực thi:

  1. Bạn gửi một câu lệnh cùng với các khai báo hàm (công cụ).
  2. Gemini có thể gửi lại một JSON có cấu trúc để gọi một hàm cụ thể (ví dụ: {"name": "get_order_status", "args": {"order_id": "123"}}).
  3. Bạn thực thi hàm trong ứng dụng hoặc môi trường của mình.
  4. Bạn gửi kết quả của hàm trở lại Gemini.
  5. Gemini sử dụng kết quả để tạo câu trả lời cuối cùng hoặc một lệnh gọi công cụ khác.

Tìm hiểu thêm trong Hướng dẫn gọi hàm.

Kết quả có cấu trúc so với lệnh gọi hàm

Gemini cung cấp 2 phương thức để tạo đầu ra có cấu trúc. Sử dụng Gọi hàm khi mô hình cần thực hiện một bước trung gian bằng cách kết nối với các công cụ hoặc hệ thống dữ liệu của riêng bạn. Sử dụng Đầu ra có cấu trúc khi bạn thực sự cần phản hồi cuối cùng của mô hình tuân thủ một lược đồ cụ thể, chẳng hạn như để hiển thị giao diện người dùng tuỳ chỉnh.

Tác nhân xây dựng

Các tác nhân là những hệ thống sử dụng các mô hình và công cụ để hoàn thành các nhiệm vụ nhiều bước. Mặc dù Gemini cung cấp khả năng suy luận ("bộ não") và các công cụ thiết yếu ("bàn tay"), nhưng bạn thường cần một khung điều phối để quản lý bộ nhớ của tác nhân, các vòng lặp kế hoạch và thực hiện việc kết hợp các công cụ phức tạp.

Gemini tích hợp với các khung tác nhân nguồn mở hàng đầu:

  • LangChain / LangGraph: Xây dựng các quy trình ứng dụng phức tạp, có trạng thái và hệ thống nhiều tác nhân bằng cách sử dụng cấu trúc đồ thị.
  • LlamaIndex: Kết nối các tác nhân Gemini với dữ liệu riêng tư của bạn để có quy trình làm việc nâng cao bằng RAG.
  • CrewAI: Điều phối các tác nhân AI tự động, cộng tác và nhập vai.
  • Vercel AI SDK: Tạo giao diện người dùng và tác nhân dựa trên AI bằng JavaScript/TypeScript.
  • Google ADK: Một khung nguồn mở để xây dựng và điều phối các tác nhân AI có khả năng tương tác.