Multimodal Live API

API Trực tiếp đa phương thức cho phép tương tác hai chiều, có độ trễ thấp bằng cách sử dụng dữ liệu đầu vào là văn bản, âm thanh và video, với dữ liệu đầu ra là âm thanh và văn bản. Điều này tạo điều kiện cho các cuộc trò chuyện bằng giọng nói tự nhiên, giống như con người, với khả năng gián đoạn mô hình bất cứ lúc nào. Khả năng hiểu video của mô hình mở rộng các phương thức giao tiếp, cho phép bạn chia sẻ dữ liệu đầu vào của máy ảnh hoặc bản ghi màn hình và đặt câu hỏi về các dữ liệu đó.

API Trực tiếp đa phương thức bao gồm các chức năng chính sau:

  • Nhiều phương thức: Mô hình có thể nhìn, nghe và nói.
  • Tương tác theo thời gian thực có độ trễ thấp: Mô hình có thể cung cấp phản hồi nhanh.
  • Bộ nhớ phiên: Mô hình giữ lại bộ nhớ của tất cả các lượt tương tác trong một phiên, gợi nhắc thông tin đã nghe hoặc nhìn thấy trước đó.
  • Hỗ trợ gọi hàm, thực thi mã và Tìm kiếm dưới dạng công cụ: Bạn có thể tích hợp mô hình này với các dịch vụ và nguồn dữ liệu bên ngoài.

API trực tiếp đa phương thức được thiết kế để giao tiếp giữa các máy chủ.

Đối với ứng dụng web và ứng dụng di động, bạn nên sử dụng tính năng tích hợp của các đối tác của chúng tôi tại Daily.

Hướng dẫn tích hợp

Phiên

Một phiên đại diện cho một kết nối WebSocket duy nhất giữa ứng dụng và máy chủ Gemini.

Sau khi ứng dụng khởi tạo một kết nối mới, phiên có thể trao đổi thông báo với máy chủ để:

  • Gửi văn bản, âm thanh hoặc video đến máy chủ Gemini.
  • Nhận phản hồi âm thanh, văn bản hoặc lệnh gọi hàm từ máy chủ Gemini.

Cấu hình phiên được gửi trong thông báo đầu tiên sau khi kết nối. Cấu hình phiên bao gồm mô hình, thông số tạo, hướng dẫn hệ thống và các công cụ.

Hãy xem cấu hình mẫu sau:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

Để biết thêm thông tin, hãy xem BidiGenerateContentSetup.

Gửi tin nhắn

Thông báo là các chuỗi có định dạng JSON được trao đổi qua kết nối WebSocket.

Để gửi thông báo, ứng dụng phải gửi thông báo ứng dụng được hỗ trợ ở dạng chuỗi được định dạng JSON qua một trong các kết nối WebSocket đang mở.

Xem thêm

  • Để biết thêm thông tin về các trường API thường dùng (ví dụ:ContentTool), hãy xem phần Tạo nội dung.
  • Tìm hiểu thêm về việc gọi hàm.