Hiện đã có cửa sổ ngữ cảnh Gemini 1.5 Pro 2M, khả năng thực thi mã và Gemma 2. Tìm hiểu thêm

Trang này được dịch bởi Cloud Translation API.

Khám phá các chức năng âm thanh với API Gemini

Gemini có thể trả lời các câu lệnh về âm thanh. Chẳng hạn Gemini có thể:

Hướng dẫn này trình bày nhiều cách để:

Định dạng âm thanh được hỗ trợ

Gemini hỗ trợ các loại MIME định dạng âm thanh sau đây:

Gemini áp dụng các quy tắc sau đối với âm thanh:

Gemini biểu thị mỗi giây âm thanh dưới dạng 25 mã thông báo; ví dụ: một phút âm thanh được biểu thị dưới dạng 1.500 mã thông báo.
Gemini chỉ có thể dự đoán câu trả lời cho lời nói bằng tiếng Anh.
Gemini có thể "hiểu" các thành phần không phải lời nói, chẳng hạn như tiếng chim hót hoặc tiếng còi hú.
Thời lượng tối đa được hỗ trợ của dữ liệu âm thanh trong một câu lệnh là 9,5 giờ. Gemini không giới hạn số lượng tệp âm thanh trong một câu lệnh.Tuy nhiên, tổng thời lượng kết hợp của tất cả tệp âm thanh trong một câu lệnh không được vượt quá 9,5 giờ.
Gemini giảm mẫu các tệp âm thanh xuống độ phân giải dữ liệu 16 Kb/giây.
Nếu nguồn âm thanh chứa nhiều kênh, thì Gemini sẽ kết hợp các kênh đó thành một kênh duy nhất.