Khám phá các chức năng âm thanh với API Gemini

Gemini có thể phản hồi các câu lệnh về âm thanh. Ví dụ: Gemini có thể:

  • Mô tả, tóm tắt hoặc trả lời câu hỏi về nội dung âm thanh.
  • Cung cấp bản chép lời của bản âm thanh.
  • Cung cấp câu trả lời hoặc bản chép lời về một đoạn âm thanh cụ thể.

Hướng dẫn này trình bày các cách tương tác với tệp âm thanh và nội dung âm thanh bằng Gemini API.

Định dạng âm thanh được hỗ trợ

Gemini hỗ trợ các loại MIME định dạng âm thanh sau:

  • WAV – audio/wav
  • MP3 – audio/mp3
  • AIFF – audio/aiff
  • AAC – audio/aac
  • OGG Vorbis – audio/ogg
  • FLAC – audio/flac

Thông tin chi tiết về kỹ thuật âm thanh

Gemini áp dụng các quy tắc sau đây đối với âm thanh:

  • Gemini biểu thị mỗi giây âm thanh bằng 25 mã thông báo; ví dụ: một phút âm thanh được biểu thị bằng 1.500 mã thông báo.
  • Gemini chỉ có thể suy luận câu trả lời cho lời nói bằng tiếng Anh.
  • Gemini có thể "hiểu" các thành phần không phải lời nói, chẳng hạn như tiếng chim hót hoặc tiếng còi.
  • Thời lượng tối đa được hỗ trợ của dữ liệu âm thanh trong một câu lệnh là 9,5 giờ. Gemini không giới hạn số lượng tệp âm thanh trong một câu lệnh; tuy nhiên, tổng thời lượng của tất cả tệp âm thanh trong một câu lệnh không được vượt quá 9,5 giờ.
  • Gemini giảm mẫu các tệp âm thanh xuống độ phân giải dữ liệu 16 Kb/giây.
  • Nếu nguồn âm thanh chứa nhiều kênh, Gemini sẽ kết hợp các kênh đó thành một kênh duy nhất.

Bước tiếp theo

Hướng dẫn này cho biết cách tải tệp âm thanh lên bằng File API, sau đó tạo đầu ra văn bản từ đầu vào âm thanh. Để tìm hiểu thêm, hãy xem các tài nguyên sau:

  • Chiến lược nhắc tệp: Gemini API hỗ trợ nhắc bằng dữ liệu văn bản, hình ảnh, âm thanh và video, còn gọi là nhắc đa phương thức.
  • Hướng dẫn hệ thống: Hướng dẫn hệ thống cho phép bạn điều hướng hành vi của mô hình dựa trên các nhu cầu và trường hợp sử dụng cụ thể.
  • Hướng dẫn an toàn: Đôi khi, các mô hình AI tạo sinh tạo ra kết quả không mong muốn, chẳng hạn như kết quả không chính xác, thiên vị hoặc phản cảm. Quy trình xử lý hậu kỳ và đánh giá của con người là điều cần thiết để hạn chế rủi ro gây hại từ những kết quả như vậy.