Khám phá các chức năng âm thanh với API Gemini

Gemini có thể trả lời các câu lệnh về âm thanh. Chẳng hạn Gemini có thể:

  • Mô tả, tóm tắt hoặc trả lời các câu hỏi về nội dung âm thanh.
  • Cung cấp bản chép lời của âm thanh.
  • Cung cấp câu trả lời hoặc bản chép lời về một đoạn cụ thể của bản âm thanh.

Hướng dẫn này trình bày nhiều cách để:

  • Truyền âm thanh sang mẫu Gemini.
  • Hỏi mô hình Gemini về âm thanh này.

Định dạng âm thanh được hỗ trợ

Gemini hỗ trợ các loại MIME định dạng âm thanh sau đây:

  • WAV – âm thanh/wav
  • MP3 - âm thanh/mp3
  • AIFF – âm thanh/aiff
  • AAC – âm thanh/aac
  • OGG Vorbis – âm thanh/ogg
  • FLAC – âm thanh/flac

Thông tin kỹ thuật chi tiết về âm thanh

Gemini áp dụng các quy tắc sau đối với âm thanh:

  • Gemini biểu thị mỗi giây âm thanh dưới dạng 25 mã thông báo; ví dụ: một phút âm thanh được biểu thị dưới dạng 1.500 mã thông báo.
  • Gemini chỉ có thể dự đoán câu trả lời cho lời nói bằng tiếng Anh.
  • Gemini có thể "hiểu" các thành phần không phải lời nói, chẳng hạn như tiếng chim hót hoặc tiếng còi hú.
  • Thời lượng tối đa được hỗ trợ của dữ liệu âm thanh trong một câu lệnh là 9,5 giờ. Gemini không giới hạn số lượng tệp âm thanh trong một câu lệnh.Tuy nhiên, tổng thời lượng kết hợp của tất cả tệp âm thanh trong một câu lệnh không được vượt quá 9,5 giờ.
  • Gemini giảm mẫu các tệp âm thanh xuống độ phân giải dữ liệu 16 Kb/giây.
  • Nếu nguồn âm thanh chứa nhiều kênh, thì Gemini sẽ kết hợp các kênh đó thành một kênh duy nhất.