สำรวจความสามารถด้านเสียงด้วย Gemini API

Gemini สามารถตอบสนองต่อพรอมต์เกี่ยวกับเสียงได้ ตัวอย่างเช่น Gemini จะทำสิ่งต่อไปนี้ได้

  • อธิบาย สรุป หรือตอบคำถามเกี่ยวกับเนื้อหาเสียง
  • ส่งข้อความถอดเสียง
  • ให้คำตอบหรือข้อความถอดเสียงเกี่ยวกับส่วนใดส่วนหนึ่งของเสียง

คู่มือนี้แสดงวิธีต่างๆ ต่อไปนี้

  • ส่งต่อเสียงไปยังโมเดล Gemini
  • อธิบายโมเดล Gemini เกี่ยวกับเสียง

รูปแบบเสียงที่รองรับ

Gemini รองรับ MIME ประเภทเสียงต่อไปนี้

  • WAV - เสียง/wav
  • MP3 - เสียง/mp3
  • AIFF - เสียง/AIFF
  • AAC - เสียง/aac
  • OGG Vorbis - เสียง/ogg
  • FLAC - เสียง/flac

รายละเอียดทางเทคนิคเกี่ยวกับเสียง

Gemini ตั้งกฎต่อไปนี้เกี่ยวกับเสียง

  • Gemini จะแสดงแต่ละวินาทีของเสียงเป็นโทเค็น 25 รายการ เช่น เสียง 1 นาทีจะแสดงเป็นโทเค็น 1,500 รายการ
  • Gemini อนุมานได้เฉพาะการพูดภาษาอังกฤษเท่านั้น
  • Gemini สามารถ "เข้าใจ" องค์ประกอบที่ไม่ใช่เสียงพูด เช่น เสียงนกหรือไซเรน
  • ความยาวสูงสุดของข้อมูลเสียงที่รองรับในพรอมต์เดียวคือ 9.5 ชั่วโมง Gemini ไม่ได้จำกัดจำนวนไฟล์เสียงในพรอมต์เดียว อย่างไรก็ตาม ความยาวรวมของไฟล์เสียงทั้งหมดในพรอมต์เดียวต้องไม่เกิน 9.5 ชั่วโมง
  • Gemini ลดตัวอย่างไฟล์เสียงเป็นความละเอียดข้อมูล 16 Kbps
  • หากแหล่งที่มาของเสียงมีหลายช่อง Gemini จะรวมช่องเหล่านั้นให้เหลือเพียงช่องเดียว