Gemini สามารถตอบสนองต่อพรอมต์เกี่ยวกับเสียงได้ ตัวอย่างเช่น Gemini จะทำสิ่งต่อไปนี้ได้
- อธิบาย สรุป หรือตอบคำถามเกี่ยวกับเนื้อหาเสียง
- ส่งข้อความถอดเสียง
- ให้คำตอบหรือข้อความถอดเสียงเกี่ยวกับส่วนใดส่วนหนึ่งของเสียง
คู่มือนี้แสดงวิธีต่างๆ ต่อไปนี้
- ส่งต่อเสียงไปยังโมเดล Gemini
- อธิบายโมเดล Gemini เกี่ยวกับเสียง
รูปแบบเสียงที่รองรับ
Gemini รองรับ MIME ประเภทเสียงต่อไปนี้
- WAV - เสียง/wav
- MP3 - เสียง/mp3
- AIFF - เสียง/AIFF
- AAC - เสียง/aac
- OGG Vorbis - เสียง/ogg
- FLAC - เสียง/flac
รายละเอียดทางเทคนิคเกี่ยวกับเสียง
Gemini ตั้งกฎต่อไปนี้เกี่ยวกับเสียง
- Gemini จะแสดงแต่ละวินาทีของเสียงเป็นโทเค็น 25 รายการ ตัวอย่างเช่น เสียง 1 นาทีจะแสดงเป็นโทเค็น 1,500 รายการ
- Gemini อนุมานได้เฉพาะการพูดภาษาอังกฤษเท่านั้น
- Gemini สามารถ "ทำความเข้าใจ" องค์ประกอบที่ไม่ใช่เสียงพูด เช่น เสียงนกหรือไซเรน
- ความยาวสูงสุดของข้อมูลเสียงที่รองรับในพรอมต์เดียวคือ 9.5 ชั่วโมง Gemini ไม่ได้จำกัดจำนวนไฟล์เสียงในพรอมต์เดียว อย่างไรก็ตาม ความยาวรวมของไฟล์เสียงทั้งหมดในพรอมต์เดียวต้องไม่เกิน 9.5 ชั่วโมง
- Gemini ลดตัวอย่างไฟล์เสียงเป็นความละเอียดข้อมูล 16 Kbps
- หากแหล่งที่มาของเสียงมีหลายช่อง Gemini จะรวมช่องเหล่านั้นเข้าด้วยกัน ให้เป็นแบบช่องเดียวได้