Gemini สามารถตอบสนองต่อพรอมต์เกี่ยวกับเสียงได้ ตัวอย่างเช่น Gemini สามารถดำเนินการต่อไปนี้
- อธิบาย สรุป หรือตอบคำถามเกี่ยวกับเนื้อหาเสียง
- ระบุข้อความถอดเสียง
- ระบุคำตอบหรือการถอดเสียงเกี่ยวกับส่วนใดส่วนหนึ่งของเสียง
คู่มือนี้จะแสดงวิธีต่างๆ ในการโต้ตอบกับไฟล์เสียงและเนื้อหาเสียงโดยใช้ Gemini API
รูปแบบเสียงที่รองรับ
Gemini รองรับประเภท MIME ของรูปแบบเสียงต่อไปนี้
- WAV -
audio/wav
- MP3 -
audio/mp3
- AIFF -
audio/aiff
- AAC -
audio/aac
- OGG Vorbis -
audio/ogg
- FLAC -
audio/flac
รายละเอียดทางเทคนิคเกี่ยวกับเสียง
Gemini ใช้กฎต่อไปนี้กับเสียง
- Gemini จะแสดงเสียงแต่ละวินาทีเป็นโทเค็น 25 รายการ เช่น เสียง 1 นาทีจะแสดงเป็นโทเค็น 1,500 รายการ
- Gemini สามารถอนุมานคำตอบสำหรับคำพูดภาษาอังกฤษเท่านั้น
- Gemini สามารถ "เข้าใจ" องค์ประกอบที่ไม่ใช่คำพูด เช่น เสียงนกร้องหรือเสียงไซเรน
- ความยาวสูงสุดที่รองรับของข้อมูลเสียงในพรอมต์เดียวคือ 9.5 ชั่วโมง Gemini ไม่จำกัดจำนวนไฟล์เสียงในพรอมต์เดียว แต่ความยาวรวมของไฟล์เสียงทั้งหมดในพรอมต์เดียวต้องไม่เกิน 9.5 ชั่วโมง
- Gemini จะลดขนาดไฟล์เสียงเป็นความละเอียดข้อมูล 16 Kbps
- หากแหล่งที่มาของเสียงมีหลายช่อง Gemini จะรวมช่องเหล่านั้นเป็นช่องเดียว
ขั้นตอนถัดไป
คู่มือนี้จะแสดงวิธีอัปโหลดไฟล์เสียงโดยใช้ File API จากนั้นสร้างเอาต์พุตข้อความจากอินพุตเสียง ดูข้อมูลเพิ่มเติมได้ที่แหล่งข้อมูลต่อไปนี้
- กลยุทธ์การแจ้งไฟล์: Gemini API รองรับการแจ้งด้วยข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกว่าการแจ้งแบบหลายรูปแบบ
- คำสั่งของระบบ: คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง
- คำแนะนำด้านความปลอดภัย: บางครั้งโมเดล Generative AI จะสร้างเอาต์พุตที่ไม่คาดคิด เช่น เอาต์พุตที่ไม่ถูกต้อง มีอคติ หรือไม่เหมาะสม ขั้นตอนหลังการประมวลผลและการประเมินจากเจ้าหน้าที่เป็นสิ่งจําเป็นในการจำกัดความเสี่ยงของอันตรายจากเอาต์พุตดังกล่าว