สำรวจความสามารถด้านเสียงด้วย Gemini API

Gemini สามารถตอบสนองต่อพรอมต์เกี่ยวกับเสียงได้ ตัวอย่างเช่น Gemini สามารถดำเนินการต่อไปนี้

  • อธิบาย สรุป หรือตอบคำถามเกี่ยวกับเนื้อหาเสียง
  • ระบุข้อความถอดเสียง
  • ระบุคำตอบหรือการถอดเสียงเกี่ยวกับส่วนใดส่วนหนึ่งของเสียง

คู่มือนี้จะแสดงวิธีต่างๆ ในการโต้ตอบกับไฟล์เสียงและเนื้อหาเสียงโดยใช้ Gemini API

รูปแบบเสียงที่รองรับ

Gemini รองรับประเภท MIME ของรูปแบบเสียงต่อไปนี้

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

รายละเอียดทางเทคนิคเกี่ยวกับเสียง

Gemini ใช้กฎต่อไปนี้กับเสียง

  • Gemini จะแสดงเสียงแต่ละวินาทีเป็นโทเค็น 25 รายการ เช่น เสียง 1 นาทีจะแสดงเป็นโทเค็น 1,500 รายการ
  • Gemini สามารถอนุมานคำตอบสำหรับคำพูดภาษาอังกฤษเท่านั้น
  • Gemini สามารถ "เข้าใจ" องค์ประกอบที่ไม่ใช่คำพูด เช่น เสียงนกร้องหรือเสียงไซเรน
  • ความยาวสูงสุดที่รองรับของข้อมูลเสียงในพรอมต์เดียวคือ 9.5 ชั่วโมง Gemini ไม่จำกัดจำนวนไฟล์เสียงในพรอมต์เดียว แต่ความยาวรวมของไฟล์เสียงทั้งหมดในพรอมต์เดียวต้องไม่เกิน 9.5 ชั่วโมง
  • Gemini จะลดขนาดไฟล์เสียงเป็นความละเอียดข้อมูล 16 Kbps
  • หากแหล่งที่มาของเสียงมีหลายช่อง Gemini จะรวมช่องเหล่านั้นเป็นช่องเดียว

ขั้นตอนถัดไป

คู่มือนี้จะแสดงวิธีอัปโหลดไฟล์เสียงโดยใช้ File API จากนั้นสร้างเอาต์พุตข้อความจากอินพุตเสียง ดูข้อมูลเพิ่มเติมได้ที่แหล่งข้อมูลต่อไปนี้

  • กลยุทธ์การแจ้งไฟล์: Gemini API รองรับการแจ้งด้วยข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกว่าการแจ้งแบบหลายรูปแบบ
  • คำสั่งของระบบ: คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง
  • คำแนะนำด้านความปลอดภัย: บางครั้งโมเดล Generative AI จะสร้างเอาต์พุตที่ไม่คาดคิด เช่น เอาต์พุตที่ไม่ถูกต้อง มีอคติ หรือไม่เหมาะสม ขั้นตอนหลังการประมวลผลและการประเมินจากเจ้าหน้าที่เป็นสิ่งจําเป็นในการจำกัดความเสี่ยงของอันตรายจากเอาต์พุตดังกล่าว