สำรวจความสามารถในการมองเห็นด้วย Gemini API

Gemini API สามารถประมวลผลรูปภาพและวิดีโอได้ ซึ่งเปิดโอกาสให้นักพัฒนาแอปมีกรณีการใช้งานที่น่าสนใจมากมาย ความสามารถบางอย่างของภาพจาก Gemini ได้แก่ ความสามารถในการดำเนินการต่อไปนี้

  • ใส่คำบรรยายและตอบคำถามเกี่ยวกับรูปภาพ
  • ถอดเสียงและหาเหตุผลใน PDF รวมถึงเอกสารที่มีความยาวสูงสุด 2 ล้านหน้าต่างบริบทของโทเค็น
  • อธิบาย แบ่งกลุ่ม และดึงข้อมูลจากวิดีโอ ซึ่งรวมถึงทั้งเฟรมภาพและเสียงที่มีความยาวได้สูงสุด 90 นาที
  • ตรวจหาวัตถุในรูปภาพและแสดงพิกัดของกรอบล้อมรอบ

บทแนะนำนี้จะแสดงวิธีต่างๆ ที่เป็นไปได้ในการส่งพรอมต์ไปยัง Gemini API ด้วยอินพุตรูปภาพและวิดีโอ รวมถึงแสดงตัวอย่างโค้ดและแนวทางปฏิบัติแนะนำในการส่งพรอมต์ด้วยความสามารถด้านการมองเห็นแบบหลายมิติ เอาต์พุตทั้งหมดเป็นแบบข้อความเท่านั้น

ขั้นตอนถัดไป

คู่มือนี้จะแสดงวิธีอัปโหลดไฟล์รูปภาพและวิดีโอโดยใช้ File API จากนั้นสร้างเอาต์พุตข้อความจากอินพุตรูปภาพและวิดีโอ ดูข้อมูลเพิ่มเติมได้ที่แหล่งข้อมูลต่อไปนี้

  • กลยุทธ์การแจ้งไฟล์: Gemini API รองรับการแจ้งด้วยข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกว่าการแจ้งแบบหลายรูปแบบ
  • คำสั่งของระบบ: คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง
  • คำแนะนำด้านความปลอดภัย: บางครั้งโมเดล Generative AI จะสร้างเอาต์พุตที่ไม่คาดคิด เช่น เอาต์พุตที่ไม่ถูกต้อง มีอคติ หรือไม่เหมาะสม ขั้นตอนหลังการประมวลผลและการประเมินจากเจ้าหน้าที่เป็นสิ่งจําเป็นในการจำกัดความเสี่ยงของอันตรายจากเอาต์พุตดังกล่าว