Gemini API สามารถประมวลผลรูปภาพและวิดีโอได้ ซึ่งเปิดโอกาสให้นักพัฒนาแอปมีกรณีการใช้งานที่น่าสนใจมากมาย ความสามารถบางอย่างของภาพจาก Gemini ได้แก่ ความสามารถในการดำเนินการต่อไปนี้
- ใส่คำบรรยายและตอบคำถามเกี่ยวกับรูปภาพ
- ถอดเสียงและหาเหตุผลใน PDF รวมถึงเอกสารที่มีความยาวสูงสุด 2 ล้านหน้าต่างบริบทของโทเค็น
- อธิบาย แบ่งกลุ่ม และดึงข้อมูลจากวิดีโอ ซึ่งรวมถึงทั้งเฟรมภาพและเสียงที่มีความยาวได้สูงสุด 90 นาที
- ตรวจหาวัตถุในรูปภาพและแสดงพิกัดของกรอบล้อมรอบ
บทแนะนำนี้จะแสดงวิธีต่างๆ ที่เป็นไปได้ในการส่งพรอมต์ไปยัง Gemini API ด้วยอินพุตรูปภาพและวิดีโอ รวมถึงแสดงตัวอย่างโค้ดและแนวทางปฏิบัติแนะนำในการส่งพรอมต์ด้วยความสามารถด้านการมองเห็นแบบหลายมิติ เอาต์พุตทั้งหมดเป็นแบบข้อความเท่านั้น
ขั้นตอนถัดไป
คู่มือนี้จะแสดงวิธีอัปโหลดไฟล์รูปภาพและวิดีโอโดยใช้ File API จากนั้นสร้างเอาต์พุตข้อความจากอินพุตรูปภาพและวิดีโอ ดูข้อมูลเพิ่มเติมได้ที่แหล่งข้อมูลต่อไปนี้
- กลยุทธ์การแจ้งไฟล์: Gemini API รองรับการแจ้งด้วยข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกว่าการแจ้งแบบหลายรูปแบบ
- คำสั่งของระบบ: คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง
- คำแนะนำด้านความปลอดภัย: บางครั้งโมเดล Generative AI จะสร้างเอาต์พุตที่ไม่คาดคิด เช่น เอาต์พุตที่ไม่ถูกต้อง มีอคติ หรือไม่เหมาะสม ขั้นตอนหลังการประมวลผลและการประเมินจากเจ้าหน้าที่เป็นสิ่งจําเป็นในการจำกัดความเสี่ยงของอันตรายจากเอาต์พุตดังกล่าว