โมเดล Gemini สามารถประมวลผลรูปภาพและวิดีโอได้ ซึ่งเปิดโอกาสให้นักพัฒนาแอปใช้กรณีการใช้งานใหม่ๆ มากมาย ซึ่งในอดีตต้องใช้โมเดลเฉพาะโดเมน ความสามารถบางอย่างของวิสัยทัศน์ของ Gemini ได้แก่
- ใส่คำบรรยายและตอบคำถามเกี่ยวกับรูปภาพ
- ถอดเสียงและหาเหตุผลใน PDF รวมถึงโทเค็นสูงสุด 2 ล้านรายการ
- อธิบาย แบ่งกลุ่ม และดึงข้อมูลจากวิดีโอที่มีความยาวไม่เกิน 90 นาที
- ตรวจหาวัตถุในรูปภาพและแสดงพิกัดของกรอบล้อมรอบ
Gemini สร้างขึ้นให้ทำงานได้หลายรูปแบบตั้งแต่ต้น และเราจะพัฒนาขีดความสามารถต่อไป
ขั้นตอนถัดไป
คู่มือนี้จะแสดงวิธีอัปโหลดไฟล์รูปภาพและวิดีโอโดยใช้ File API จากนั้นสร้างเอาต์พุตข้อความจากอินพุตรูปภาพและวิดีโอ ดูข้อมูลเพิ่มเติมได้ที่แหล่งข้อมูลต่อไปนี้
- กลยุทธ์การแจ้งไฟล์: Gemini API รองรับการแจ้งด้วยข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกว่าการแจ้งแบบหลายรูปแบบ
- คำสั่งของระบบ: คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง
- คำแนะนำด้านความปลอดภัย: บางครั้งโมเดล Generative AI จะสร้างเอาต์พุตที่ไม่คาดคิด เช่น เอาต์พุตที่ไม่ถูกต้อง มีอคติ หรือไม่เหมาะสม ขั้นตอนหลังการประมวลผลและการประเมินจากเจ้าหน้าที่เป็นสิ่งจําเป็นในการจำกัดความเสี่ยงของอันตรายจากเอาต์พุตดังกล่าว