สำรวจความสามารถในการมองเห็นด้วย Gemini API

Gemini API จะเรียกใช้การอนุมานในรูปภาพและวิดีโอที่ส่งมาได้ เมื่อผ่าน รูปภาพ ชุดรูปภาพ หรือวิดีโอ Gemini จะทำสิ่งต่อไปนี้ได้

  • อธิบายหรือตอบคำถามเกี่ยวกับเนื้อหา
  • สรุปเนื้อหา
  • คาดการณ์จากเนื้อหา

บทแนะนำนี้สาธิตวิธีที่เป็นไปได้บางส่วนในพรอมต์ที่ใช้กับ Gemini API รูปภาพและวิดีโอ เอาต์พุตทั้งหมดเป็นแบบข้อความเท่านั้น

ขั้นตอนถัดไป

คู่มือนี้แสดงวิธีใช้ generateContent และ เพื่อสร้างเอาต์พุตข้อความจากอินพุตรูปภาพและวิดีโอ หากต้องการทราบข้อมูลเพิ่มเติม โปรดดูแหล่งข้อมูลต่อไปนี้

  • พรอมต์ด้วยไฟล์สื่อ: องค์ประกอบ Gemini API รองรับพรอมต์ที่มีข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกกันว่าพรอมต์แบบหลายโมดัล
  • วิธีการของระบบ: ระบบ ช่วยให้คุณสามารถควบคุมลักษณะการทำงานของโมเดลตาม และกรณีการใช้งาน
  • คำแนะนำด้านความปลอดภัย: บางครั้ง Generative AI โมเดลจะสร้างเอาต์พุตที่ไม่คาดคิด เช่น เอาต์พุตที่ไม่ถูกต้อง มีอคติ หรือไม่เหมาะสม การประมวลผลหลังการประมวลผลและการประเมินโดยเจ้าหน้าที่เป็นสิ่งจำเป็นเพื่อ ลดความเสี่ยงที่จะเกิดอันตรายจากผลลัพธ์เหล่านั้น