การทำความเข้าใจเอกสาร

Gemini API รองรับอินพุต PDF รวมถึงเอกสารที่มีความยาว (สูงสุด 3, 600 หน้า) โมเดล Gemini จะประมวลผล PDF ด้วยระบบการมองเห็นแบบดั้งเดิม จึงเข้าใจทั้งเนื้อหาข้อความและรูปภาพในเอกสาร โมเดล Gemini จะทําสิ่งต่อไปนี้ได้เมื่อรองรับ PDF แบบเนทีฟ

  • วิเคราะห์แผนภาพ แผนภูมิ และตารางในเอกสาร
  • ดึงข้อมูลในรูปแบบเอาต์พุตที่มีโครงสร้าง
  • ตอบคำถามเกี่ยวกับเนื้อหาที่เป็นภาพและข้อความในเอกสาร
  • สรุปเอกสาร
  • ถอดเสียงเนื้อหาเอกสาร (เช่น เป็น HTML) โดยคงเลย์เอาต์และการจัดรูปแบบไว้เพื่อใช้ในแอปพลิเคชันดาวน์สตรีม

บทแนะนำนี้จะแสดงวิธีต่างๆ ในการใช้ Gemini API เพื่อประมวลผลเอกสาร PDF

ขั้นตอนถัดไป

ดูข้อมูลเพิ่มเติมได้ในแหล่งข้อมูลต่อไปนี้

  • กลยุทธ์การแจ้งไฟล์: Gemini API รองรับการแจ้งด้วยข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกว่าการแจ้งแบบหลายรูปแบบ
  • คำสั่งของระบบ: คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง