สำรวจความสามารถในการประมวลผลเอกสารด้วย Gemini API

Gemini API รองรับอินพุต PDF รวมถึงเอกสารที่มีความยาว (สูงสุด 3, 600 หน้า) โมเดล Gemini จะประมวลผล PDF ด้วยระบบการมองเห็นแบบเนทีฟ จึงเข้าใจทั้งเนื้อหาข้อความและรูปภาพในเอกสาร เมื่อรองรับการมองเห็น PDF โดยตรง โมเดล Gemini จะทําสิ่งต่อไปนี้ได้

  • วิเคราะห์แผนภาพ แผนภูมิ และตารางในเอกสาร
  • ดึงข้อมูลในรูปแบบเอาต์พุตที่มีโครงสร้าง
  • ตอบคําถามเกี่ยวกับเนื้อหาที่เป็นภาพและข้อความในเอกสาร
  • สรุปเอกสาร
  • ถอดเสียงเนื้อหาเอกสาร (เช่น เป็น HTML) โดยคงเลย์เอาต์และการจัดรูปแบบไว้เพื่อใช้ในแอปพลิเคชันดาวน์สตรีม (เช่น ในไปป์ไลน์ RAG)

บทแนะนำนี้จะสาธิตวิธีใช้ Gemini API กับเอกสาร PDF เอาต์พุตทั้งหมดเป็นแบบข้อความเท่านั้น

ขั้นตอนถัดไป

คู่มือนี้แสดงวิธีใช้ generateContent และวิธีสร้างเอาต์พุตข้อความจากเอกสารที่ประมวลผลแล้ว ดูข้อมูลเพิ่มเติมได้ที่แหล่งข้อมูลต่อไปนี้

  • กลยุทธ์การแจ้งไฟล์: Gemini API รองรับการแจ้งด้วยข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกว่าการแจ้งแบบหลายสื่อ
  • คำสั่งของระบบ: คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง
  • คำแนะนำด้านความปลอดภัย: บางครั้งโมเดล Generative AI จะสร้างเอาต์พุตที่ไม่คาดคิด เช่น เอาต์พุตที่ไม่ถูกต้อง มีอคติ หรือไม่เหมาะสม ขั้นตอนหลังการประมวลผลและการประเมินจากเจ้าหน้าที่เป็นสิ่งจําเป็นในการจำกัดความเสี่ยงของอันตรายจากเอาต์พุตดังกล่าว