Gemini API รองรับอินพุต PDF รวมถึงเอกสารที่มีความยาว (สูงสุด 3, 600 หน้า) โมเดล Gemini จะประมวลผล PDF ด้วยระบบการมองเห็นแบบเนทีฟ จึงเข้าใจทั้งเนื้อหาข้อความและรูปภาพในเอกสาร เมื่อรองรับการมองเห็น PDF โดยตรง โมเดล Gemini จะทําสิ่งต่อไปนี้ได้
- วิเคราะห์แผนภาพ แผนภูมิ และตารางในเอกสาร
- ดึงข้อมูลในรูปแบบเอาต์พุตที่มีโครงสร้าง
- ตอบคําถามเกี่ยวกับเนื้อหาที่เป็นภาพและข้อความในเอกสาร
- สรุปเอกสาร
- ถอดเสียงเนื้อหาเอกสาร (เช่น เป็น HTML) โดยคงเลย์เอาต์และการจัดรูปแบบไว้เพื่อใช้ในแอปพลิเคชันดาวน์สตรีม (เช่น ในไปป์ไลน์ RAG)
บทแนะนำนี้จะสาธิตวิธีใช้ Gemini API กับเอกสาร PDF เอาต์พุตทั้งหมดเป็นแบบข้อความเท่านั้น
ขั้นตอนถัดไป
คู่มือนี้แสดงวิธีใช้ generateContent
และวิธีสร้างเอาต์พุตข้อความจากเอกสารที่ประมวลผลแล้ว ดูข้อมูลเพิ่มเติมได้ที่แหล่งข้อมูลต่อไปนี้
- กลยุทธ์การแจ้งไฟล์: Gemini API รองรับการแจ้งด้วยข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกว่าการแจ้งแบบหลายสื่อ
- คำสั่งของระบบ: คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง
- คำแนะนำด้านความปลอดภัย: บางครั้งโมเดล Generative AI จะสร้างเอาต์พุตที่ไม่คาดคิด เช่น เอาต์พุตที่ไม่ถูกต้อง มีอคติ หรือไม่เหมาะสม ขั้นตอนหลังการประมวลผลและการประเมินจากเจ้าหน้าที่เป็นสิ่งจําเป็นในการจำกัดความเสี่ยงของอันตรายจากเอาต์พุตดังกล่าว