瞭解 Gemini API 的文件處理功能

Gemini API 支援 PDF 輸入內容,包括長文件 (最多 3600 頁)。Gemini 模型會使用原生視覺技術處理 PDF,因此能夠理解文件中的文字和圖片內容。透過原生 PDF 視覺支援功能,Gemini 模型可執行下列操作:

  • 分析文件中的圖表、圖表和表格。
  • 將資訊擷取至結構化輸出格式。
  • 回答文件中圖像和文字內容的問題。
  • 摘錄文件重點。
  • 將文件內容轉錄成 HTML 等格式,並保留版面配置和格式,以便在後續應用程式 (例如 RAG 管道) 中使用。

本教學課程將示範幾種可能的使用方式,說明如何在 PDF 文件中使用 Gemini API。所有輸出內容皆為文字。

後續步驟

本指南說明如何使用 generateContent,並從已處理的文件產生文字輸出內容。如要進一步瞭解相關內容,請參閱下列資源:

  • 檔案提示策略:Gemini API 支援使用文字、圖片、音訊和影片資料提示,這也稱為多模態提示。
  • 系統指示:系統指示可讓您根據特定需求和用途,引導模型的行為。
  • 安全指南:生成式 AI 模型有時會產生非預期的輸出內容,例如不準確、偏頗或令人反感的輸出內容。後續處理和人工評估是限制這類輸出內容造成危害風險的必要措施。