Gemini 2.5 Pro 預先發布版現已可供正式使用!
瞭解詳情
文件解讀
Gemini API 支援 PDF 輸入內容,包括長文件 (最多 3600 頁)。Gemini 模型會使用原生視覺技術處理 PDF,因此能夠解讀文件中的文字和圖像內容。透過原生 PDF 視覺支援功能,Gemini 模型可執行以下操作:
- 分析文件中的圖表、圖表和表格
- 將資訊擷取至結構化輸出格式
- 回答文件中圖像和文字內容的問題
- 生成文件摘要
- 將文件內容轉錄為 HTML 等格式,並保留版面配置和格式,以利於在後續應用程式中使用
本教學課程將示範幾種可能的使用方式,說明如何使用 Gemini API 處理 PDF 文件。
後續步驟
如要進一步瞭解相關內容,請參閱下列資源:
- 檔案提示策略:Gemini API 支援使用文字、圖片、音訊和影片資料提示,這也稱為多模態提示。
- 系統指令:系統指令可讓您根據特定需求和用途,控制模型的行為。
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2025-04-28 (世界標準時間)。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["缺少我需要的資訊","missingTheInformationINeed","thumb-down"],["過於複雜/步驟過多","tooComplicatedTooManySteps","thumb-down"],["過時","outOfDate","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["示例/程式碼問題","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2025-04-28 (世界標準時間)。"],[],[]]