Gemini 2.5 Pro 预览版现已可用于生产环境!
了解详情
文档理解
Gemini API 支持 PDF 输入,包括长篇幅文档(最多 3, 600 页)。Gemini 模型使用原生视觉功能处理 PDF,因此能够理解文档中的文本和图片内容。借助原生 PDF 视觉支持,Gemini 模型能够:
- 分析文档中的图表、图表和表格
- 将信息提取为结构化输出格式
- 回答有关文档中视觉内容和文本内容的问题
- 总结文档
- 转写文档内容(例如转写为 HTML),保留布局和格式,以便在下游应用中使用
本教程演示了使用 Gemini API 处理 PDF 文档的一些可能方法。
后续步骤
如需了解详情,请参阅以下资源:
- 文件提示策略:Gemini API 支持使用文本、图片、音频和视频数据进行提示,也称为多模态提示。
- 系统指令:借助系统指令,您可以根据自己的特定需求和使用情形来控制模型的行为。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-04-28。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-04-28。"],[],[]]