探索 Gemini API 的文档处理功能

Gemini API 支持 PDF 输入,包括长篇幅文档(最多 3, 600 页)。Gemini 模型使用原生视觉功能处理 PDF,因此能够理解文档中的文本和图片内容。借助原生 PDF 视觉支持,Gemini 模型能够:

  • 分析文档中的图表、图表和表格。
  • 将信息提取为结构化输出格式。
  • 回答与文档中的视觉内容和文本内容相关的问题。
  • 生成文档摘要。
  • 转写文档内容(例如转写为 HTML),同时保留布局和格式,以便在下游应用(例如 RAG 流水线)中使用。

本教程演示了将 Gemini API 与 PDF 文档搭配使用的一些可能方式。所有输出均为文本。

后续步骤

本指南介绍了如何使用 generateContent 以及如何根据处理后的文档生成文本输出。如需了解详情,请参阅以下资源:

  • 文件提示策略:Gemini API 支持使用文本、图片、音频和视频数据进行提示,也称为多模式提示。
  • 系统指令:借助系统指令,您可以根据自己的特定需求和使用情形来控制模型的行为。
  • 安全指南:生成式 AI 模型有时会生成意外的输出,例如不准确、有偏见或令人反感的输出。后处理和人工评估对于限制此类输出造成伤害的风险至关重要。