Gemini API によるドキュメント処理機能の詳細

Gemini API は、長いドキュメント(最大 3, 600 ページ)を含む PDF 入力をサポートしています。Gemini モデルはネイティブなビジョンで PDF を処理するため、ドキュメント内のテキストと画像の両方のコンテンツを理解できます。ネイティブの PDF ビジョンをサポートしているため、Gemini モデルは次のことができます。

  • ドキュメント内の図、グラフ、表を分析します。
  • 情報を構造化された出力形式に抽出します。
  • ドキュメント内のビジュアル コンテンツとテキスト コンテンツに関する質問に回答します。
  • ドキュメントを要約する。
  • ドキュメントのコンテンツを(HTML などに変換して)音声文字変換し、レイアウトとフォーマットを保持して、ダウンストリーム アプリケーション(RAG パイプラインなど)で使用できるようにします。

このチュートリアルでは、PDF ドキュメントで Gemini API を使用する方法をいくつか示します。出力はすべてテキストのみです。

次のステップ

このガイドでは、generateContent を使用して、処理されたドキュメントからテキスト出力を生成する方法について説明します。詳細については、次のリソースをご覧ください。

  • ファイル プロンプト戦略: Gemini API は、テキスト、画像、音声、動画データによるプロンプト(マルチモーダル プロンプト)をサポートしています。
  • システム指示: システム指示を使用すると、特定のニーズやユースケースに基づいてモデルの動作を制御できます。
  • 安全性に関するガイダンス: 生成 AI モデルは、不正確な出力、偏見のある出力、不適切な出力など、予期しない出力を生成することがあります。このような出力による被害のリスクを軽減するには、後処理と人間による評価が不可欠です。