ドキュメントの理解

Gemini API は、長いドキュメント(最大 3, 600 ページ)を含む PDF 入力をサポートしています。Gemini モデルはネイティブなビジョンで PDF を処理するため、ドキュメント内のテキストと画像の両方のコンテンツを理解できます。ネイティブの PDF ビジョンをサポートしているため、Gemini モデルは次のことができます。

  • ドキュメント内の図、グラフ、表を分析する
  • 情報を構造化された出力形式に抽出する
  • ドキュメント内の画像とテキストの内容に関する質問に回答する
  • ドキュメントを要約する
  • 下流のアプリケーションで使用するために、ドキュメントのコンテンツを(HTML などに変換して)レイアウトと書式を保持したまま文字起こしする

このチュートリアルでは、Gemini API を使用して PDF ドキュメントを処理する方法について説明します。

次のステップ

詳細については、次のリソースをご覧ください。

  • ファイル プロンプト戦略: Gemini API は、テキスト、画像、音声、動画データによるプロンプト(マルチモーダル プロンプト)をサポートしています。
  • システム指示: システム指示を使用すると、特定のニーズやユースケースに基づいてモデルの動作を制御できます。