Gemini API によるドキュメント処理機能の詳細

Gemini API は、渡された PDF ドキュメントを処理し、推論を実行できます。PDF がアップロードされると、Gemini API は次のことができます。

  • コンテンツについて説明する、または質問に回答する
  • コンテンツを要約する
  • コンテンツから外挿する

このチュートリアルでは、指定された PDF ドキュメントを使用して Gemini API にプロンプトを表示する方法について説明します。出力はすべてテキストのみです。

次のステップ

このガイドでは、generateContent を使用して、処理されたドキュメントからテキスト出力を生成する方法について説明します。詳細については、次のリソースをご覧ください。

  • ファイル プロンプト戦略: Gemini API は、テキスト、画像、音声、動画データによるプロンプト(マルチモーダル プロンプト)をサポートしています。
  • システム指示: システム指示を使用すると、特定のニーズやユースケースに基づいてモデルの動作を制御できます。
  • 安全性に関するガイダンス: 生成 AI モデルは、不正確な出力、偏見のある出力、不適切な出力など、予期しない出力を生成することがあります。このような出力による被害のリスクを軽減するには、後処理と人間による評価が不可欠です。