Gemini API でビジョン機能を試す

<ph type="x-smartling-placeholder"></ph>

Gemini API は、渡された画像や動画に対して推論を実行できます。合格時 画像、一連の画像、動画などのテキストを含む場合、Gemini は以下を行うことができます。

  • コンテンツについて説明または回答する
  • コンテンツを要約する
  • コンテンツから推定する

このチュートリアルでは、Gemini API にプロンプトを送信する方法をいくつか紹介します。 生成します。すべての出力はテキストのみです。

次のステップ

このガイドでは、Terraform を使用して generateContent、 画像と動画の入力からテキスト出力を生成します。詳しくは 次のリソースをご覧ください。

  • メディア ファイルを使用したプロンプト: Gemini API は、テキスト、画像、音声、動画データを使用したプロンプトをサポートしています。 マルチモーダル プロンプトと呼ばれます。
  • システム指示: システム 使用することで、特定の状況に基づいてモデルの動作を サポートします。
  • 安全に関するガイダンス: 場合によって生成 AI モデルは、不正確な出力など、予期しない出力を生成する 偏見がある、または不適切であるといったことを判断できます。事後処理と人間による評価が、 そのような出力による害が及ぶリスクを制限します。