Gemini API でビジョン機能を試す

Gemini API は画像と動画を処理できるため、デベロッパーはさまざまなユースケースを実現できます。Gemini のビジョン機能には、次のものがあります。

  • 画像にキャプションを付け、画像に関する質問に回答する
  • PDF の音声文字変換と推論(最大 200 万トークンのコンテキスト ウィンドウの長いドキュメントを含む)
  • 最大 90 分間の動画から、画像フレームと音声の両方を含む情報を記述、セグメント化、抽出する
  • 画像内のオブジェクトを検出して、境界ボックスの座標を返す

このチュートリアルでは、画像と動画入力で Gemini API にプロンプトを表示する方法の例を示し、コードサンプルを提供し、マルチモーダル ビジョン機能によるプロンプトのベスト プラクティスの概要を説明します。出力はすべてテキストのみです。

次のステップ

このガイドでは、File API を使用して画像ファイルと動画ファイルをアップロードし、画像と動画の入力からテキスト出力を生成する方法について説明します。詳細については、次のリソースをご覧ください。

  • ファイル プロンプト戦略: Gemini API は、テキスト、画像、音声、動画データによるプロンプト(マルチモーダル プロンプト)をサポートしています。
  • システム指示: システム指示を使用すると、特定のニーズやユースケースに基づいてモデルの動作を制御できます。
  • 安全性に関するガイダンス: 生成 AI モデルは、不正確な出力、偏見のある出力、不適切な出力など、予期しない出力を生成することがあります。このような出力による被害のリスクを軽減するには、後処理と人間による評価が不可欠です。