Google 検索によるグラウンディングが利用できるようになりました。
詳細
Gemini API でビジョン機能を試す
Gemini API は画像と動画を処理できるため、デベロッパーはさまざまなユースケースを実現できます。Gemini のビジョン機能には、次のものがあります。
- 画像にキャプションを付け、画像に関する質問に回答する
- PDF の音声文字変換と推論(最大 200 万トークンのコンテキスト ウィンドウの長いドキュメントを含む)
- 最大 90 分間の動画から、画像フレームと音声の両方を含む情報を記述、セグメント化、抽出する
- 画像内のオブジェクトを検出して、境界ボックスの座標を返す
このチュートリアルでは、画像と動画入力で Gemini API にプロンプトを表示する方法の例を示し、コードサンプルを提供し、マルチモーダル ビジョン機能によるプロンプトのベスト プラクティスの概要を説明します。出力はすべてテキストのみです。
次のステップ
このガイドでは、File API を使用して画像ファイルと動画ファイルをアップロードし、画像と動画の入力からテキスト出力を生成する方法について説明します。詳細については、次のリソースをご覧ください。
- ファイル プロンプト戦略: Gemini API は、テキスト、画像、音声、動画データによるプロンプト(マルチモーダル プロンプト)をサポートしています。
- システム指示: システム指示を使用すると、特定のニーズやユースケースに基づいてモデルの動作を制御できます。
- 安全性に関するガイダンス: 生成 AI モデルは、不正確な出力、偏見のある出力、不適切な出力など、予期しない出力を生成することがあります。このような出力による被害のリスクを軽減するには、後処理と人間による評価が不可欠です。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2024-11-28 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["必要な情報がない","missingTheInformationINeed","thumb-down"],["複雑すぎる / 手順が多すぎる","tooComplicatedTooManySteps","thumb-down"],["最新ではない","outOfDate","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["サンプル / コードに問題がある","samplesCodeIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2024-11-28 UTC。"],[],[]]