Gemini

Gemini は、デベロッパーがコンテンツを生成して問題を解決できるようにする生成 AI モデルのファミリーです。これらのモデルは、テキストと画像の両方を入力として処理するように設計されています。このガイドでは、各モデル バリアントに関する情報を提供し、ユースケースに最適なモデルを決定できるようにします。

モデル バリエーション

Gemini API は、特定のユースケースに合わせて最適化されたさまざまなモデルを提供します。利用可能な Gemini のバリアントの概要は次のとおりです。

モデル バリアント 入力 出力 最適な用途
Gemini 1.5 Pro
gemini-1.5-pro
音声、画像、動画、テキスト テキスト 複雑な推論タスク(コードとテキストの生成、テキスト編集、問題解決、データの抽出と生成など)
Gemini 1.5 Flash
gemini-1.5-flash
音声、画像、動画、テキスト テキスト さまざまなタスクで高速かつ汎用性の高いパフォーマンスを実現
Gemini 1.0 Pro
gemini-1.0-pro
テキスト テキスト 自然言語タスク、マルチターン テキストとコードチャット、コード生成
(非推奨)Gemini 1.0 Pro Vision
gemini-pro-vision
画像、動画、テキスト テキスト 画像の説明の生成や画像内のオブジェクトの識別など、視覚関連のタスク
テキスト エンベディング
text-embedding-004
テキスト テキスト エンベディング テキスト文字列の関連性の測定

次の表に、すべてのモデル バリアントに共通する Gemini モデルの属性を示します。

属性 説明
トレーニング データ Gemini のナレッジ カットオフ日は 2023 年 11 月です。 それ以降のイベントについての知識は限られます。
サポートされている言語 利用可能な言語を見る
構成可能なモデル パラメータ
  • Top-P
  • トップ K
  • Temperature
  • 停車シーケンス
  • 最大出力長
  • レスポンス候補の数

これらの各パラメータの詳細については、生成モデルガイドのモデル パラメータのセクションをご覧ください。

Gemini 1.5 Pro

Gemini 1.5 Pro は、次のような幅広い推論タスク向けに最適化された中規模のマルチモーダル モデルです。

  • コード生成
  • テキスト生成
  • テキスト編集
  • 問題を解決する
  • 推奨事項の生成
  • 情報抽出
  • データの抽出または生成
  • AI エージェントの作成

1.5 Pro では、1 時間の動画、9.5 時間の音声、3 万行以上のコード、70 万ワード以上のコードベースなど、大量のデータを一度に処理できます。

1.5 Pro は、ゼロショット、ワンショット、少数ショットの学習タスクを処理できます。

モデルの詳細

プロパティ 説明
モデルコード models/gemini-1.5-pro-latest
入力 音声、画像、動画、テキスト
出力 テキスト
サポートされている生成方法 generateContent
入力トークンの上限[**] 1,048,576
出力トークンの上限[**] 8,192
プロンプトあたりの画像の最大数 3,600
動画の長さの上限 1 時間
音声の最大長 約 9.5 時間
プロンプトあたりの音声ファイルの最大数 1
モデルの安全性 自動的に適用される安全性設定。デベロッパーが調整できます。詳しくは、安全性設定のページをご覧ください。
レート制限[*]
無料:
  • 2 rpm
  • 32,000 TPM
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 rpm
  • 200 万 TPM
  • 10,000 RPD
  • 14,400,000,000 TPD
200 万のコンテキスト:
  • 1 rpm
  • 200 万 TPM
  • 50 RPD
システム指示 サポート対象
JSON モード サポート対象
最新バージョン gemini-1.5-pro-latest
最新の安定版 gemini-1.5-pro
安定版 gemini-1.5-pro-001
最新のアップデート 2024 年 5 月

Gemini 1.5 Flash

Gemini 1.5 Flash は、さまざまなタスクでスケーリングできる高速で多用途のマルチモーダル モデルです。

モデルの詳細

プロパティ 説明
モデルコード gemini-1.5-flash-latest
入力 音声、画像、動画、テキスト
出力 テキスト
サポートされている生成方法 generateContent
入力トークンの上限[**] 1,048,576
出力トークンの上限[**] 8,192
プロンプトあたりの画像の最大数 3,600
動画の長さの上限 1 時間
音声の最大長 約 9.5 時間
プロンプトあたりの音声ファイルの最大数 1
モデルの安全性 自動的に適用される安全性設定。デベロッパーが調整できます。詳しくは、安全性設定のページをご覧ください。
レート制限[*]
無料:
  • 15 rpm
  • 100 万 TPM
  • 1,500 RPD
Pay-as-you-go:
  • 1,000 rpm
  • 200 万 TPM
システム指示 サポート対象
JSON モード サポート対象
モデルのチューニング 近日提供予定
最新バージョン gemini-1.5-flash-latest
最新の安定版 gemini-1.5-flash
安定版 gemini-1.5-flash-001
最新のアップデート 2024 年 5 月

Gemini 1.0 Pro

Gemini 1.0 Pro は、マルチターン テキストやコードチャット、コード生成などのタスクを処理する NLP モデルです。

1.0 Pro は、ゼロショット、ワンショット、少数ショットの学習タスクを処理できます。

モデルの詳細

プロパティ 説明
モデルコード models/gemini-1.0-pro
入力での テキスト
出力 テキスト
サポートされている生成方法
Python: generate_content
REST: generateContent
レート制限[*]
無料:
  • 15 rpm
  • 32,000 TPM
  • 1,500 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 rpm
  • 120,000 TPM
  • 30,000 RPD
  • 172,800,000 TPD
システム指示 サポート対象外
JSON モード サポート対象外
モデルのチューニング サポート対象: gemini-1.0-pro-001
最新バージョン gemini-1.0-pro-latest
最新の安定版 gemini-1.0-pro
安定版 gemini-1.0-pro-001
最新のアップデート 2024 年 2 月

(非推奨)Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision は、視覚関連のタスクを実行できるパフォーマンス最適化マルチモーダル モデルです。たとえば、1.0 Pro Vision は、画像の説明の生成、画像に存在するオブジェクトの特定、画像に存在する場所やオブジェクトに関する情報の提供などを行うことができます。

1.0 Pro Vision は、ゼロショット、ワンショット、少数ショットのタスクを処理できます。

モデルの詳細

プロパティ 説明
モデルコード models/gemini-pro-vision
入力 テキスト、動画、画像
出力 テキスト
サポートされている生成方法
Python: generate_content
REST: generateContent
入力トークンの上限[*] 12,288
出力トークンの上限[*] 4,096
最大画像サイズ 上限なし
プロンプトあたりの画像の最大数 16
動画の長さの上限 2 分
プロンプトあたりの動画の最大数 1
モデルの安全性 自動的に適用される安全性設定。デベロッパーが調整できます。詳しくは、安全性設定のページをご覧ください。
レート制限[*] 1 分あたり 60 回のリクエスト
最新バージョン gemini-1.0-pro-vision-latest
最新の安定版 gemini-1.0-pro-vision
最新のアップデート 2023 年 12 月

テキストの埋め込みと埋め込み

テキスト エンベディング

テキスト エンベディング モデルを使用して、入力テキストのテキスト エンベディングを生成できます。テキスト エンベディング モデルの詳細については、テキスト エンベディングに関する Vertex AI の生成 AI のドキュメントをご覧ください。

テキスト エンベディング モデルは、最大 2,048 個のトークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。テキスト エンベディングでは、768 未満の弾力性のあるエンベディング サイズを使用できます。弾力性のあるエンベディングを使用すると、生成される出力次元を小さくでき、パフォーマンスの低下を最小限に抑えながら、コンピューティングとストレージの費用を節約できる可能性があります。

モデルの詳細
プロパティ 説明
モデルコード models/text-embedding-004Vertex AItext-embedding-preview-0409
入力での テキスト
出力 テキスト エンベディング
入力トークンの上限 2,048
出力寸法のサイズ 768
サポートされている生成方法
Python: embed_content
REST: embedContent
モデルの安全性 調整可能な安全性設定はありません。
レート制限[*] 1 分あたり 1,500 件のリクエスト
最新のアップデート 2024 年 4 月

エンベディング

エンベディング モデルを使用して、入力テキストのテキスト エンベディングを生成できます。

エンベディング モデルは、最大 2,048 個のトークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。

エンベディング モデルの詳細
プロパティ 説明
モデルコード models/embedding-001
入力での テキスト
出力 テキスト エンベディング
入力トークンの上限 2,048
出力寸法のサイズ 768
サポートされている生成方法
Python: embed_content
REST: embedContent
モデルの安全性 調整可能な安全性設定はありません。
レート制限[*] 1 分あたり 1,500 件のリクエスト
最新のアップデート 2023 年 12 月

AQA

AQA モデルを使用すると、ドキュメント、コーパス、または一連の文章に対して、Attributed Question-Answering(AQA)関連のタスクを実行できます。AQA モデルは、提供されたソースに基づく質問に対する回答を、回答可能な確率の推定とともに返します。

モデルの詳細

プロパティ 説明
モデルコード models/aqa
入力での テキスト
出力 テキスト
サポートされている生成方法
Python: GenerateAnswerRequest
REST: generateAnswer
サポートされている言語 英語
入力トークンの上限[**] 7,168
出力トークンの上限[**] 1,024
モデルの安全性 自動的に適用される安全性設定。デベロッパーが調整できます。詳しくは、安全性設定のページをご覧ください。
レート制限[*] 1 分あたり 60 回のリクエスト
最新のアップデート 2023 年 12 月

これらのモデル バリエーションの機能については、をご覧ください。

[*] 1 トークンは Gemini モデルで約 4 文字に相当します。100 トークンは約 60 ~ 80 単語です。

[**] RPM: 1 分あたりのリクエスト数
TPM: 1 分あたりのトークン数
RPD: 1 日あたりのリクエスト数
TPD: 1 日あたりのトークン数

容量制限により、指定された最大レート制限は保証されません。

モデル バージョン名のパターン

Gemini モデルには、プレビュー版または安定版があります。コードでは、次のいずれかのモデル名形式を使用して、使用するモデルとバージョンを指定できます。

  • 最新: 指定された世代とバリエーションのモデルの最先端バージョンを指します。基盤となるモデルは定期的に更新され、プレビュー版の場合もあります。このエイリアスは、探索的テストのアプリとプロトタイプでのみ使用してください。

    最新バージョンを指定するには、<model>-<generation>-<variation>-latest のパターンを使用します。例: gemini-1.0-pro-latest

  • 最新の安定版: 指定されたモデルの世代とバリエーションでリリースされた最新の安定版を指します。

    最新の安定バージョンを指定するには、<model>-<generation>-<variation> のパターンを使用します。例: gemini-1.0-pro

  • Stable: 特定の安定版モデルを指します。安定したモデルは変更されません。ほとんどの本番環境アプリでは、特定の安定版モデルを使用する必要があります。

    安定版を指定するには、<model>-<generation>-<variation>-<version> のパターンを使用します。例: gemini-1.0-pro-001

対応言語

Gemini モデルは、次の言語で動作するようにトレーニングされています。

  • アラビア語(ar
  • ベンガル語(bn
  • ブルガリア語(bg
  • 中国語(簡体および繁体)(zh
  • クロアチア語(hr
  • チェコ語(cs
  • デンマーク語(da
  • オランダ語(nl
  • 英語(en)、
  • エストニア語(et
  • フィンランド語(fi
  • フランス語(fr
  • ドイツ語(de
  • ギリシャ語(el
  • ヘブライ語(iw
  • ヒンディー語(hi
  • ハンガリー語(hu
  • インドネシア語(id
  • イタリア語(it
  • 日本語(ja
  • 韓国語(ko
  • ラトビア語(lv)、
  • リトアニア語(lt
  • ノルウェー語(no
  • ポーランド語(pl
  • ポルトガル語(pt
  • ルーマニア語(ro
  • ロシア語(ru
  • セルビア語(sr
  • スロバキア語(sk
  • スロベニア語(sl
  • スペイン語(es
  • スワヒリ語(sw
  • スウェーデン語(sv
  • タイ語(th
  • トルコ語(tr
  • ウクライナ語(uk
  • ベトナム語(vi