Gemini は、デベロッパーがコンテンツを生成して問題を解決できるようにする生成 AI モデルのファミリーです。これらのモデルは、テキストと画像の両方を入力として処理するように設計されています。このガイドでは、各モデル バリアントに関する情報を提供し、ユースケースに最適なモデルを決定できるようにします。
対応言語
Gemini モデルは、次の言語で動作するようにトレーニングされています: アラビア語( トルコ語(、 ポルトガル語(、 スウェーデン語/、{2 スペイン語( / スペイン語/、{2 スペイン語/、 スペイン語( / スウェーデン語/、{2 スペイン語/、{2 ハンガリー語/、{2 ハンガリー語/、{2 ハンガリー語/、{2 ハンガリー語/、{2 ハンガリー語/、{2 ハンガリー語/、{2 ハンガリー語/、{2 ハンガリー語/、{2 ハンガリー語/、中国語/ハンガリー語/、中国語/繁体字語(zh
)、クロアチア語(hr
)、チェコ語(cs
)、デンマーク語(da
)、オランダ語(nl
)、英語(en
)、エストニア語(et
)、フランス語(fr
))ar
bn
bg
fi
de
el
iw
hi
hu
id
it
ja
ko
lv
lt
no
pl
pt
ro
ru
sr
sk
sl
es
sw
sv
th
tr
uk
vi
PaLM モデルは英語でのみ適切に動作します。他の言語を使用すると、予期しない結果が生じる可能性があります。
モデル バリエーション
Gemini API は、特定のユースケースに合わせて最適化されたさまざまなモデルを提供します。利用可能な Gemini のバリアントの概要は次のとおりです。
モデル バリアント | 入力 | 出力 | 最適な用途 |
---|---|---|---|
Gemini 1.5 Pro(プレビュー) | 音声、画像、動画、テキスト | テキスト | 推論タスクには、コードとテキストの生成、テキスト編集、問題解決、データの抽出と生成が含まれますが、これらに限定されません。 |
Gemini 1.5 Flash(プレビュー) | 音声、画像、動画、テキスト | テキスト | さまざまなタスクで高速かつ汎用性の高いパフォーマンスを実現 |
Gemini 1.0 Pro | テキスト | テキスト | 自然言語タスク、マルチターン テキストとコードチャット、コード生成 |
Gemini 1.0 Pro Vision | 画像、動画、テキスト | テキスト | 画像の説明の生成や画像内のオブジェクトの識別など、視覚関連のタスク向けに最適化されたパフォーマンス |
テキスト エンベディング | テキスト | テキスト エンベディング | 最大 2,048 個のトークンのテキストに対して最大 768 次元の弾力性のあるテキスト エンベディングを生成します。 |
エンベディング | テキスト | テキスト エンベディング | 最大 2,048 トークンのテキストに対して 768 次元のテキスト エンベディングを生成します。 |
AQA | テキスト | テキスト | 指定されたテキストに対してアトリビューション付きの質問応答関連のタスクを実行する |
次の表に、すべてのモデル バリアントに共通する Gemini モデルの属性を示します。
属性 | 説明 |
---|---|
トレーニング データ | Gemini のナレッジ カットオフは 2023 年初頭です。 それ以降のイベントについての知識は限られます。 |
サポートされている言語 | 利用可能な言語を見る |
構成可能なモデル パラメータ |
|
これらの各パラメータの詳細については、生成モデルガイドのモデル パラメータのセクションをご覧ください。
Gemini 1.5 Pro(プレビュー)
Gemini 1.5 Pro は、次のような幅広い推論タスク向けに最適化された中規模のマルチモーダル モデルです。
- コード生成
- テキスト生成
- テキスト編集
- 問題を解決する
- 推奨事項の生成
- 情報抽出
- データの抽出または生成
- AI エージェントの作成
1.5 Pro では、1 時間の動画、9.5 時間の音声、3 万行以上のコード、70 万ワード以上のコードベースなど、大量のデータを一度に処理できます。
1.5 Pro は、ゼロショット、ワンショット、少数ショットの学習タスクを処理できます。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/gemini-1.5-pro-latest |
入力 | 音声、画像、動画、テキスト |
出力 | テキスト |
サポートされている生成方法 |
generateContent
|
入力トークンの上限[**] | 1,048,576 |
出力トークンの上限[**] | 8,192 |
プロンプトあたりの画像の最大数 | 3,600 |
動画の長さの上限 | 1 時間 |
音声の最大長 | 約 9.5 時間 |
プロンプトあたりの音声ファイルの最大数 | 1 |
モデルの安全性 | 自動的に適用される安全性設定。デベロッパーが調整できます。詳しくは、安全性設定のページをご覧ください。 |
レート制限[*] |
|
システム指示 | サポート対象 |
JSON モード | サポート対象 |
最新バージョン | gemini-1.5-pro-latest |
最新の安定版 | gemini-1.5-pro |
最新のアップデート | 2024 年 4 月 |
Gemini 1.5 Flash(プレビュー)
Gemini 1.5 Flash は、さまざまなタスクでスケーリングできる高速で多用途のマルチモーダル モデルです。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | gemini-1.5-flash-latest |
入力 | 音声、画像、動画、テキスト |
出力 | テキスト |
サポートされている生成方法 |
generateContent
|
入力トークンの上限[**] | 1,048,576 |
出力トークンの上限[**] | 8,192 |
プロンプトあたりの画像の最大数 | 3,600 |
動画の長さの上限 | 1 時間 |
音声の最大長 | 約 9.5 時間 |
プロンプトあたりの音声ファイルの最大数 | 1 |
モデルの安全性 | 自動的に適用される安全性設定。デベロッパーが調整できます。詳しくは、安全性設定のページをご覧ください。 |
レート制限[*] |
|
システム指示 | サポート対象 |
JSON モード | サポート対象 |
最新バージョン | gemini-1.5-flash-latest |
最新の安定版 | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro は、マルチターン テキストやコードチャット、コード生成などのタスクを処理する NLP モデルです。
1.0 Pro は、ゼロショット、ワンショット、少数ショットの学習タスクを処理できます。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/gemini-pro |
入力 | テキスト |
出力 | テキスト |
サポートされている生成方法 |
generate_content
generateContent
|
レート制限[*] |
|
システム指示 | サポート対象外 |
JSON モード | サポート対象外 |
最新バージョン | gemini-1.0-pro-latest |
最新の安定版 | gemini-1.0-pro |
安定版 | gemini-1.0-pro-001 |
最新のアップデート | 2024 年 2 月 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision は、視覚関連のタスクを実行できるパフォーマンス最適化マルチモーダル モデルです。たとえば、1.0 Pro Vision は、画像の説明の生成、画像に存在するオブジェクトの特定、画像に存在する場所やオブジェクトに関する情報の提供などを行うことができます。
1.0 Pro Vision は、ゼロショット、ワンショット、少数ショットのタスクを処理できます。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/gemini-pro-vision |
入力 | テキスト、動画、画像 |
出力 | テキスト |
サポートされている生成方法 |
generate_content
generateContent
|
入力トークンの上限[*] | 12,288 |
出力トークンの上限[*] | 4,096 |
最大画像サイズ | 上限なし |
プロンプトあたりの画像の最大数 | 16 |
動画の長さの上限 | 2 分 |
プロンプトあたりの動画の最大数 | 1 |
モデルの安全性 | 自動的に適用される安全性設定。デベロッパーが調整できます。詳しくは、安全性設定のページをご覧ください。 |
レート制限[*] | 1 分あたり 60 回のリクエスト |
最新バージョン | gemini-1.0-pro-vision-latest |
最新の安定版 | gemini-1.0-pro-vision |
最新のアップデート | 2023 年 12 月 |
テキストの埋め込みと埋め込み
テキスト エンベディング
テキスト エンベディング モデルを使用して、入力テキストのテキスト エンベディングを生成できます。テキスト エンベディング モデルの詳細については、テキスト エンベディングに関する Vertex AI の生成 AI のドキュメントをご覧ください。
テキスト エンベディング モデルは、最大 2,048 個のトークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。テキスト エンベディングでは、768 未満の弾力性のあるエンベディング サイズを使用できます。弾力性のあるエンベディングを使用すると、生成される出力次元を小さくでき、パフォーマンスの低下を最小限に抑えながら、コンピューティングとストレージの費用を節約できる可能性があります。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード |
models/text-embedding-004 (Vertex AI の text-embedding-preview-0409 ) |
入力 | テキスト |
出力 | テキスト エンベディング |
入力トークンの上限 | 2,048 |
出力寸法のサイズ | 768 |
サポートされている生成方法 |
embed_content
embedContent
|
モデルの安全性 | 調整可能な安全性設定はありません。 |
レート制限[*] | 1 分あたり 1,500 件のリクエスト |
最新のアップデート | 2024 年 4 月 |
エンベディング
エンベディング モデルを使用して、入力テキストのテキスト エンベディングを生成できます。
エンベディング モデルは、最大 2,048 個のトークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。
エンベディング モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/embedding-001 |
入力 | テキスト |
出力 | テキスト エンベディング |
入力トークンの上限 | 2,048 |
出力寸法のサイズ | 768 |
サポートされている生成方法 |
embed_content
embedContent
|
モデルの安全性 | 調整可能な安全性設定はありません。 |
レート制限[*] | 1 分あたり 1,500 件のリクエスト |
最新のアップデート | 2023 年 12 月 |
AQA
AQA モデルを使用すると、ドキュメント、コーパス、または一連の文章に対して、Attributed Question-Answering(AQA)関連のタスクを実行できます。AQA モデルは、提供されたソースに基づく質問に対する回答を、回答可能な確率の推定とともに返します。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/aqa |
入力 | テキスト |
出力 | テキスト |
サポートされている生成方法 |
GenerateAnswerRequest
generateAnswer
|
サポートされている言語 | 英語 |
入力トークンの上限[**] | 7,168 |
出力トークンの上限[**] | 1,024 |
モデルの安全性 | 自動的に適用される安全性設定。デベロッパーが調整できます。詳しくは、安全性設定のページをご覧ください。 |
レート制限[*] | 1 分あたり 60 回のリクエスト |
最新のアップデート | 2023 年 12 月 |
これらのモデル バリエーションの機能については、例をご覧ください。
[*] 1 トークンは Gemini モデルで約 4 文字に相当します。100 トークンは約 60 ~ 80 単語です。
[**] RPM: 1 分あたりのリクエスト数
TPM: 1 分あたりのトークン数
RPD: 1 日あたりのリクエスト数
TPD: 1 日あたりのトークン数
容量制限により、指定された最大レート制限は保証されません。
モデル バージョン名のパターン
Gemini モデルには、プレビュー版または安定版があります。コードでは、次のいずれかのモデル名形式を使用して、使用するモデルとバージョンを指定できます。
最新: 指定された世代とバリエーションのモデルの最先端バージョンを指します。基盤となるモデルは定期的に更新され、プレビュー版の場合もあります。このエイリアスは、探索的テストのアプリとプロトタイプでのみ使用してください。
最新バージョンを指定するには、
<model>-<generation>-<variation>-latest
のパターンを使用します。例:gemini-1.0-pro-latest
。最新の安定版: 指定されたモデルの世代とバリエーションでリリースされた最新の安定版を指します。
最新の安定バージョンを指定するには、
<model>-<generation>-<variation>
のパターンを使用します。例:gemini-1.0-pro
Stable: 特定の安定版モデルを指します。安定したモデルは変更されません。ほとんどの本番環境アプリでは、特定の安定版モデルを使用する必要があります。
安定版を指定するには、
<model>-<generation>-<variation>-<version>
のパターンを使用します。例:gemini-1.0-pro-001
。