Gemini は、デベロッパーがコンテンツを生成して問題を解決できる生成 AI モデルのファミリーです。これらのモデルは、テキストと画像の両方を入力として処理するように設計、トレーニングされています。このガイドでは、各モデル バリアントに関する情報を提供し、どちらがユースケースに最も適しているかを判断するのに役立ちます。
安全性と使用目的
生成 AI モデルは強力なツールですが、制限が存在します。その汎用性と適用性により、不正確、バイアス、不適切な出力など、予期しない出力が発生する可能性があります。このような出力による被害のリスクを抑えるには、後処理と厳格な手動評価が不可欠です。安全な使用に関するその他の推奨事項については、安全に関するガイダンスをご覧ください。
Gemini API が提供するモデルは、さまざまな生成 AI や自然言語処理(NLP)アプリケーションに使用できます。これらの機能は、Gemini API または Google AI Studio ウェブアプリでのみ使用できます。Gemini API の使用には、生成 AI の使用禁止に関するポリシーと Gemini API の利用規約も適用されます。
モデル バリエーション
Gemini API には、特定のユースケース向けに最適化されたさまざまなモデルが用意されています。利用可能な Gemini のバリエーションの概要は次のとおりです。
モデル バリアント | 入力 | 出力 | 最適な用途 |
---|---|---|---|
Gemini 1.5 Pro(プレビュー) | 音声、画像、テキスト | テキスト | 推論タスク(コードとテキストの生成、テキスト編集、問題解決、データの抽出、生成など) |
Gemini 1.5 Flash(プレビュー) | 音声、画像、テキスト | テキスト | さまざまなタスクに対応する高速で汎用性の高いパフォーマンス |
Gemini 1.0 Pro | テキスト | テキスト | 自然言語タスク、マルチターンのテキスト チャットとコードチャット、コード生成 |
Gemini 1.0 Pro Vision | 画像とテキスト | テキスト | 画像の説明の生成や画像内のオブジェクトの識別など、視覚関連のタスク向けに最適化されたパフォーマンス |
テキスト エンベディング | テキスト | テキスト エンベディング | 最大 2,048 トークンのテキストに対して最大 768 ディメンションの弾力性のあるテキスト エンベディングを生成 |
埋め込み | テキスト | テキスト エンベディング | 最大 2,048 トークンのテキスト用に 768 次元のテキスト エンベディングを生成する |
品質評価 | テキスト | テキスト | 指定されたテキストに対して、帰属する質問応答に関連するタスクを行う |
次の表に、すべてのモデル バリアントに共通する Gemini モデルの属性を示します。
属性 | 説明 |
---|---|
トレーニング データ | Gemini のナレッジのカットオフは 2023 年初頭です。それ以降に発生したイベントに関する情報は制限されます。 |
対応している言語 | 対応言語を見る |
構成可能なモデル パラメータ |
|
これらの各パラメータの詳細については、生成モデルガイドのモデル パラメータのセクションをご覧ください。
Gemini 1.5 Pro(プレビュー)
Gemini 1.5 Pro は、次のような幅広い推論タスク向けに最適化された中規模のマルチモーダル モデルです。
- コード生成
- テキスト生成
- テキスト編集
- 問題を解決する
- 推奨事項の生成
- 情報抽出
- データの抽出または生成
- AI エージェントの作成
1.5 Pro では、1 時間の動画、9.5 時間分の音声、30,000 行を超えるコードや 700,000 語を超えるコードベースなど、大量のデータを一度に処理できます。
1.5 Pro は、ゼロショット、ワンショット、少数ショット学習タスクに対応できます。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/gemini-1.5-pro-latest |
入力 | 音声、画像、テキスト |
出力 | テキスト |
サポートされている生成方法 |
generateContent
|
入力トークンの上限[**] | 1,048,576 |
出力トークンの上限 [**] | 8,192 |
プロンプトあたりの画像の最大数 | 3,600 |
動画の長さの上限 | 1 時間 |
音声の最大長 | 約 9.5 時間 |
プロンプトあたりの音声ファイルの最大数 | 1 |
モデルの安全性 | 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。 |
レート制限[*] |
|
システムの指示 | サポート対象 |
JSON モード | サポート対象 |
最新バージョン | gemini-1.5-pro-latest |
最新の安定版 | gemini-1.5-pro |
最新のアップデート | 2024 年 4 月 |
Gemini 1.5 Flash(プレビュー)
Gemini 1.5 Flash は、さまざまなタスクに合わせてスケーリングできる、高速で汎用性の高いマルチモーダル モデルです。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | gemini-1.5-flash |
入力 | 音声、画像、テキスト |
出力 | テキスト |
サポートされている生成方法 |
generateContent
|
入力トークンの上限[**] | 1,048,576 |
出力トークンの上限 [**] | 8,192 |
プロンプトあたりの画像の最大数 | 3,600 |
動画の長さの上限 | 1 時間 |
音声の最大長 | 約 9.5 時間 |
プロンプトあたりの音声ファイルの最大数 | 1 |
モデルの安全性 | 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。 |
レート制限[*] |
|
システムの指示 | サポート対象 |
JSON モード | サポート対象 |
最新バージョン | gemini-1.5-flash-latest |
最新の安定版 | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro は、マルチターンのテキスト チャットやコードチャット、コード生成などのタスクを処理する NLP モデルです。
1.0 Pro は、ゼロショット、ワンショット、少数ショット学習タスクに対応できます。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/gemini-pro |
入力 | テキスト |
出力 | テキスト |
サポートされている生成方法 |
generate_content
generateContent
|
レート制限[*] |
|
システムの指示 | サポート対象外 |
JSON モード | サポート対象外 |
最新バージョン | gemini-1.0-pro-latest |
最新の安定版 | gemini-1.0-pro |
安定版 | gemini-1.0-pro-001 |
最新のアップデート | 2024 年 2 月 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision は、パフォーマンスが最適化されたマルチモーダル モデルで、ビジュアル関連のタスクを実行できるものです。たとえば、1.0 Pro Vision では、画像の説明の生成、画像内のオブジェクトの特定、画像内の場所やオブジェクトに関する情報の提供などを行うことができます。
1.0 Pro Vision は、ゼロショット、ワンショット、少数ショットのタスクを処理できます。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/gemini-pro-vision |
入力 | テキストと画像 |
出力 | テキスト |
サポートされている生成方法 |
generate_content
generateContent
|
入力トークンの上限 [*] | 12,288 |
出力トークンの上限 [*] | 4,096 |
最大画像サイズ | 上限なし |
プロンプトあたりの画像の最大数 | 16 |
動画の長さの上限 | 2 分 |
メッセージあたりの動画の最大数 | 1 |
モデルの安全性 | 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。 |
レート制限[*] | 1 分あたり 60 回のリクエスト |
最新バージョン | gemini-1.0-pro-vision-latest |
最新の安定版 | gemini-1.0-pro-vision |
最新のアップデート | 2023 年 12 月 |
テキストの埋め込みと埋め込み
テキスト エンベディング
Text Embedding モデルを使用して、入力テキストのテキスト エンベディングを生成できます。テキスト エンベディング モデルの詳細については、テキスト エンベディングに関する Vertex AI の生成 AI のドキュメントをご覧ください。
Text Embedding モデルは、最大 2,048 トークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。テキスト エンベディングでは、768 未満のエラスティックなエンベディング サイズを使用できます。弾力性のあるエンベディングを使用すると、より小さな出力ディメンションを生成できます。また、パフォーマンスをわずかに低下させるだけで、コンピューティングとストレージの費用を節約できる可能性があります。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード |
models/text-embedding-004 (Vertex AI では text-embedding-preview-0409 ) |
入力 | テキスト |
出力 | テキスト エンベディング |
入力トークンの上限 | 2,048 |
出力ディメンション サイズ | 768 |
サポートされている生成方法 |
embed_content
embedContent
|
モデルの安全性 | 調整可能な安全設定はありません。 |
レート制限[*] | 1 分あたり 1,500 回のリクエスト |
最新のアップデート | 2024 年 4 月 |
エンべディング
エンベディング モデルを使用すると、入力テキストのテキスト エンベディングを生成できます。
エンベディング モデルは、最大 2,048 トークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。
エンベディング モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/embedding-001 |
入力 | テキスト |
出力 | テキスト エンベディング |
入力トークンの上限 | 2,048 |
出力ディメンション サイズ | 768 |
サポートされている生成方法 |
embed_content
embedContent
|
モデルの安全性 | 調整可能な安全設定はありません。 |
レート制限[*] | 1 分あたり 1,500 回のリクエスト |
最新のアップデート | 2023 年 12 月 |
AQA
AQA モデルを使用すると、ドキュメント、コーパス、または一連の文に対して、Attributed Question-Answering(AQA)関連のタスクを実行できます。AQA モデルは、回答可能な確率を推定し、提供された情報源に基づく質問への回答を返します。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/aqa |
入力 | テキスト |
出力 | テキスト |
サポートされている生成方法 |
GenerateAnswerRequest
generateAnswer
|
対応している言語 | 英語 |
入力トークンの上限[**] | 7,168 |
出力トークンの上限 [**] | 1,024 |
モデルの安全性 | 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。 |
レート制限[*] | 1 分あたり 60 回のリクエスト |
最新のアップデート | 2023 年 12 月 |
これらのモデル バリエーションの機能については、例をご覧ください。
[*] トークンは Gemini モデルで約 4 文字に相当します。100 トークンは約 60 ~ 80 英単語です。
[**] RPM: 1 分あたりのリクエスト数
TPM: 1 分あたりのトークン数
RPD: 1 日あたりのリクエスト数
TPD: 1 日あたりのトークン数
容量制限により、指定された最大レート制限は保証されません。
モデル バージョン名のパターン
Gemini モデルには、プレビュー バージョンと安定版があります。コードでは、次のいずれかのモデル名形式を使用して、使用するモデルとバージョンを指定できます。
最新: 指定した世代とバリエーションのモデルの最新バージョンを指します。基盤となるモデルは定期的に更新され、プレビュー版の場合もあります。このエイリアスは、探索的テストのアプリとプロトタイプにのみ使用してください。
最新バージョンを指定するには、
<model>-<generation>-<variation>-latest
のパターンを使用します。例:gemini-1.0-pro-latest
。最新の安定版: 指定したモデル世代とバリエーション向けにリリースされた最新の安定版を指します。
最新の安定版を指定するには、
<model>-<generation>-<variation>
のパターンを使用します。例:gemini-1.0-pro
安定版: 特定の安定版モデルを指します。安定版のモデルは変わりません。ほとんどの本番環境アプリは、特定の安定版モデルを使用する必要があります。
安定版を指定するには、
<model>-<generation>-<variation>-<version>
のパターンを使用します。例:gemini-1.0-pro-001
。