Gemini

Gemini は、デベロッパーがコンテンツを生成して問題を解決できる生成 AI モデルのファミリーです。これらのモデルは、テキストと画像の両方を入力として処理するように設計、トレーニングされています。このガイドでは、各モデル バリアントに関する情報を提供し、どちらがユースケースに最も適しているかを判断するのに役立ちます。

安全性と使用目的

生成 AI モデルは強力なツールですが、制限が存在します。その汎用性と適用性により、不正確、バイアス、不適切な出力など、予期しない出力が発生する可能性があります。このような出力による被害のリスクを抑えるには、後処理と厳格な手動評価が不可欠です。安全な使用に関するその他の推奨事項については、安全に関するガイダンスをご覧ください。

Gemini API が提供するモデルは、さまざまな生成 AI や自然言語処理(NLP)アプリケーションに使用できます。これらの機能は、Gemini API または Google AI Studio ウェブアプリでのみ使用できます。Gemini API の使用には、生成 AI の使用禁止に関するポリシーGemini API の利用規約も適用されます。

モデル バリエーション

Gemini API には、特定のユースケース向けに最適化されたさまざまなモデルが用意されています。利用可能な Gemini のバリエーションの概要は次のとおりです。

モデル バリアント 入力 出力 最適な用途
Gemini 1.5 Pro(プレビュー) 音声、画像、テキスト テキスト 推論タスク(コードとテキストの生成、テキスト編集、問題解決、データの抽出、生成など)
Gemini 1.5 Flash(プレビュー) 音声、画像、テキスト テキスト さまざまなタスクに対応する高速で汎用性の高いパフォーマンス
Gemini 1.0 Pro テキスト テキスト 自然言語タスク、マルチターンのテキスト チャットとコードチャット、コード生成
Gemini 1.0 Pro Vision 画像とテキスト テキスト 画像の説明の生成や画像内のオブジェクトの識別など、視覚関連のタスク向けに最適化されたパフォーマンス
テキスト エンベディング テキスト テキスト エンベディング 最大 2,048 トークンのテキストに対して最大 768 ディメンションの弾力性のあるテキスト エンベディングを生成
埋め込み テキスト テキスト エンベディング 最大 2,048 トークンのテキスト用に 768 次元のテキスト エンベディングを生成する
品質評価 テキスト テキスト 指定されたテキストに対して、帰属する質問応答に関連するタスクを行う

次の表に、すべてのモデル バリアントに共通する Gemini モデルの属性を示します。

属性 説明
トレーニング データ Gemini のナレッジのカットオフは 2023 年初頭です。それ以降に発生したイベントに関する情報は制限されます。
対応している言語 対応言語を見る
構成可能なモデル パラメータ
  • トップ P
  • トップ K
  • Temperature
  • 停車シーケンス
  • 最大出力長
  • 回答候補の数

これらの各パラメータの詳細については、生成モデルガイドのモデル パラメータのセクションをご覧ください。

Gemini 1.5 Pro(プレビュー)

Gemini 1.5 Pro は、次のような幅広い推論タスク向けに最適化された中規模のマルチモーダル モデルです。

  • コード生成
  • テキスト生成
  • テキスト編集
  • 問題を解決する
  • 推奨事項の生成
  • 情報抽出
  • データの抽出または生成
  • AI エージェントの作成

1.5 Pro では、1 時間の動画、9.5 時間分の音声、30,000 行を超えるコードや 700,000 語を超えるコードベースなど、大量のデータを一度に処理できます。

1.5 Pro は、ゼロショット、ワンショット、少数ショット学習タスクに対応できます。

モデルの詳細

プロパティ 説明
モデルコード models/gemini-1.5-pro-latest
入力 音声、画像、テキスト
出力 テキスト
サポートされている生成方法 generateContent
入力トークンの上限[**] 1,048,576
出力トークンの上限 [**] 8,192
プロンプトあたりの画像の最大数 3,600
動画の長さの上限 1 時間
音声の最大長 約 9.5 時間
プロンプトあたりの音声ファイルの最大数 1
モデルの安全性 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。
レート制限[*]
無料:
  • 2 rpm
  • 32,000 TPM
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 rpm
  • 1,000 万 TPM
  • 10,000 RPD
  • 14,400,000,000 TPD
200 万件のコンテキスト:
  • 1 rpm
  • 200 万 TPM
  • 50 RPD
システムの指示 サポート対象
JSON モード サポート対象
最新バージョン gemini-1.5-pro-latest
最新の安定版 gemini-1.5-pro
最新のアップデート 2024 年 4 月

Gemini 1.5 Flash(プレビュー)

Gemini 1.5 Flash は、さまざまなタスクに合わせてスケーリングできる、高速で汎用性の高いマルチモーダル モデルです。

モデルの詳細

プロパティ 説明
モデルコード gemini-1.5-flash
入力 音声、画像、テキスト
出力 テキスト
サポートされている生成方法 generateContent
入力トークンの上限[**] 1,048,576
出力トークンの上限 [**] 8,192
プロンプトあたりの画像の最大数 3,600
動画の長さの上限 1 時間
音声の最大長 約 9.5 時間
プロンプトあたりの音声ファイルの最大数 1
モデルの安全性 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。
レート制限[*]
無料:
  • 15rpm
  • 100 万 TPM
  • 1,500 RPD
Pay-as-you-go:
  • 360 rpm
  • 1,000 万 TPM
  • 10,000 RPD
システムの指示 サポート対象
JSON モード サポート対象
最新バージョン gemini-1.5-flash-latest
最新の安定版 gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro は、マルチターンのテキスト チャットやコードチャット、コード生成などのタスクを処理する NLP モデルです。

1.0 Pro は、ゼロショット、ワンショット、少数ショット学習タスクに対応できます。

モデルの詳細

プロパティ 説明
モデルコード models/gemini-pro
入力 テキスト
出力 テキスト
サポートされている生成方法
Python: generate_content
REST: generateContent
レート制限[*]
無料:
  • 15rpm
  • 32,000 TPM
  • 1,500 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 rpm
  • 120,000 TPM
  • 30,000 RPD
  • 172,800,000 TPD
システムの指示 サポート対象外
JSON モード サポート対象外
最新バージョン gemini-1.0-pro-latest
最新の安定版 gemini-1.0-pro
安定版 gemini-1.0-pro-001
最新のアップデート 2024 年 2 月

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision は、パフォーマンスが最適化されたマルチモーダル モデルで、ビジュアル関連のタスクを実行できるものです。たとえば、1.0 Pro Vision では、画像の説明の生成、画像内のオブジェクトの特定、画像内の場所やオブジェクトに関する情報の提供などを行うことができます。

1.0 Pro Vision は、ゼロショット、ワンショット、少数ショットのタスクを処理できます。

モデルの詳細

プロパティ 説明
モデルコード models/gemini-pro-vision
入力 テキストと画像
出力 テキスト
サポートされている生成方法
Python: generate_content
REST: generateContent
入力トークンの上限 [*] 12,288
出力トークンの上限 [*] 4,096
最大画像サイズ 上限なし
プロンプトあたりの画像の最大数 16
動画の長さの上限 2 分
メッセージあたりの動画の最大数 1
モデルの安全性 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。
レート制限[*] 1 分あたり 60 回のリクエスト
最新バージョン gemini-1.0-pro-vision-latest
最新の安定版 gemini-1.0-pro-vision
最新のアップデート 2023 年 12 月

テキストの埋め込みと埋め込み

テキスト エンベディング

Text Embedding モデルを使用して、入力テキストのテキスト エンベディングを生成できます。テキスト エンベディング モデルの詳細については、テキスト エンベディングに関する Vertex AI の生成 AI のドキュメントをご覧ください。

Text Embedding モデルは、最大 2,048 トークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。テキスト エンベディングでは、768 未満のエラスティックなエンベディング サイズを使用できます。弾力性のあるエンベディングを使用すると、より小さな出力ディメンションを生成できます。また、パフォーマンスをわずかに低下させるだけで、コンピューティングとストレージの費用を節約できる可能性があります。

モデルの詳細
プロパティ 説明
モデルコード models/text-embedding-004Vertex AI では text-embedding-preview-0409
入力 テキスト
出力 テキスト エンベディング
入力トークンの上限 2,048
出力ディメンション サイズ 768
サポートされている生成方法
Python: embed_content
REST: embedContent
モデルの安全性 調整可能な安全設定はありません。
レート制限[*] 1 分あたり 1,500 回のリクエスト
最新のアップデート 2024 年 4 月

エンべディング

エンベディング モデルを使用すると、入力テキストのテキスト エンベディングを生成できます。

エンベディング モデルは、最大 2,048 トークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。

エンベディング モデルの詳細
プロパティ 説明
モデルコード models/embedding-001
入力 テキスト
出力 テキスト エンベディング
入力トークンの上限 2,048
出力ディメンション サイズ 768
サポートされている生成方法
Python: embed_content
REST: embedContent
モデルの安全性 調整可能な安全設定はありません。
レート制限[*] 1 分あたり 1,500 回のリクエスト
最新のアップデート 2023 年 12 月

AQA

AQA モデルを使用すると、ドキュメント、コーパス、または一連の文に対して、Attributed Question-Answering(AQA)関連のタスクを実行できます。AQA モデルは、回答可能な確率を推定し、提供された情報源に基づく質問への回答を返します。

モデルの詳細

プロパティ 説明
モデルコード models/aqa
入力 テキスト
出力 テキスト
サポートされている生成方法
Python: GenerateAnswerRequest
REST: generateAnswer
対応している言語 英語
入力トークンの上限[**] 7,168
出力トークンの上限 [**] 1,024
モデルの安全性 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。
レート制限[*] 1 分あたり 60 回のリクエスト
最新のアップデート 2023 年 12 月

これらのモデル バリエーションの機能については、をご覧ください。

[*] トークンは Gemini モデルで約 4 文字に相当します。100 トークンは約 60 ~ 80 英単語です。

[**] RPM: 1 分あたりのリクエスト数
TPM: 1 分あたりのトークン数
RPD: 1 日あたりのリクエスト数
TPD: 1 日あたりのトークン数

容量制限により、指定された最大レート制限は保証されません。

モデル バージョン名のパターン

Gemini モデルには、プレビュー バージョンと安定版があります。コードでは、次のいずれかのモデル名形式を使用して、使用するモデルとバージョンを指定できます。

  • 最新: 指定した世代とバリエーションのモデルの最新バージョンを指します。基盤となるモデルは定期的に更新され、プレビュー版の場合もあります。このエイリアスは、探索的テストのアプリとプロトタイプにのみ使用してください。

    最新バージョンを指定するには、<model>-<generation>-<variation>-latest のパターンを使用します。例: gemini-1.0-pro-latest

  • 最新の安定版: 指定したモデル世代とバリエーション向けにリリースされた最新の安定版を指します。

    最新の安定版を指定するには、<model>-<generation>-<variation> のパターンを使用します。例: gemini-1.0-pro

  • 安定版: 特定の安定版モデルを指します。安定版のモデルは変わりません。ほとんどの本番環境アプリは、特定の安定版モデルを使用する必要があります。

    安定版を指定するには、<model>-<generation>-<variation>-<version> のパターンを使用します。例: gemini-1.0-pro-001