長いコンテキスト

Gemini 1.5 Flash には 100 万トークンのコンテキスト ウィンドウが標準装備されています。 Gemini 1.5 Pro には 200 万トークンのコンテキスト ウィンドウが用意されています。従来は大規模で、 言語モデル(LLM)は、テキストの量によって大幅に制限されていました。 トークンなど)をモデルに一度に渡すことができます。Gemini 1.5 ロング コンテキスト ウィンドウがあり、ほぼパーフェクトなリトリーブ (>99%)、 多くの新しいユースケースとデベロッパー パラダイムが実現します。

テキスト メッセージやテキスト メッセージなどのケースですでに使用している 生成またはマルチモーダル 入力は、長いコンテキストですぐに機能します。

このガイドでは、コンテキスト ウィンドウの基本について簡単に説明します。 長い背景、現実世界でのさまざまなユースケースについて 長いコンテキストの使用を最適化する方法が含まれます。

コンテキスト ウィンドウとは

Gemini 1.5 モデルの基本的な使い方は、情報(コンテキスト)を渡すことです。 回答が生成されます。その後、回答が生成されます。これは、 短期メモリです利用できる情報は限られている 他人の短期記憶に保存できます。これは、 説明します。

モデルの内部の仕組みについては、生成モデルで詳しく説明しています。 ガイドをご覧ください。

長いコンテキストを使ってみる

過去数年間で作成された生成モデルのほとんどは、 8,000 個のトークンを処理しています新しいモデルでは、これを採用することで 32,000 トークンまたは 128,000 トークン。Gemini 1.5 は 今では Gemini 1.5 では 100 万トークンを受け入れ、現在では 200 万トークンを使用 Pro

実際には、100 万トークンは次のようになります。

  • 50,000 行のコード(1 行あたり標準の 80 文字)
  • 過去 5 年間に送信したすべてのテキスト メッセージ
  • 平均的な英語の小説 8 冊
  • 平均 200 本以上のポッドキャスト エピソードの文字起こし

モデルにより多くのコンテキストを 取り入れることができますが 大規模言語モデルの使用に関する従来の見解では、 モデルの制限は、2024 年の時点ではなくなりました。

小さなコンテキスト ウィンドウの制限に対処する一般的な戦略 含まれるもの:

  • コンテキスト ウィンドウの古いメッセージやテキストを新しいテキストとして任意にドロップ 入ってくる
  • 以前のコンテンツを要約し、 コンテキスト ウィンドウが満杯に近づく
  • セマンティック検索で RAG を使用してコンテキスト ウィンドウからデータを移動し、 ベクトルデータベースに読み込みます。
  • 決定的フィルタまたは生成フィルタを使用して特定のテキストを削除する / トークンを保存するために、プロンプトに

これらの多くが特定のケースでは依然として関連していますが、 すべてのトークンをコンテキスト ウィンドウに入れます。なぜなら、 Gemini 1.5 のモデルは、長いコンテキスト ウィンドウを備えた目的に特化しており、 コンテキスト内学習ができるようになります。たとえば、説明的な内容のみを含む場合は、 (500 ページの参照文法、辞書、約 400 のその他の並列教材) Gemini 1.5 Pro と Gemini 1.5 Flash は、 Google 搭載の自動車では 英語からカラマン(話し手 200 人未満のパプア語)に翻訳しました。 オンライン プレゼンスがほとんどなく、 同じ材料から抽出できます

この例は、Google Cloud で実現できることを コンテキスト内学習機能を統合しました。

長いコンテキストのユースケース

ほとんどの生成モデルの標準的なユースケースは依然としてテキスト入力ですが、 Gemini 1.5 モデル ファミリーは、マルチモーダル ユースケースの新しいパラダイムを実現します。これらの テキスト、動画、音声、画像をネイティブに理解できます。内容は次のとおりです。 マルチモーダル ファイルを受け取るGemini API が タイプ 便利です。

長い形式のテキスト

テキストは 世界中の人々の生活の多くを 支えているインテリジェンスの層である 大きな期待が寄せられています前述のように、システムの実際的な制限のほとんどは、 LLM は、特定の処理を行うのに十分なコンテキスト ウィンドウがなかったために発生していた できます。これにより、検索拡張生成(RAG)が急速に採用され、 その他の手法により、モデルに関連性の高い コンテキスト情報を提供します。現在では、コンテキスト ウィンドウの 最大 200 万件)、新しい手法が利用可能に 新しいユースケースの可能性が広がります

テキストベースの長いコンテキストの新たな標準的なユースケースには、次のようなものがあります。

  • 大規模なテキスト コーパスの要約 <ph type="x-smartling-placeholder">
      </ph>
    • コンテキスト モデルが小さい以前の要約オプションでは、 スライディング ウィンドウなどの手法で前のセクションの状態を保持する 新しいトークンがモデルに渡されると、
  • 質問応答 <ph type="x-smartling-placeholder">
      </ph>
    • これまでは RAG を使用する場合にしか対応できませんでしたが、 コンテキストとモデルの事実の再現率が低い
  • エージェント型のワークフロー <ph type="x-smartling-placeholder">
      </ph>
    • テキストは、エージェントが行ったことの状態を維持するための基盤である 把握するのに役立ちます。世界に関する情報が十分にない エージェントの目標は、エージェントの信頼性の限界を

多数ショットのコンテキスト内学習は、 長いコンテキスト モデルによって実現されるほとんどの独自機能。調査によると、 一般的な「シングルショット」マルチショットサンプル パラダイムであり、 いくつかのタスクの例が与えられ、それを 何百、何千、数十万のサンプルから、 新しいモデル機能を提供します。この多ショット アプローチは、 特定のタスク向けにファインチューニングされた モデルに似ていますユースケース別 Gemini モデルのパフォーマンスがまだ本番環境に 多数ショット アプローチを試すことができます。このコースで後ほど説明するように、 長いコンテキスト最適化セクション。コンテキスト キャッシュにより、このタイプの入力負荷が増大する トークン ワークロードよりもはるかに経済的に実現でき、一部の環境ではレイテンシが 対応できます

長尺動画

動画コンテンツの有用性は長年にわたり、アクセシビリティの欠如によって制約されてきた あります。コンテンツを見抜くのが難しかったため、文字起こしに失敗することも多々ある 表現できます。ほとんどのツールは、画像、テキスト、音声を 生成できます。Gemini 1.5 では、長いコンテキストのテキスト機能が マルチモーダル入力に関する推論と回答を パフォーマンスを維持できます。Gemini 1.5 Flash(動画内の針でテストした場合) 100 万トークンの haystack の問題、動画の再現率 99.8% 超 コンテキスト ウィンドウがあり、Android 1.5 Pro は Video-MME ベンチマーク

長尺動画のコンテキストの新たな標準的なユースケースには、次のようなものがあります。

  • 動画での質問と回答
  • Google の Project Astra で表示されるビデオメモリ
  • 動画の字幕作成
  • 動画のレコメンデーション システム。既存のメタデータを新しい マルチモーダル理解
  • データのコーパスと関連動画の確認による動画のカスタマイズ 動画に関係のない部分を削除し、 閲覧者
  • 動画コンテンツの管理
  • リアルタイムの動画処理

動画を制作するときは、動画の品質について 処理されるため、影響します。 料金や使用量の上限を設定できます。動画ファイルを使用したプロンプトについて詳しくは、 プロンプト ガイドをご覧ください。

長時間の音声

Gemini 1.5 モデルは、初のネイティブなマルチモーダル大規模言語モデル 生成 AI です。これまでの一般的なデベロッパーワークフローでは 複数のドメイン固有のモデルをつなぎ合わせる Speech-to-Text モデルと Text-to-Text モデルを組み合わせて、音声を処理します。この 複数回のラウンドトリップ リクエストの実行が必要となり、 パフォーマンスの低下の原因は 多くの場合 モデル化です

標準的なオーディオ スタックの評価では、Gemini 1.5 Pro は Gemini 1.5 Flash は 100% のテストで隠れた音声を検出でき、 企業の 98.7% テストをご覧ください。 Gemini 1.5 Flash は、 request と Gemini 1.5 Pro は、200 万トークンを使用して最大 19 時間の音声を受信できます。 表示されます。さらに、15 分間の音声クリップのテストセットでは、Gemini 1.5 Pro が アーカイブのワードエラー率(WER)は約 5.5% で、特殊なケースよりもはるかに低い 追加の入力セグメンテーションの複雑さを伴わない音声文字変換 行います。

オーディオ コンテキストの新たな標準的なユースケースには、次のようなものがあります。

  • リアルタイムの音声文字変換と翻訳
  • ポッドキャスト / 動画に関する質問と回答
  • 会議の音声文字変換と要約
  • 音声アシスタント

音声ファイルを使用したプロンプトについて詳しくは、プロンプト ガイドをご覧ください。

長いコンテキストの最適化

長いコンテキストと Gemini 1.5 を使用する場合の主な最適化 コンテキストに基づいて キャッシュ保存について説明します。これまでの成果 1 回のリクエストで大量のトークンを処理することは不可能ですが、 制約はコストでした「自分のデータとチャット」を行う場合ユーザーが 10 個の PDF、動画、いくつかの作業ドキュメントがアップロードされ、 より複雑な検索拡張生成(RAG)ツールを使用 / リクエストに対して多くの料金を支払う必要があります。 コンテキスト ウィンドウに移動されました。これで、ユーザーが指定したファイルを 1 時間ごとに有料で保存できます。1 対 1 の入出力の Gemini のリクエスト 1.5 たとえば、Flash は標準の入出力コストの約 4 分の 1 であるため、 ユーザーがデータとチャットするときには 費用の大幅な節約になります 開発者です。

長いコンテキストの制限

このガイドのさまざまなセクションで、Gemini 1.5 モデルがどのようにして 高パフォーマンスを実現しましたこれらの テストでは最も基本的な設定を考慮します。 あります。複数の「針」が必要で特定の要素や特定の要素に モデルのパフォーマンスは、期待どおりの性能は得られません。 向上しますパフォーマンスは、コンテキストによって大きく変わる可能性があります。この パフォーマンスと可用性の間には本質的に トレードオフがあるためです 費用を見積もることができます1 つのクエリで約 99% を取得できますが、 クエリを送信するたびに入力トークンのコストを支払う必要があります。100 に対して 99% のパフォーマンスが必要な場合は 100 件のリクエストを送信する必要があります。これはコンテキストが キャッシュ保存により、Gemini モデルの使用に関連する費用を大幅に削減できます。 パフォーマンスを高く維持します

よくある質問

クエリにトークンを追加すると、モデルのパフォーマンスが低下しますか?

一般に、モデルにトークンを渡す必要がない場合は、 渡さないようにします。ただし、大量のトークンと大量のトークンが その情報について質問したい場合は、 情報を抽出する能力(多くのユースケースでは最大 99% の精度)が 場合)。

Gemini 1.5 Pro は、標準的な「干し草の山から針を見つける」テストでどのように動作しますか?

Gemini 1.5 Pro は、最大 53 万トークンで 100% の再現率を達成、最大 53 万トークンの再現率で 100 万 トークン

コンテキストが長いクエリの費用を抑えるには?

同様のトークン / コンテキストのセットがあり、それらを多数再利用したい場合 コンテキスト キャッシュを使用すると、 関連する情報について質問できます。

200 万トークンのコンテキスト ウィンドウにアクセスするにはどうすればよいですか?

すべてのデベロッパーが Gemini で 200 万トークンのコンテキスト ウィンドウにアクセスできるようになりました 1.5 Pro。

コンテキストの長さはモデルのレイテンシに影響しますか?

リクエストには一定のレイテンシが存在しますが、 ただし、一般的にクエリが長いほどレイテンシが高くなります(最初に あります。

長いコンテキストの機能は、Gemini 1.5 Flash と Gemini 1.5 Pro で異なりますか?

はい。このガイドの別のセクションで説明されている数字もありますが、 一般的に、長いコンテキストのユースケースでは、Gemini 1.5 Pro のほうがパフォーマンスが高くなります。