詳細背景資訊

Gemini 1.5 Flash 標準內建 100 萬個詞元的脈絡窗口, Gemini 1.5 Pro 隨附 200 萬個詞元的脈絡窗口。歷史上,大型 大型語言模型 (LLM) 的文字量相當有限 可一次傳遞至模型的符記Gemini 1.5 版 具有幾乎完美擷取的上下文窗口 (>99%)。 發掘許多新的用途和開發人員模式

您在各種用途 (例如文字 代數或多模態模型 輸入內容內建較長的背景資訊。

本指南將概略探討背景區間的基本概念、 開發人員應思考長篇背景,以及各種實際使用情境 ,以及最佳化長背景脈絡的方法

什麼是背景區間?

Gemini 1.5 模型的基本使用方式就是傳送資訊 (背景資訊) 之後就會產生回應類比 背景脈絡窗口是短期的記憶體,Google 提供了一些資訊 這些物件可以儲存在他人的短期記憶中 生成式模型

如要進一步瞭解模型的運作原理,請參閱生成式模型 指南

開始掌握詳細背景資訊

過去幾年建立而成的生成式模型 一次處理 8,000 個符記較新的模型進一步藉由接受 32,000 個符記或 128,000 個符記。Gemini 1.5 是第一個支援 目前接受 100 萬個符記,現在則是 200 萬元的 Gemini 1.5 Pro

100 萬個符記的實作方式如下:

  • 50,000 行程式碼 (每行的標準 80 個字元)
  • 你過去 5 年傳送的所有簡訊
  • 平均長度 8 部英文小說
  • 超過 200 集 Podcast 節目的平均轉錄稿

雖然模型可以產生更多背景資訊 傳統上,使用大型語言模型的本質假設 自 2024 年起,現已不再受限。

處理小型內容空窗限制的一些常見策略 包含:

  • 任意捨棄內容視窗中的舊訊息 / 文字,做為新文字 進來
  • 總結先前的內容,並在 背景脈絡窗口即將滿
  • 搭配使用 RAG 和語意搜尋,將資料移出內容視窗,並 並轉換為向量資料庫
  • 使用確定性或生成式篩選器移除特定文字 / 儲存符記的提示

儘管在特定情況下仍然相關,但系統預設會 首先將所有符記放入情境視窗。由於 Gemini 1.5 模型是專為長時間的脈絡窗口而建構 更強大的情境式學習功能例如僅提供教學 材料 (一個 500 頁參考文法、一個字典,以及 涵 400 額外平行處理原則) Gemini 1.5 Pro 和 Gemini 1.5 Flash 從英文到喀拉姆邦 - 這是一種巴布亞語言,說話者不到 200 人, 因此幾乎沒有線上形象,品質與 相同的材料

這個範例說明瞭如何開始思考 持續學習,以及 Gemini 1.5 的情境學習功能。

長期背景資訊用途

雖然大多數生成式模型的標準用途仍是文字輸入, Gemini 1.5 模型系列實現了全新的多模態用途範例。這些 能直接理解文字、影片、音訊和圖片這些 隨附的 Gemini API,可採用多模態檔案 type 方便操作

長篇文字

事實證明,文字是 AI 輔助的基礎技術 對 LLM 的發展熱度如先前所述, 大型語言模型的背景脈絡窗口不足 無法確保 機器學習程式庫提供一系列預先編寫的程式碼 可用來執行機器學習工作因此能快速採用檢索增強生成 (RAG) 和其他技術 動態為模型提供 背景資訊。現在,有了更大、更大的背景期間 Gemini 1.5 Pro 提供多達 200 萬個模型,之後將推出新技術 發掘更多新的用途

長篇背景文字的一些新興和標準用途包括:

  • 產生大型文字資料庫的摘要
    • 過去採用小型情境模型的舊版摘要選項 滑動窗口或其他技巧來保留先前部分的狀態 將新權杖傳遞至模型
  • 問答題
    • 以往只有 RAG 能做到這點 內容和模型事實喚回度偏低
  • 代理程式工作流程
    • 文字是客服專員如何維持工作狀態的基礎 以及需要採取的行動沒有足夠的全球資訊 代理程式的目標在於確保代理程式的可靠性

多樣本情境學習是其中一種 最獨特的功能。研究顯示 拍攝常見的「單一畫面」或「多鏡頭」範例範例 模型會提供一或多項任務的示例,並向上擴充 可能會產生 各種創新模型功能根據研究顯示 類似專為特定任務微調的模型用途 Gemini 模型的成效還不足以用於實際工作環境 可以嘗試多樣本方法您之後可以再前往 詳細內容最佳化部分,內容快取功能讓這類重要輸入 因此某些符記工作負載能更經濟實惠,且延遲時間更短 用途

長篇影片

影片內容依舊缺乏無障礙功能而受到限制 和媒體本身很難重點瀏覽內容,所以轉錄稿經常會失敗 以捕捉影片的細微差異,大多數工具都不會處理圖片、文字和 音訊拼湊起來。在 Gemini 1.5 中,文字長篇文字功能可翻譯 生成式 AI 如何推導及回答有關多模態輸入的問題 並維持效能持續運作Gemini 1.5 Flash (在影片需求端進行測試時) 100 萬個符記的 haystack 問題,使 100 萬個符記的記憶率超過 99.8% 而 1.5 Pro 模型則達到了全美的 影片-MME 基準

長片內容適用的一些新興和標準用途包括:

  • 影片問題與回答
  • 視訊記憶體:Google 的 Project Astra 所示
  • 影片字幕
  • 影片推薦系統,充實現有中繼資料, 多模態理解
  • 以資料語料庫和相關影片自訂影片 ,然後移除與影片無關的部分 檢視者
  • 影片內容審核
  • 即時影片處理

製作影片時,必須考量影片本身 就會產生,這影響 帳單與用量限制如要進一步瞭解如何使用影片檔案提示,請參閱 提示 指南

長篇音訊

Gemini 1.5 是第一個原生的多模態大型語言模型 能理解音訊的內容過去,一般開發人員工作流程 包含字串,將多個特定領域模型 (例如 和文字轉文字模型,以便處理音訊這個 執行多次往返要求,導致延遲時間增加 而降低的效能通常與非預期關聯的架構有關 因此需要處理多個模型設定

進行一般語音雜訊評估時,Gemini 1.5 Pro 可以找出 而 Gemini 1.5 Flash 可在測試時 98.7% 測試。 Gemini 1.5 Flash 單次可播放高達 9.5 小時的單一音訊 要求並 Gemini 1.5 Pro 可以使用 200 萬個詞元,最多接收 19 小時的音訊 上下文窗口。此外,Pixel 1.5 Pro 還採用 15 分鐘音訊片段的測試組合。 封存了字詞錯誤率 (WER) 約 5.5%,遠低於專業 不需要額外增加複雜的輸入區隔,即可使用語音轉文字模型 預先處理作業

以下為音訊背景資訊的一些新興和標準用途:

  • 即時語音轉錄及翻譯
  • Podcast / 影片問題與回答
  • 會議語音轉錄和摘要
  • 語音助理

想進一步瞭解如何透過音訊檔案提示,請參閱提示 指南

長期的背景資訊最佳化功能

使用長篇內容搭配 Gemini 1.5 時,主要最佳化調整 模型是使用情境資訊 快取。超越 無法在單一要求中處理大量符記 則是花費您也可以「與資料進行即時通訊」也就是使用者 上傳 10 個 PDF 檔案、1 部影片和 部分工作文件 該模型使用了較複雜的檢索增強生成 (RAG) 工具 / 才能處理這些請求,並支付高額費用 符記就會移動到情境視窗現在,你可以快取使用者的檔案 並支付費用以儲存資料單次的輸入 / 輸出費用 向 Gemini 提出要求 例如,1.5 Flash 比標準輸入 / 輸出費用少 4 倍 ,因此如果 使用者與自己的資料進行即時通訊,這對您來說是省下大筆費用的好時機。 開發人員。

長期背景資訊限制

本指南的各節說明 Gemini 1.5 模型如何實現 在不同公司內部的捕撈器擷取作業中效能優異這些 測試會考慮最基本的設定,只需執行一個 尋找相關資訊如果有多個「需求」或特定片段 表示這個模型和您搜尋的資訊各有不同 準確度。成效可能因情境而異。這個 需要考量的重點在於 並成本和成本單一查詢可獲得 99% 左右的結果,但 每次傳送查詢時,您都必須支付輸入符記費用。100 分 只要取得 99% 的效能 可能只需要傳送 100 個要求這是說明背景資訊的絕佳範例 快取功能可大幅降低使用 Gemini 模型的相關費用 同時維持高成效

常見問題

如果在查詢中加入更多符記,模型效能會降低嗎?

一般來說,如果您不需要將符記傳遞至模型,最好 避免傳遞這些素材資源但如果您需要大量符記 並想對這些資訊提出疑問 以及擷取資訊的能力 (在許多模型中, 案件)。

Gemini 1.5 Pro 執行標準 Dole-in-a-haystack 測試時,如何執行?

Gemini 1.5 Pro 提供 100% 召回 100% 召回權杖,最高 53 萬個符記,超過 99.7% 的記憶力,與 100 萬 符記

如何利用較長的內容查詢來降低費用?

如有一組類似的符記 / 情境,且想重複使用多個符記 但內容快取有助於減少 查看這項資訊

如何存取 200 萬個符記的背景區間?

所有開發人員現可透過 Gemini 存取 200 萬個詞元的脈絡窗口 1.5 Pro。

背景資訊長度是否會影響模型的延遲時間?

無論在任何要求中, 但時間越長的查詢,延遲時間通常也越長 權杖)。

Gemini 1.5 Flash 和 Gemini 1.5 Pro 的上下文功能是否不盡相同?

是的,本指南在不同章節中提到了部分數據,但 一般來說,在大部分背景資訊的情況下,Gemini 1.5 Pro 的表現都更出色。