Gemini Deep Research 現已推出預先發布版，提供協作規劃、視覺化、MCP 支援等功能。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

長脈絡

許多 Gemini 模型都提供 100 萬個以上的詞元脈絡窗口。過去，大型語言模型 (LLM) 一次可傳遞給模型的文字 (或權杖) 數量有限，Gemini 長脈絡窗口可支援許多新的應用實例和開發人員範例。

您目前用於文字生成或多模態輸入等用途的程式碼，無需任何變更即可搭配長脈絡使用。

這份文件將概略說明如何使用脈絡窗口達 100 萬個以上詞元的模型。本頁面簡要介紹脈絡窗口，並探討開發人員應如何看待長脈絡、長脈絡的各種實際用途，以及如何最佳化長脈絡的使用方式。

如要瞭解特定模型的脈絡窗口大小，請參閱「模型」頁面。

什麼是脈絡窗口？

使用 Gemini 模型的基本方式是將資訊 (脈絡) 傳遞給模型，模型隨後會生成回覆。情境視窗就像短期記憶。人的短期記憶體可儲存的資訊量有限，生成模型也是如此。

如要進一步瞭解模型運作方式，請參閱生成模型指南。

開始使用長內容

舊版生成模型一次只能處理 8,000 個權杖。新版模型更進一步，可接受 32,000 個，甚至是 128,000 個權杖。Gemini 是第一個可接受 100 萬個權杖的模型。

實務上，100 萬個權杖會如下所示：

50,000 行程式碼 (每行標準 80 個半形字元)
過去 5 年內傳送的所有簡訊
8 本平均長度的英文小說
超過 200 集平均長度的 Podcast 轉錄稿

許多其他模型常見的脈絡窗口較小，因此通常需要採取策略，例如任意捨棄舊訊息、摘要內容、搭配向量資料庫使用 RAG，或篩選提示來節省權杖。

雖然這些技術在特定情境中仍有價值，但 Gemini 的脈絡窗口範圍廣泛，因此建議採用更直接的方法：預先提供所有相關資訊。Gemini 模型專為龐大的脈絡功能而打造，因此展現了強大的脈絡內學習能力。舉例來說，Gemini 僅使用情境內教學教材 (500 頁的參考文法、字典和約 400 個平行句子)，就學會將英文翻譯成卡拉芒文。卡拉芒文是巴布亞語言，使用者不到 200 人，但 Gemini 的翻譯品質與使用相同教材的人類學習者相近。這說明 Gemini 長脈絡功能帶來的典範轉移，透過強大的脈絡內學習功能，開創全新可能性。

長脈絡用途

雖然大多數生成式模型的標準用途仍是文字輸入，但 Gemini 模型系列可支援全新的多模態用途。這些模型可原生理解文字、影片、音訊和圖片。並搭配 Gemini API，可接收多模態檔案類型，方便使用。

長篇文字

事實證明，文字是 LLM 發展動能背後的重要智慧層。如前文所述，LLM 的許多實用限制，都是因為沒有足夠大的脈絡視窗來執行特定工作。這促使檢索增強生成 (RAG) 和其他技術迅速普及，可動態為模型提供相關情境資訊。現在，隨著脈絡窗口越來越大，我們可以使用新技術，發掘新的應用情境。

文字型長背景資訊的新興和標準用途包括：

生成大量文字的摘要
- 如果使用較小的脈絡模型，先前的摘要選項會需要滑動視窗或其他技術，才能在將新權杖傳遞至模型時，保留先前章節的狀態
問答
- 由於脈絡量有限，且模型的事實回憶率偏低，因此過去只有 RAG 才能做到這點
代理工作流程
- 文字是代理程式記錄已完成事項和待辦事項的基礎，如果缺乏世界和代理程式目標的相關資訊，代理程式的可靠性就會受到限制

大量樣本脈絡學習是長脈絡模型最獨特的功能之一。研究顯示，採用常見的「單樣本」或「多樣本」範例範式，向模型呈現一或多個工作範例，並將範例擴增至數百、數千，甚至數十萬個，可帶來全新的模型功能。研究結果顯示，這種多樣本方法與針對特定工作微調的模型效能相近。如果 Gemini 模型在某些應用情境中的效能仍不足以用於正式版，可以嘗試多樣本方法。如您稍後在長內容最佳化一節中瞭解，內容快取可大幅降低這類高輸入權杖工作負載的成本，在某些情況下甚至能縮短延遲時間。

長篇影片

長期以來，由於影片本身缺乏無障礙功能，因此影片內容的實用性受到限制。難以快速瀏覽內容、轉錄稿經常無法捕捉影片的細微差異，而且大多數工具無法同時處理圖片、文字和音訊。Gemini 的長文脈文字功能可解讀多模態輸入內容，並持續提供優異的推理和問答能力。

影片長背景資訊的新興和標準用途包括：

影片問答
影片記憶體，如 Google 的 Project Astra 所示
影片字幕
影片推薦系統，透過新的多模態理解功能豐富現有中繼資料
影片客製化：查看資料和相關影片中繼資料，然後移除與觀眾無關的影片部分
影片內容審查
即時影片處理

處理影片時，請務必考量影片如何轉換為權杖，這會影響帳單和用量限制。如要進一步瞭解如何使用影片檔案提示，請參閱提示指南。

長篇音訊

Gemini 模型是首批可解讀音訊的本質多模態大型語言模型。過去，開發人員通常會將多個特定領域的模型串連在一起，例如語音轉文字模型和文字轉文字模型，藉此處理音訊。這導致執行多個往返要求時需要額外延遲，且效能下降通常歸因於多個模型設定的架構中斷連線。

音訊背景資訊的新興和標準用途包括：

即時語音轉錄及翻譯
Podcast / 影片問答
會議語音轉錄和摘要
語音助理

如要進一步瞭解如何使用音訊檔案提示，請參閱提示指南。

長脈絡最佳化

使用長脈絡和 Gemini 模型時，主要最佳化方式是使用脈絡快取。除了先前無法在單一要求中處理大量詞元，另一個主要限制是費用。假設您有一個「與資料對話」應用程式，使用者上傳了 10 份 PDF、一部影片和一些工作文件。過去，您必須使用較複雜的檢索增強生成 (RAG) 工具/框架來處理這些要求，並支付大量權杖費用，才能將資料移至內容視窗。現在您可以快取使用者上傳的檔案，並按小時付費儲存這些檔案。舉例來說，使用 Gemini Flash 時，每項要求的輸入 / 輸出費用比標準輸入 / 輸出費用低約 4 倍，因此如果使用者與資料的對話次數夠多，您身為開發人員就能大幅節省費用。

長脈絡限制

在本指南的各個章節中，我們說明瞭 Gemini 模型如何在各種大海撈針檢索評估中，展現優異的效能。這些測試會考量最基本的設定，也就是您要尋找單一針頭。如果有多個「針」或特定資訊要尋找，模型的準確度會降低。成效可能會因脈絡而異。請務必考慮這點，因為擷取正確資訊和成本之間存在固有的取捨關係。單一查詢的準確率可達 99%，但每次傳送查詢時，您都必須支付輸入權杖費用。因此，如要擷取 100 筆資訊，且需要 99% 的效能，您可能需要傳送 100 個要求。這就是一個很好的例子，說明內容快取如何大幅降低使用 Gemini 模型相關的成本，同時維持高效能。

常見問題

在脈絡窗口中，查詢的最佳位置在哪裡？

在大多數情況下，如果整體脈絡很長，將查詢 / 問題放在提示結尾 (所有其他脈絡之後)，模型效能會更好。

在查詢中加入更多權杖時，模型效能是否會受到影響？

一般來說，如果不需要將權杖傳遞至模型，最好避免傳遞。不過，如果有一大段含有某些資訊的詞元，且想詢問與該資訊相關的問題，模型就能準確擷取資訊 (在許多情況下，準確率高達 99%)。

如何透過長內容查詢降低費用？

如果您有一組類似的權杖 / 脈絡想重複使用多次，脈絡快取功能有助於減少與該資訊相關的提問費用。

背景資訊長度會影響模型延遲嗎？

無論要求大小為何，都會有固定的延遲時間，但一般來說，查詢時間越長，延遲時間 (第一個權杖的時間) 就越長。