Gemini 2.0 Flash 和 Gemini 1.5 Flash 的脈絡窗口支援 100 萬個詞元,Gemini 1.5 Pro 的脈絡窗口支援 200 萬個詞元。以往,大型語言模型 (LLM) 會受到一次可傳送至模型的文字 (或符記) 數量限制。Gemini 1.5 的長脈絡窗口可近乎完美地擷取資料(>99%),發掘許多新的應用情境和開發人員模式。
您已在文字產生或多模態輸入等情況下使用這些程式碼,這些程式碼會在長時間的背景下運作。
在本指南中,您將簡要瞭解脈絡視窗的基本概念、開發人員應如何思考長脈絡、長脈絡的各種實際用途,以及如何最佳化長脈絡的使用方式。
什麼是脈絡窗口?
使用 Gemini 模型的基本方式,就是將資訊 (脈絡) 傳遞至模型,讓模型隨後產生回應。將情境視窗比喻為短期記憶。人類的短期記憶容量有限,生成式模型也是如此。
如要進一步瞭解模型的運作方式,請參閱生成式模型指南。
開始使用長時間內容
過去幾年內建立的生成式模型,大多只能一次處理 8,000 個符記。較新的型號則進一步接受 32,000 個或 128,000 個符記。Gemini 1.5 是第一個可接受 100 萬個符號的模型,現在則是透過 Gemini 1.5 Pro 支援 200 萬個符號。
實際上,100 萬個符記會如下所示:
- 50,000 行程式碼 (每行標準 80 個半形字元)
- 過去 5 年內傳送的所有簡訊
- 8 本平均長度的英文小說
- 超過 200 個平均長度的 Podcast 節目逐字稿
雖然模型可以納入越來越多的背景資訊,但許多關於使用大型語言模型的傳統智慧都假設模型有這個固有限制,但自 2024 年起,這已不再是事實。
以下是處理小型內容視窗限制的常見策略:
- 當新文字傳入時,任意從脈絡視窗中刪除舊訊息 / 文字
- 當內容視窗即將滿時,摘要先前內容並以摘要取代
- 搭配使用 RAG 和語意搜尋,將資料從脈絡窗口移至向量資料庫
- 使用決定性或產生式篩選器,從提示中移除特定文字/字元,以便儲存符記
雖然在某些情況下,這些參數仍有相關性,但現在的預設起始位置是將所有符記放入脈絡視窗。由於 Gemini 模型是專門用於長脈絡窗口,因此更能進行脈絡內學習。舉例來說,只要提供相關的學習材料 (500 頁的參考文法、字典和約 400 個額外的平行句子),Gemini 1.5 Pro 和 Gemini 1.5 Flash 就能學習翻譯從英文翻譯成 Kalamang 語言,這種語言的使用者不到 200 人,因此幾乎沒有在網路上出現,但翻譯品質與從相同材料學習的使用者相似。
這個範例強調了 Gemini 模型的長篇幅背景資訊和內容相關學習功能,可讓您開始思考可能的應用方式。
長脈絡用途
雖然大多數生成式模型的標準用途仍是文字輸入,但 Gemini 1.5 模型系列可支援多模態用途的新典範。這些模型可原生理解文字、影片、音訊和圖片。這些模型會搭配 Gemini API,以便處理多模態檔案類型。
長篇文字
文字已證明是 LLM 的動力來源之一。如前文所述,LLM 的實際限制大多是因為沒有足夠大的背景資訊視窗來執行特定工作。因此,我們迅速採用檢索增強生成 (RAG) 和其他技術,這些技術可為模型動態提供相關情境資訊。隨著脈絡窗口越來越大 (Gemini 1.5 Pro 目前最多可達 200 萬個詞元),我們也推出了新的技術,讓您發掘更多用途。
文字型長篇背景資訊的幾種新興和標準用途包括:
- 摘錄大量文字的語料庫
- 先前的摘要選項使用較小的脈絡模型,因此需要使用滑動視窗或其他技巧,在將新符記傳遞至模型時,保留先前部分的狀態
- 問與答
- 以往,由於背景資訊有限,且模型的事實回憶率偏低,因此只有 RAG 能夠做到這一點
- 代理人工作流程
- 文字是代理程式記錄自身已完成和需要完成的狀態的基礎;如果沒有足夠的資訊,代理程式就無法瞭解環境和自身目標,這會影響代理程式的可靠性
多樣本情境學習是長篇幅情境模型最獨特的功能之一。研究顯示,採用常見的「單樣本」或「多樣本」示例模式,也就是為模型提供一或數個任務範例,並將範例數量擴大至數百、數千或數十萬個,可帶來新穎的模型功能。這項多鏡頭方法的效能也與針對特定任務微調的模型相似。如果 Gemini 模型的效能尚不足以在實際工作環境中推廣,您可以嘗試多重拍攝方法。稍後您將在長時間背景資訊最佳化部分中瞭解,背景資訊快取可讓這類高輸入符記工作負載的經濟效益更高,在某些情況下甚至可降低延遲時間。
長篇影片
長期以來,由於媒體本身缺乏無障礙性,因此限制了影片內容的實用性。內容難以瀏覽、轉錄稿通常無法捕捉影片的細微差異,而且大多數工具不會同時處理圖片、文字和音訊。有了 Gemini 1.5,長脈絡文字功能可讓系統以持續的效能,推理並回答多模態輸入內容的問題。在使用 100 萬個符號進行影片資料庫中針孔問題的測試時,Gemini 1.5 Flash 在脈絡窗口中取得 99.8% 的影片回憶率,而 1.5 Pro 在 Video-MME 基準測試中達到最佳效能。
以下列舉一些新興和標準的長篇影片背景資訊用途:
- 影片問題與解答
- Google Project Astra 顯示的影片記憶體
- 影片字幕
- 影片推薦系統,透過新的多模態理解功能豐富現有中繼資料
- 透過查看資料集和相關影片中繼資料,然後移除與觀眾不相關的部分影片片段,以便自訂影片
- 影片內容審查
- 即時處理影片
處理影片時,請務必考量影片如何轉換為符記,這會影響帳單和使用限制。如要進一步瞭解如何使用影片檔案提示,請參閱提示指南。
長篇音訊
Gemini 1.5 模型是第一個可理解音訊的原生多模態大型語言模型。以往,開發人員為了處理音訊,通常會串連多個特定領域的模型 (例如語音轉文字模型和文字轉文字模型),這會導致執行多個往返要求所需的延遲時間增加,並降低效能,這通常是因為多個模型設定的架構未連結。
在標準音訊雜訊評估中,Gemini 1.5 Pro 可在 100% 的測試中找到隱藏的音訊,Gemini 1.5 Flash 則可在 98.7% 的測試中找到隱藏的音訊。Gemini 1.5 Flash 最多可在單一要求中接受 9.5 小時的音訊,而 Gemini 1.5 Pro 則可使用 200 萬個詞元的脈絡窗口,最多接受 19 小時的音訊。此外,在 15 分鐘音訊片段的測試集上,Gemini 1.5 Pro 的字詞錯誤率 (WER) 約為 5.5%,比專門的語音轉文字模型還要低,而且不需要額外進行輸入區隔和預先處理,因此不必擔心複雜度增加。
音訊背景資訊的一些新興和標準用途包括:
- 即時語音轉錄和翻譯
- Podcast / 影片問答
- 會議語音轉錄和摘要
- 語音助理
如要進一步瞭解如何使用音訊檔案提示,請參閱提示指南。
長脈絡最佳化
使用長脈絡和 Gemini 1.5 模型時,主要最佳化方式是使用脈絡快取。除了先前提到的在單一要求中處理大量符記的可能性之外,成本也是另一個主要限制。如果您有一個「與資料對話」應用程式,使用者上傳 10 個 PDF、一個影片和一些工作文件,過去您必須使用更複雜的擷取擴增產生 (RAG) 工具/架構,才能處理這些要求,並為移至內容視窗的符記支付大量費用。您現在可以快取使用者上傳的檔案,並依每小時付費儲存檔案。舉例來說,使用 Gemini 1.5 Flash 時,每個要求的輸入 / 輸出成本約為標準輸入 / 輸出成本的 4 倍,因此如果使用者與資料進行大量對話,開發人員就能節省大量成本。
長脈絡限制
在本指南的各個部分,我們討論了 Gemini 1.5 模型如何在各種針尖搜尋擷取評估中達成高效能。這些測試會考量最基本的設定,也就是您要尋找單一針頭。如果您可能有多個「針」或特定資訊,模型的準確度就不會相同。成效可能會因脈絡而有極大差異。這點相當重要,因為取得正確的擷取資訊與成本之間存在著天生的權衡。您可以透過單一查詢取得約 99% 的結果,但每次傳送該查詢時,都必須支付輸入符記費用。因此,如果要擷取 100 個資訊,如果您需要 99% 的成效,可能就需要傳送 100 個要求。這就是一個很好的例子,說明在使用 Gemini 模型時,快取內容可大幅降低相關成本,同時維持高效能。
常見問題
在查詢中加入更多符記會降低模型效能嗎?
一般來說,如果您不需要將符記傳遞至模型,最好避免傳遞符記。不過,如果您有大量含有部分資訊的符記,且想針對該資訊提出問題,模型就能有效地擷取該資訊 (在許多情況下,準確度可達 99%)。
Gemini 1.5 Pro 在標準的針孔測試中表現如何?
Gemini 1.5 Pro 可在 53 萬個詞元內達到 100% 回憶率,在 100 萬個詞元內達到 >99.7% 回憶率。
如何透過長式內容查詢降低成本?
如果您有要多次重複使用的相似符記 / 內容,內容快取功能可協助降低與該資訊相關的查詢成本。
如何存取支援 200 萬個符號的脈絡窗口?
所有開發人員現在都能透過 Gemini 1.5 Pro 使用 200 萬個符號的脈絡窗口。
背景資訊長度會影響模型延遲時間嗎?
無論大小為何,任何要求都會產生固定的延遲時間,但通常較長的查詢會產生較長的延遲時間 (第一個符記的時間)。
Gemini 1.5 Flash 和 Gemini 1.5 Pro 的長篇對話功能是否不同?
是的,本指南的不同章節提到了一些數字,但一般來說,Gemini 1.5 Pro 在大多數長脈絡用途上表現較佳。