Gemma 4 推出，支援文字、音訊和圖片輸入，脈絡窗口最長可達 25.6 萬個詞元！瞭解詳情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

視覺解讀

Gemma 4 是 Gemma 系列的最新模型，可執行各種視覺語言工作，例如物件偵測、光學字元辨識 (OCR)、圖像問題回答、圖像說明，以及跨多張圖片的推論。此外，這項技術也支援可變解析度處理，讓您在推論速度和輸出準確度之間取得平衡。

本節將探討如何有效準備及使用提示中的視覺資料。

視覺資料

視覺資料的格式和解析度可能各不相同。支援的特定檔案格式 (例如 JPEG 和 PNG) 取決於您選擇將視覺資料轉換為張量的架構。

為 Gemma 準備視覺資料時，請考量下列幾項重點：

權杖費用：每張圖片通常會使用 256 個權杖，但 PaliGemma 圖片權杖費用會因所選特定模型而異。
解析度：解讀的解析度 (即編碼為權杖並由模型處理的像素數量) 取決於您使用的 Gemma 版本：
- Gemma 4：根據權杖預算調整解析度。您可以選擇 70、140、280、560 或 1120 個權杖的預算大小，這會決定輸入圖片的縮放和處理程度。
- Gemma 3： (4B 以上) 解析度為 896x896，可平移和掃描較大的圖片。
- Gemma 3n：256x256、512x512 或 768x768 解析度
- PaliGemma 2：解析度為 224x224、448x448 或 896x896

解析度較低的圖片處理速度較快，但擷取的視覺細節較少。為提升推論速度，請盡量提供與所選 Gemma 模型內建解讀解析度相符的視覺資料。

Gemma 4 模型可處理不同解析度的圖片，讓您根據特定工作調整視覺輸入內容。舉例來說，您可能會選擇高解析度，以便在物體偵測中找出細微細節，但如果分析個別影片影格是為了加快處理速度，則較低的解析度可能更合適。這項功能可讓您在推論速度和視覺化呈現的準確度之間取得平衡。

您可以使用權杖預算管理這項取捨。這項預算會對模型可為單一圖片生成的視覺符記 (也稱為視覺符記嵌入) 數量設下硬性限制。

你可以選擇 70、140、280、560 或 1120 個權杖的預算：

預算運作方式：權杖預算會直接控管圖片的縮放程度，方法是規定初始圖片修補程式的數量上限。系統產生的修補程式數量是您所選預算的九倍。舉例來說，280 個權杖的預算最多可產生 2,520 個修補程式 (280 × 9)。

乘數為 9 是因為修補程式的壓縮方式：在處理期間，模型會取得每個 3x3 的相鄰修補程式格線，並將這些格線平均合併，建立單一嵌入。這些合併的嵌入內容會成為最終的視覺化權杖。因此，代幣預算越高，最終嵌入內容就越多，模型就能從視覺資料中擷取更豐富、更精細的資訊。

以下是使用視覺資料提示 Gemma 時，建議遵循的最佳做法。

具體說明：如有特定工作，請提供充分的背景資訊和指引。別只說「描述這張圖片」，試試「描述這張圖片中的場景，著重於人物和物體之間的關係」。
提供限制：如要達到特定風格或語氣，請務必在提示中指定。舉例來說，你可以要求 Gemma「根據關於本圖片撰寫一篇黑色電影風格的短篇故事」，而不是提出一般的故事要求。
反覆修正：如要獲得預期輸出內容，通常需要實驗並修正提示。先從基本提示開始，再逐步增加複雜度。

使用視覺資料提示 Gemma 時，請避免下列事項。

密集物件的數量可能不準確：Gemma 4 在物件偵測和 OCR 方面表現優異，但對於極為密集或微小的物件 (例如計算單一草葉的數量)，可能仍會提供近似值而非確切數量。如要讓視覺化工作達到最佳準確度，請使用較高的詞元預算。
模糊不清的提示：請提供具體指示，而非「根據這張圖片生成內容」等一般提示，以獲得預期輸出內容。清楚定義「某項事物」的內容，例如詩、食譜或程式碼片段。