視覺解讀

Gemma 4 是 Gemma 系列的最新模型,可執行各種視覺語言工作,例如物件偵測、光學字元辨識 (OCR)、圖像問題回答、圖像說明,以及跨多張圖片的推論。此外,這項技術也支援可變解析度處理,讓您在推論速度和輸出準確度之間取得平衡。

本節將探討如何有效準備及使用提示中的視覺資料。

視覺資料

視覺資料的格式和解析度可能各不相同。支援的特定檔案格式 (例如 JPEG 和 PNG) 取決於您選擇將視覺資料轉換為張量的架構。

為 Gemma 準備視覺資料時,請考量下列幾項重點:

  • 權杖費用:每張圖片通常會使用 256 個權杖,但 PaliGemma 圖片權杖費用會因所選特定模型而異。
  • 解析度:解讀的解析度 (即編碼為權杖並由模型處理的像素數量) 取決於您使用的 Gemma 版本:
    • Gemma 4:根據權杖預算調整解析度。您可以選擇 70、140、280、560 或 1120 個權杖的預算大小,這會決定輸入圖片的縮放和處理程度。
    • Gemma 3: (4B 以上) 解析度為 896x896,可平移和掃描較大的圖片。
    • Gemma 3n:256x256、512x512 或 768x768 解析度
    • PaliGemma 2:解析度為 224x224、448x448 或 896x896

解析度較低的圖片處理速度較快,但擷取的視覺細節較少。為提升推論速度,請盡量提供與所選 Gemma 模型內建解讀解析度相符的視覺資料。

解析度和權杖預算可變動

Gemma 4 模型可處理不同解析度的圖片,讓您根據特定工作調整視覺輸入內容。舉例來說,您可能會選擇高解析度,以便在物體偵測中找出細微細節,但如果分析個別影片影格是為了加快處理速度,則較低的解析度可能更合適。這項功能可讓您在推論速度和視覺化呈現的準確度之間取得平衡。

您可以使用權杖預算管理這項取捨。這項預算會對模型可為單一圖片生成的視覺符記 (也稱為視覺符記嵌入) 數量設下硬性限制。

你可以選擇 70、140、280、560 或 1120 個權杖的預算:

  • 高預算 (例如 1120 個權杖):保留較高的圖片解析度。 這會產生更多修補程式供模型處理,因此非常適合擷取精細複雜的細節。
  • 低預算 (例如 70 個權杖):縮小圖片,減少修補區域。這可大幅縮短推論時間。

預算運作方式:權杖預算會直接控管圖片的縮放程度,方法是規定初始圖片修補程式的數量上限。系統產生的修補程式數量是您所選預算的九倍。舉例來說,280 個權杖的預算最多可產生 2,520 個修補程式 (280 × 9)。

乘數為 9 是因為修補程式的壓縮方式:在處理期間,模型會取得每個 3x3 的相鄰修補程式格線,並將這些格線平均合併,建立單一嵌入。這些合併的嵌入內容會成為最終的視覺化權杖。因此,代幣預算越高,最終嵌入內容就越多,模型就能從視覺資料中擷取更豐富、更精細的資訊。

必要事項:

以下是使用視覺資料提示 Gemma 時,建議遵循的最佳做法。

  • 具體說明:如有特定工作,請提供充分的背景資訊和指引。別只說「描述這張圖片」,試試「描述這張圖片中的場景,著重於人物和物體之間的關係」。

  • 提供限制:如要達到特定風格或語氣,請務必在提示中指定。舉例來說,你可以要求 Gemma「根據關於本圖片撰寫一篇黑色電影風格的短篇故事」,而不是提出一般的故事要求。

  • 反覆修正:如要獲得預期輸出內容,通常需要實驗並修正提示。先從基本提示開始,再逐步增加複雜度。

錯誤做法

使用視覺資料提示 Gemma 時,請避免下列事項。

  • 密集物件的數量可能不準確:Gemma 4 在物件偵測和 OCR 方面表現優異,但對於極為密集或微小的物件 (例如計算單一草葉的數量),可能仍會提供近似值而非確切數量。如要讓視覺化工作達到最佳準確度,請使用較高的詞元預算。

  • 模糊不清的提示:請提供具體指示,而非「根據這張圖片生成內容」等一般提示,以獲得預期輸出內容。清楚定義「某項事物」的內容,例如詩、食譜或程式碼片段。