FunctionGemma 模型資訊卡

模型頁面FunctionGemma

資源和技術文件

使用條款條款
作者:Google DeepMind

型號資訊

輸入和輸出的摘要說明和簡短定義。

說明

注意:FunctionGemma 適用於針對特定函式呼叫工作進行微調,包括多輪對話的使用情況。

FunctionGemma 是 Google 開發的輕量級開放模型,可做為基礎,用來建立專屬的函式呼叫模型。FunctionGemma 並非直接對話模型,而是經過進一步微調後,效能可大幅提升的模型,這類模型通常都是如此。FunctionGemma 以 Gemma 3 270M 模型為基礎,採用與建立 Gemini 模型時相同的研究成果和技術,並專為函式呼叫進行訓練。模型架構與 Gemma 3 相同,但使用不同的對話格式。這個模型非常適合純文字函式呼叫。 Gemini Nano 的體積非常小,因此可以在資源有限的環境中部署,例如筆電、桌機或您自己的雲端基礎架構,讓所有人都能存取最先進的 AI 模型,進而促進創新。此外,與基礎 Gemma 270M 類似,這個模型經過最佳化,用途十分廣泛,可在各種硬體上執行單輪對話情境,但應針對單輪或多輪對話任務的特定資料進行微調,才能在特定領域達到最佳準確度。為展示如何透過 2.7 億參數模型,在特定代理工作流程中實現高效能,我們在 Google AI Edge Gallery 應用程式中強調了兩個用途。

  • Tiny Garden:經過微調的模型,可支援語音控制的互動式遊戲。這項服務會處理遊戲邏輯,管理虛擬土地、將「在頂端列種植向日葵」和「在第 1 和第 2 塊土地上澆花」等指令分解為應用程式專屬函式 (例如 plant_seed、water_plots),並協調目標。這項功能可展現模型在沒有伺服器連線的情況下,驅動自訂應用程式機制的效能。

  • 行動裝置動作:為協助開發人員建構自己的專家代理程式,我們發布了資料集微調配方,示範如何微調 FunctionGemma。翻譯使用者輸入內容 (例如「建立午餐的日曆活動」、「開啟手電筒」) 轉換為觸發 Android OS 系統工具的函式呼叫。本互動式筆記本示範如何從頭開始,以基礎 FunctionGemma 模型建構「Mobile Actions」微調模型,以便在 Google AI Edge 藝廊應用程式中使用。這個用途可展現模型離線運作的能力,做為個人裝置任務的私人代理程式。

輸入和輸出

  • 輸入:
    • 文字字串,例如問題、提示或要摘要的文件
    • 輸入背景資訊總共 3.2 萬個權杖
  • 輸出內容:
    • 根據輸入內容生成的文字,例如問題的答案或文件摘要
    • 每項要求最多可輸出 32, 000 個詞元,扣除要求輸入的詞元

模型資料

用於模型訓練的資料,以及資料的處理方式。

訓練資料集

這些模型是以文字資料集訓練而成,資料來源十分廣泛。這個模型以 6 兆個權杖訓練而成,訓練資料的知識截點日期為 2024 年 8 月。主要元件如下:

  • 公開工具定義 - 網路上常見的 API
  • 工具使用互動:這類互動包含提示、函式呼叫、函式回應,以及模型提供的自然語言回應,用於統整函式呼叫回應,或在提示含糊不清或不完整時要求釐清。

資料預先處理

以下是訓練資料適用的主要資料清理和篩選方法:

  • 兒少性虐待內容篩選:在資料準備過程的多個階段,我們都嚴格篩選兒少性虐待內容,確保排除有害和非法內容。
  • 過濾私密資料:為確保 Gemma 預先訓練模型安全可靠,我們使用自動化技術,從訓練集過濾掉特定個人資訊和其他私密資料。
  • 其他方法:根據內容品質和安全性,按照我們的政策進行篩選。

實作資訊

模型內部詳細資料。

硬體

Gemma 是使用 Tensor Processing Unit (TPU) 硬體 (TPUv4p、TPUv5p 和 TPUv5e) 訓練而成。訓練視覺語言模型 (VLM) 需要大量運算能力。TPU 專為機器學習中常見的矩陣運算而設計,在這個領域具有多項優勢:

  • 效能:TPU 專為處理訓練 VLM 涉及的大量運算而設計。相較於 CPU,GPU 可大幅加快訓練速度。
  • 記憶體:TPU 通常配備大量高頻寬記憶體,可在訓練期間處理大型模型和批次大小。這有助於提升模型品質。
  • 擴充性:TPU Pod (大型 TPU 叢集) 提供可擴充的解決方案,可處理大型基礎模型日益複雜的問題。您可以將訓練作業分散至多個 TPU 裝置,加快處理速度並提高效率。
  • 成本效益:在許多情況下,相較於以 CPU 為基礎的基礎架構,TPU 可提供更符合成本效益的大型模型訓練解決方案,尤其是在考量到訓練速度更快,因此節省的時間和資源時。
  • 這些優勢與 Google 永續經營的承諾一致。

軟體

訓練作業是使用 JAXML Pathways 進行。研究人員可透過 JAX 運用最新一代的硬體 (包括 TPU),更快速有效地訓練大型模型。ML Pathways 是 Google 的最新計畫,旨在建構能夠歸納多項工作的智慧型系統。這特別適合基礎模型,包括這類大型語言模型。
這篇關於 Gemini 系列模型的論文所述,JAX 和 ML Pathways 共同使用,可「透過 Jax 和 Pathways 的『單一控制器』程式設計模型,讓單一 Python 程序協調整個訓練執行作業,大幅簡化開發工作流程」。

評估

模型評估指標和結果。

基準測試結果

基準 n-shot Function Gemma 270m
BFCL Simple 0-shot 61.6
BFCL Parallel 0-shot 63.5
BFCL Multiple 0-shot 39
BFCL Parallel Multiple 0-shot 29.5
BFCL Live Simple 0-shot 36.2
BFCL Live Parallel 0-shot 25.7
BFCL Live Multiple 0-shot 22.9
BFCL Live Parallel Multiple 0-shot 20.8
BFCL 關聯性 0-shot 61.1
BFCL 缺乏關聯性 0-shot 70.6

在 Mobile Actions 資料集上微調後,對成效的影響
為展現小型語言模型專業化的價值,我們使用「Mobile Actions」配方,比較基礎 FunctionGemma 模型與微調模型的差異。微調作業大幅提升了基礎 FunctionGemma 模型的能力,可正確識別及格式化行動系統呼叫。


型號

行動動作的評估結果

基礎函式 Gemma 模型

58%

微調行動裝置動作

85%

Gemma 270m 微調應用情境的裝置端效能
我們在 Samsung S25 Ultra 上評估微調應用情境,以評估裝置端延遲和記憶體用量。

  • 脈絡:512 個預填詞元和 32 個解碼詞元。
  • 硬體:S25 Ultra CPU,使用 LiteRT XNNPACK 委派,並搭配 4 個執行緒。

裝置上的行動動作成效


後端

量化架構

脈絡長度

預填 (每秒權杖數)

解碼 (每秒權杖數)

第一個詞元生成時間 (以秒為單位)

模型大小 (MB)

RSS 記憶體用量上限 (MB)

CPU

dynamic_int8

1024

1718

125.9

0.3

288

551

Tiny Garden 裝置效能


後端

量化架構

脈絡長度

預填 (每秒權杖數)

解碼 (每秒權杖數)

第一個詞元生成時間 (以秒為單位)

模型大小 (MB)

RSS 記憶體用量上限 (MB)

CPU

dynamic_int8

1024

1743

125.7

0.3

288

549

倫理和安全

倫理和安全評估方法與結果。

評估方法

我們的評估方法包括結構化評估,以及對相關內容政策進行內部紅隊測試。多個團隊進行了紅隊測試,每個團隊都有不同的目標和人工評估指標。我們針對多個與倫理和安全相關的類別評估這些模型,包括:

  • 兒童安全:評估文字轉文字和圖片轉文字提示是否違反兒童安全政策,包括兒少性虐待和剝削。
  • 內容安全:評估文字轉文字和圖片轉文字提示,涵蓋安全政策,包括騷擾、暴力和血腥內容,以及仇恨言論。
  • 代表性危害:評估文字轉文字和圖片轉文字提示,涵蓋安全政策,包括偏誤、刻板印象、有害聯想或不準確。

評估結果

在所有安全測試領域中,相較於先前的 Gemma 模型,我們在兒童安全、內容安全和代表性危害類別方面都有重大進展。所有測試都是在沒有安全篩選器的情況下進行,目的是評估模型的功能和行為。這款模型產生的違規內容極少,且在無根據的推論方面,相較於先前的 Gemma 模型,成效有顯著提升。但評估結果的限制是只包含英文提示。

使用方式和限制

這些模型有某些限制,使用者應留意。

預定用途

這個模型不適合做為直接對話模型。
開放式大型語言模型 (LLM) 廣泛應用於各行各業和領域。以下列出的潛在用途並非詳盡無遺。這份清單的目的是提供情境資訊,說明模型建立者在模型訓練和開發期間考量的可能用途。

  • 內容創作與溝通
    • 文字生成:這類模型可用於生成各種創意文字格式,例如詩詞、劇本、程式碼、行銷文案和電子郵件草稿。
    • 聊天機器人和對話式 AI:為客戶服務、虛擬助理或互動式應用程式提供對話式介面。
    • 文字摘要:生成文字語料庫、研究論文或報告的精簡摘要。
  • 研究與教育
    • 自然語言處理 (NLP) 研究:研究人員可以運用這些模型做為基礎,實驗 NLP 技術、開發演算法,並為這個領域的進展做出貢獻。
    • 語言學習工具:支援互動式語言學習體驗,協助修正文法或提供寫作練習。
    • 知識探索:協助研究人員探索大量文字,方法是生成摘要或回答特定主題的問題。

限制

  • 訓練資料
    • 訓練資料的品質和多樣性會大幅影響模型功能。訓練資料中的偏誤或缺漏可能會導致模型回覆內容受限。
    • 訓練資料集的範圍決定了模型可有效處理的主題領域。
  • 背景資訊和工作複雜度
    • 如果能以明確的提示和指令來架構任務,模型就能更順利完成。開放式或高度複雜的工作可能較難完成。
    • 模型效能可能會受到提供的背景資訊量影響 (一般來說,背景資訊越長,輸出內容越優質,但有上限)。
  • 語言的模糊和細微差異
    • 自然語言本質上就相當複雜,模型可能難以掌握細微的語氣、諷刺或比喻。
  • 符合實情
    • 模型會根據從訓練資料集學到的資訊生成回覆,但並非知識庫。可能會生成不正確或過時的事實陳述。
  • Common Sense
    • 模型會根據語言的統計模式,在某些情況下,AI 可能無法運用常識推理。

倫理考量和風險

大型語言模型 (LLM) 的開發引發了多項倫理疑慮。在建立開放模型時,我們仔細考量了下列事項:

  • 偏誤與公平性
    • 以大規模真實世界文字資料訓練的 LLM,可能會反映訓練資料中內含的社會文化偏誤。這些模型經過仔細審查,並根據這張資訊卡所述的輸入資料預先處理方式和後續評估結果進行報告。
  • 不實資訊和濫用行為
    • 大型語言模型可能會遭到濫用,生成不實、誤導性或有害的文字。
    • 我們提供模型負責任使用指南,詳情請參閱負責任的生成式 AI 工具包
  • 資訊公開及當責:
    • 這張模型資訊卡會摘要說明模型的架構、功能、限制和評估程序。
    • 以負責任的方式開發開放原始碼模型,可讓 AI 生態系統的開發人員和研究人員存取 LLM 技術,進而分享創新成果。

已識別的風險和緩解措施:

  • 偏見延續:建議在模型訓練、微調和其他用途期間,持續監控 (使用評估指標、人工審查) 並探索去偏見技術。
  • 生成有害內容:內容安全機制和指南至關重要。建議開發人員根據特定產品政策和應用程式用途,謹慎實施適當的內容安全防護措施。
  • 惡意濫用:技術限制和開發人員與使用者教育訓練,有助於防範惡意應用程式使用 LLM。提供教育資源和檢舉機制,方便使用者檢舉濫用行為。《Gemma 使用限制政策》列出 Gemma 模型禁止的使用行為。
  • 違反隱私權:模型訓練資料經過篩選,已移除 PII (個人識別資訊)。建議開發人員採用隱私權保護技術,遵守隱私權法規。

優點

與同等大小的模型相比,這個模型系列在發布時提供高效能的開放式大型語言模型實作項目,從頭開始設計,以利開發負責任的 AI 技術。