FunctionGemma モデルカード

モデルページ: FunctionGemma

リソースと技術ドキュメント:

利用規約: 利用規約
作成者: Google DeepMind

モデル情報

入力と出力の概要と簡単な定義。

説明

注: FunctionGemma は、マルチターンのユースケースなど、特定の関数呼び出しタスクに合わせてファインチューニングすることを目的としています。

FunctionGemma は、独自の特殊な関数呼び出しモデルを作成するための基盤として構築された、Google の軽量なオープンモデルです。FunctionGemma は、直接的な対話モデルとして使用することを想定しておらず、このサイズのモデルに典型的なように、さらにファインチューニングを行った後に高いパフォーマンスを発揮するように設計されています。Gemma 3 270M モデルに基づいて構築され、Gemini モデルの作成に使用されたものと同じ研究とテクノロジーが採用されている FunctionGemma は、関数呼び出し専用にトレーニングされています。このモデルは Gemma 3 と同じアーキテクチャですが、異なるチャット形式を使用します。このモデルは、テキストのみの関数呼び出しに適しています。独自の小規模なサイズにより、ノートパソコン、デスクトップ、独自のクラウド インフラストラクチャなど、リソースが限られた環境にデプロイできます。これにより、最先端の AI モデルへのアクセスが民主化され、すべての人のイノベーションが促進されます。さらに、ベースの Gemma 270M と同様に、このモデルは非常に汎用性が高く、単一ターンのシナリオでさまざまなハードウェアで優れたパフォーマンスを発揮するように最適化されていますが、特定のドメインで最高の精度を実現するには、単一ターンまたはマルチターンのタスク固有のデータでファインチューニングする必要があります。2 億 7, 000 万個のパラメータ モデルを専門化することで、特定のエージェント ワークフローで高いパフォーマンスを実現できることを示すために、Google AI Edge Gallery アプリで 2 つのユースケースを紹介しています。

  • Tiny Garden: 音声制御のインタラクティブ ゲームを動かすためにファインチューニングされたモデル。ゲームロジックを処理して仮想の土地を管理し、「一番上の列にヒマワリを植える」や「区画 1 と 2 の花に水をやる」などのコマンドをアプリ固有の関数(plant_seed、water_plots など)に分解して、ターゲットを調整します。これは、サーバー接続なしでカスタムアプリのメカニズムを駆動するモデルの能力を示しています。

  • モバイル アクション: 開発者が独自の専門家エージェントを構築できるように、FunctionGemma のファインチューニングを示すデータセットファインチューニング レシピを公開しました。ユーザー入力(「ランチの予定を作成して」、「ライトをオンにして」などの音声コマンドを、Android OS のシステムツールをトリガーする関数呼び出しに変換します。このインタラクティブ ノートブックでは、ベースの FunctionGemma モデルを取得し、Google AI Edge ギャラリー アプリで使用する「モバイル アクション」ファインチューニングをゼロから構築する方法を示します。このユースケースでは、モデルが個人用デバイスのタスクのオフライン プライベート エージェントとして機能する能力を示します。

入力と出力

  • 入力:
    • 質問、プロンプト、要約するドキュメントなどのテキスト文字列
    • 入力コンテキストの合計: 32,000 トークン
  • 出力:
    • 入力に対する応答として生成されたテキスト(質問への回答、ドキュメントの要約など)
    • リクエストあたりの出力コンテキストの合計(最大 32, 000 トークン)。リクエスト入力トークンを差し引きます。

モデルデータ

モデルのトレーニングに使用されたデータと、データの処理方法。

トレーニング データセット

これらのモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされています。このモデルは 6T トークンでトレーニングされています。トレーニング データのナレッジ カットオフ日は 2024 年 8 月です。主なコンポーネントは次のとおりです。

  • 公開ツール定義 - ウェブ上で見つかった一般的な API
  • ツール使用のインタラクション - プロンプト、関数呼び出し、関数レスポンス、モデルからの自然言語レスポンスを組み合わせて、関数呼び出しレスポンスを要約したり、プロンプトが曖昧または不完全な場合に説明を求めたりします。

データの前処理

トレーニング データに適用される主なデータ クリーニングとフィルタリングの方法は次のとおりです。

  • CSAM フィルタリング: データ準備プロセスの複数の段階で厳格な CSAM(児童性的虐待のコンテンツ)フィルタリングを適用し、有害で違法なコンテンツを確実に除外しました。
  • 機密データのフィルタリング: Gemma 事前トレーニング済みモデルの安全性と信頼性を高めるため、自動化された手法を使用して、特定の個人情報やその他の機密データをトレーニング セットからフィルタリングしました。
  • その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づいてフィルタリングします。

実装情報

モデルの内部構造に関する詳細。

ハードウェア

Gemma は、Tensor Processing Unit(TPU)ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用してトレーニングされました。視覚言語モデル(VLM)のトレーニングには、相当なコンピューティング能力が必要です。TPU は、ML で一般的な行列演算専用に設計されており、この分野で次のようなメリットがあります。

  • パフォーマンス: TPU は、VLM のトレーニングに関連する大規模な計算を処理するように特別に設計されています。CPU と比較して、トレーニングを大幅に高速化できます。
  • メモリ: TPU には、多くの場合、大容量の高帯域幅メモリが搭載されており、トレーニング中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質が向上します。
  • スケーラビリティ: TPU Pod(TPU の大規模クラスタ)は、大規模な基盤モデルの複雑さの増大に対応するためのスケーラブルなソリューションを提供します。トレーニングを複数の TPU デバイスに分散して、処理を高速化し、効率を高めることができます。
  • 費用対効果: 多くのシナリオで、TPU は CPU ベースのインフラストラクチャよりも大規模なモデルのトレーニングに適した費用対効果の高いソリューションを提供できます。特に、トレーニングの高速化によって節約される時間とリソースを考慮すると、その傾向が顕著になります。
  • これらの利点は、持続可能な運営に対する Google の取り組みに沿ったものです。

ソフトウェア

トレーニングは JAXML Pathways を使用して行われました。JAX を使用すると、研究者は TPU などの最新世代のハードウェアを活用して、大規模モデルのトレーニングをより高速かつ効率的に行うことができます。ML Pathways は、複数のタスクにわたって一般化できる人工知能システムを構築するための Google の最新の取り組みです。これは、このような大規模言語モデルを含む基盤モデルに特に適しています。
JAX と ML Pathways は、Gemini ファミリーのモデルに関する論文で説明されているように使用されます。「Jax と Pathways の「単一コントローラ」プログラミング モデルにより、単一の Python プロセスでトレーニング実行全体をオーケストレートできるため、開発ワークフローが大幅に簡素化されます。」

評価

モデルの評価指標と結果。

ベンチマークの結果

Benchmark n-shot 関数 Gemma 270m
BFCL Simple 0-shot 61.6
BFCL Parallel 0-shot 63.5
BFCL 倍率 0-shot 39
BFCL 並列乗数 0-shot 29.5
BFCL Live Simple 0-shot 36.2
BFCL Live Parallel 0-shot 25.7
BFCL ライブ倍率 0-shot 22.9
BFCL Live Parallel Multiple 0-shot 20.8
BFCL の関連性 0-shot 61.1
BFCL の無関係性 0-shot 70.6

モバイル アクション データセットでファインチューニングを行った後のパフォーマンスへの影響
小規模な言語モデルの専門化の価値を示すため、ベースの FunctionGemma モデルとファインチューニングされたモデルを「モバイル アクション」レシピを使用して比較しました。ファインチューニングにより、ベースの FunctionGemma モデルのモバイル システムコールを正しく識別してフォーマットする機能が大幅に向上しました。


モデル

モバイル アクションの評価結果

Base FunctionGemma モデル

58%

モバイル アクションのファインチューニング

85%

Gemma 270m のオンデバイス パフォーマンスのファインチューニングされたユースケース
Samsung S25 Ultra でファインチューニングされたユースケースを評価し、オンデバイスのレイテンシとメモリ フットプリントを評価しました。

  • コンテキスト: 512 個のプリフィル トークンと 32 個のデコード トークン。
  • ハードウェア: 4 スレッドの LiteRT XNNPACK デリゲートを使用する S25 Ultra CPU。

モバイル デバイスのパフォーマンスに関するアクション


バックエンド

量子化スキーム

コンテキストの長さ

プリフィル(1 秒あたりのトークン数)

デコード(1 秒あたりのトークン数)

最初のトークンまでの時間(秒)

モデルサイズ(MB)

ピーク RSS メモリ(MB)

CPU

dynamic_int8

1024

1718

125.9

0.3

288

551

Tiny Garden On Device Performance


バックエンド

量子化スキーム

コンテキストの長さ

プリフィル(1 秒あたりのトークン数)

デコード(1 秒あたりのトークン数)

最初のトークンまでの時間(秒)

モデルサイズ(MB)

ピーク RSS メモリ(MB)

CPU

dynamic_int8

1024

1743

125.7

0.3

288

549

倫理と安全性

倫理と安全性の評価アプローチと結果。

評価のアプローチ

評価方法には、関連するコンテンツ ポリシーの構造化された評価と内部レッドチーム テストが含まれます。レッドチームは、それぞれ異なる目標と人間による評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連するさまざまなカテゴリ(以下を含む)に対して評価されました。

  • 子どもの安全: 児童の性的虐待や搾取など、子どもの安全に関するポリシーを対象とした、テキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。
  • コンテンツの安全性: ハラスメント、暴力と残虐な表現、ヘイトスピーチなどの安全ポリシーを対象とする、テキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。
  • 表現上の有害性: バイアス、ステレオタイプ、有害な関連付け、不正確さなど、安全性ポリシーを網羅するテキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。

評価結果

安全性テストのすべての分野で、以前の Gemma モデルと比較して、子どもの安全、コンテンツの安全、表現上の危害のカテゴリで大幅な改善が見られました。すべてのテストは、モデルの機能と動作を評価するために、安全フィルタなしで実施されました。このモデルではポリシー違反が最小限に抑えられ、根拠のない推論に関して、以前の Gemma モデルのパフォーマンスを大幅に上回る結果が得られました。評価の制限として、英語のプロンプトのみが含まれていることが挙げられます。

使用量と制限事項

これらのモデルには、ユーザーが認識しておくべき制限事項があります。

想定される使用方法

このモデルは、直接対話モデルとして使用することを目的としていません。
オープン大規模言語モデル(LLM)は、さまざまな業界やドメインで幅広い用途があります。以下に示す用途は、すべてを網羅したものではありません。このリストの目的は、モデルの作成者がモデルのトレーニングと開発の一環として検討したユースケースのコンテキスト情報を提供することです。

  • コンテンツの作成とコミュニケーション
    • テキスト生成: これらのモデルを使用して、詩、脚本、コード、マーケティング コピー、メールの下書きなどのクリエイティブなテキスト形式を生成できます。
    • chatbot と会話型 AI: カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションの会話型インターフェースを強化します。
    • テキストの要約: テキスト コーパス、研究論文、レポートの簡潔な要約を生成します。
  • 研究と教育
    • 自然言語処理(NLP)の研究: これらのモデルは、研究者が NLP 技術を試し、アルゴリズムを開発し、この分野の発展に貢献するための基盤として機能します。
    • 言語学習ツール: インタラクティブな言語学習体験をサポートし、文法の修正やライティングの練習を支援します。
    • 知識の探索: 研究者が大量のテキストを探索するのを支援します。要約を生成したり、特定のトピックに関する質問に回答したりします。

制限事項

  • トレーニング データ
    • トレーニング データの品質と多様性は、モデルの機能に大きな影響を与えます。トレーニング データにバイアスやギャップがあると、モデルの回答に制限が生じる可能性があります。
    • トレーニング データセットの範囲によって、モデルが効果的に処理できる対象分野が決まります。
  • コンテキストとタスクの複雑さ
    • モデルは、明確なプロンプトと指示でフレームワーク化できるタスクに適しています。自由形式のタスクや非常に複雑なタスクは難しい場合があります。
    • モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります(一般的に、コンテキストが長いほど、ある程度のところまでは出力が向上します)。
  • 言語の曖昧さとニュアンス
    • 自然言語は本質的に複雑です。モデルは、微妙なニュアンス、皮肉、比喩表現を理解するのが難しい場合があります。
  • 事実の正確性
    • モデルはトレーニング データセットから学習した情報に基づいて回答を生成しますが、ナレッジベースではありません。事実に関する不正確な記述や古い記述が生成される可能性があります。
  • Common Sense
    • モデルは言語の統計パターンに依存します。特定の状況で常識的な推論を適用する能力が欠けている可能性があります。

倫理的考慮事項とリスク

大規模言語モデル(LLM)の開発には、いくつかの倫理的な懸念があります。オープンモデルの作成にあたっては、次の点を慎重に検討しました。

  • バイアスと公平性
    • 大規模な実際のテキストデータでトレーニングされた LLM は、トレーニング資料に埋め込まれた社会文化的バイアスを反映する可能性があります。これらのモデルは厳密な審査を受け、入力データの前処理が記述され、事後分布の評価がこのカードで報告されています。
  • 誤った情報と不正使用
    • LLM は、虚偽、誤解を招く、有害なテキストを生成するために悪用される可能性があります。
    • モデルの責任ある使用に関するガイドラインが提供されています。責任ある生成 AI ツールキットをご覧ください。
  • 透明性と説明責任:
    • このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスに関する詳細がまとめられています。
    • 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が LLM テクノロジーにアクセスできるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと軽減策:

  • バイアスの永続化: モデルのトレーニング、ファインチューニング、その他のユースケースでは、継続的なモニタリング(評価指標、人間によるレビューを使用)とバイアス除去手法の探索を行うことが推奨されます。
  • 有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクト ポリシーとアプリケーションのユースケースに基づいて、適切なコンテンツの安全保護対策を慎重に実施することが推奨されます。
  • 悪意のある目的での不正使用: 技術的な制限と、デベロッパーおよびエンドユーザー向けの教育は、LLM の悪意のあるアプリケーションに対するリスクを軽減するのに役立ちます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが提供されます。Gemma モデルの禁止されている使用については、Gemma の使用禁止に関するポリシーで概説されています。
  • プライバシー違反: モデルは、PII(個人を特定できる情報)を削除するためにフィルタリングされたデータでトレーニングされました。デベロッパーは、プライバシー保護手法を使用してプライバシー規制を遵守することが推奨されます。

利点

リリース時点で、このモデル ファミリーは、同様のサイズのモデルと比較して、責任ある AI 開発向けにゼロから設計された高性能のオープン大規模言語モデル実装を提供します。