音声入力を備え、日常的なデバイスでの使用向けに最適化された Gemma 3n がリリースされました。詳細

FunctionGemma モデルカード

モデルページ: FunctionGemma

リソースと技術ドキュメント:

利用規約: 利用規約
作成者: Google DeepMind

モデル情報

入力と出力の概要と簡単な定義。

説明

注: FunctionGemma は、マルチターンのユースケースなど、特定の関数呼び出しタスクに合わせてファインチューニングすることを目的としています。

FunctionGemma は、独自の特殊な関数呼び出しモデルを作成するための基盤として構築された、Google の軽量なオープンモデルです。FunctionGemma は、直接的なダイアログモデルとして使用することを想定していません。このサイズのモデルに典型的なように、さらなるファインチューニング後に高いパフォーマンスを発揮するように設計されています。Gemma 3 270M モデルに基づいて構築され、Gemini モデルの作成に使用されたものと同じ研究とテクノロジーが採用されている FunctionGemma は、関数呼び出し専用にトレーニングされています。モデルのアーキテクチャは Gemma 3 と同じですが、異なるチャット形式を使用します。このモデルは、テキストのみの関数呼び出しに適しています。サイズが非常に小さいため、ノートパソコン、デスクトップ、独自のクラウドインフラストラクチャなど、リソースが限られた環境にデプロイできます。これにより、最先端の AI モデルへのアクセスが民主化され、すべての人のイノベーションが促進されます。さらに、ベースの Gemma 270M と同様に、このモデルは非常に汎用性が高く、単一ターンのシナリオでさまざまなハードウェアで優れたパフォーマンスを発揮するように最適化されていますが、特定のドメインで最高の精度を実現するには、単一ターンまたはマルチターンのタスク固有のデータでファインチューニングする必要があります。2 億 7, 000 万個のパラメータモデルを専門化することで、特定のエージェントワークフローで高いパフォーマンスを実現できることを示すために、Google AI Edge Gallery アプリで 2 つのユースケースを紹介しています。

Tiny Garden: 音声制御のインタラクティブゲームを強化するためにファインチューニングされたモデル。ゲームロジックを処理して仮想の土地を管理し、「一番上の列にヒマワリを植える」や「区画 1 と 2 の花に水をやる」などのコマンドをアプリ固有の関数（plant_seed、water_plots など）に分解して、ターゲットを調整します。これは、サーバー接続なしでカスタムアプリのメカニズムを駆動するモデルの能力を示しています。
モバイルアクション: 開発者が独自の専門家エージェントを構築できるように、FunctionGemma のファインチューニングを示すデータセットとファインチューニングレシピを公開しました。ユーザー入力（「ランチの予定を作成して」、「ライトをオンにして」などの音声コマンドを、Android OS のシステムツールをトリガーする関数呼び出しに変換します。このインタラクティブノートブックでは、ベースの FunctionGemma モデルを取得し、Google AI Edge ギャラリーアプリで使用する「モバイルアクション」ファインチューニングをゼロから構築する方法を示します。このユースケースでは、モデルが個人用デバイスのタスクのオフラインプライベートエージェントとして機能する能力を示します。

入力と出力

入力:
- 質問、プロンプト、要約するドキュメントなどのテキスト文字列
- 入力コンテキストの合計: 32,000 トークン
出力:
- 入力に対する応答として生成されたテキスト（質問への回答、ドキュメントの要約など）
- リクエストあたりの出力コンテキストの合計（最大 32, 000 トークン）。リクエスト入力トークンを差し引きます。

モデルデータ

モデルのトレーニングに使用されたデータと、データの処理方法。

トレーニングデータセット

これらのモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされています。このモデルは 6 兆個のトークンでトレーニングされています。トレーニングデータのナレッジカットオフ日は 2024 年 8 月です。主なコンポーネントは次のとおりです。

公開ツール定義 - ウェブ上で見つかった一般的な API
ツール使用のインタラクション - プロンプト、関数呼び出し、関数レスポンス、モデルからの自然言語レスポンスが混在しています。関数呼び出しレスポンスを要約したり、プロンプトが曖昧または不完全な場合に説明を求めたりします。

データの前処理

トレーニングデータに適用される主なデータクリーニングとフィルタリングの方法は次のとおりです。

CSAM フィルタリング: データ準備プロセスの複数の段階で厳格な CSAM（児童性的虐待のコンテンツ）フィルタリングを適用し、有害で違法なコンテンツが除外されるようにしました。
機密データのフィルタリング: Gemma 事前トレーニング済みモデルの安全性と信頼性を高めるため、自動化された手法を使用して、特定の個人情報やその他の機密データをトレーニングセットからフィルタリングしました。
その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づいてフィルタリングします。

実装情報

モデルの内部構造に関する詳細。

ハードウェア

Gemma は、Tensor Processing Unit（TPU）ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用してトレーニングされました。視覚言語モデル（VLM）のトレーニングには、相当なコンピューティング能力が必要です。TPU は、ML で一般的な行列演算専用に設計されており、この分野で次のようなメリットがあります。

パフォーマンス: TPU は、VLM のトレーニングに関連する大規模な計算を処理するように特別に設計されています。CPU と比較して、トレーニングを大幅に高速化できます。
メモリ: TPU には、多くの場合、大容量の高帯域幅メモリが搭載されており、トレーニング中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質が向上します。
スケーラビリティ: TPU Pod（TPU の大規模クラスタ）は、大規模な基盤モデルの複雑さの増大に対応するためのスケーラブルなソリューションを提供します。トレーニングを複数の TPU デバイスに分散して、処理を高速化し、効率を高めることができます。
費用対効果: 多くのシナリオで、TPU は CPU ベースのインフラストラクチャよりも大規模なモデルのトレーニングに費用対効果の高いソリューションを提供できます。特に、トレーニングの高速化によって節約される時間とリソースを考慮すると、その傾向が顕著になります。
これらのメリットは、持続可能な運用に対する Google の取り組みに沿ったものです。

ソフトウェア

トレーニングは JAX と ML Pathways を使用して行われました。JAX を使用すると、研究者は TPU などの最新世代のハードウェアを活用して、大規模モデルのトレーニングをより高速かつ効率的に行うことができます。ML Pathways は、複数のタスクにわたって一般化できる人工知能システムを構築するための Google の最新の取り組みです。これは、このような大規模言語モデルを含む基盤モデルに特に適しています。
JAX と ML Pathways は、Gemini ファミリーのモデルに関する論文で説明されているように使用されます。「Jax と Pathways の「単一コントローラ」プログラミングモデルにより、単一の Python プロセスでトレーニング実行全体をオーケストレートできるため、開発ワークフローが大幅に簡素化されます。」

評価

モデルの評価指標と結果。

ベンチマークの結果

Benchmark	n-shot	Function Gemma 270m
BFCL Simple	0 ショット	61.6
BFCL 倍率	0 ショット	63.5
BFCL Parallel	0 ショット	39
BFCL 並列乗数	0 ショット	29.5
BFCL Live Simple	0 ショット	36.2
BFCL ライブ乗数	0 ショット	25.7
BFCL Live Parallel	0 ショット	22.9
BFCL Live Parallel Multiple	0 ショット	20.8
BFCL の関連性	0 ショット	61.1
BFCL の無関係性	0 ショット	73.7

モバイルアクションデータセットでファインチューニングを行った後のパフォーマンスへの影響
小規模な言語モデルの専門化の価値を示すため、ベースの FunctionGemma モデルとファインチューニングされたモデルを「モバイルアクション」レシピを使用して比較しました。ファインチューニングにより、ベースの FunctionGemma モデルのモバイルシステムコールを正しく識別してフォーマットする機能が大幅に向上しました。

モデル	モバイルアクションの評価結果
Base FunctionGemma モデル	58%
モバイルアクションのファインチューニング	85%

Gemma 270m のオンデバイスパフォーマンス（ファインチューニングされたユースケース）
Samsung S25 Ultra でファインチューニングされたユースケースを評価し、オンデバイスのレイテンシとメモリフットプリントを測定しました。

コンテキスト: 512 個のプリフィルトークンと 32 個のデコードトークン。
ハードウェア: 4 スレッドの LiteRT XNNPACK デリゲートを使用する S25 Ultra CPU。

モバイルデバイスのパフォーマンスに関するアクション

バックエンド	量子化スキーム	コンテキストの長さ	プリフィル（1 秒あたりのトークン数）	デコード（1 秒あたりのトークン数）	最初のトークンまでの時間（秒）	モデルサイズ（MB）	ピーク RSS メモリ（MB）
CPU	dynamic_int8	1024	1718	125.9	0.3	288	551

Tiny Garden On Device Performance

バックエンド	量子化スキーム	コンテキストの長さ	プリフィル（1 秒あたりのトークン数）	デコード（1 秒あたりのトークン数）	最初のトークンまでの時間（秒）	モデルサイズ（MB）	ピーク RSS メモリ（MB）
CPU	dynamic_int8	1024	1743	125.7	0.3	288	549

倫理と安全性

倫理と安全性の評価アプローチと結果。

評価のアプローチ

評価方法には、関連するコンテンツポリシーの構造化された評価と内部レッドチームテストが含まれます。レッドチームは、それぞれ異なる目標と人間による評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連するさまざまなカテゴリ（以下を含む）に対して評価されました。

子どもの安全: 児童の性的虐待や搾取など、子どもの安全に関するポリシーを対象とした、テキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。
コンテンツの安全性: ハラスメント、暴力と残虐な表現、ヘイトスピーチなどの安全に関するポリシーを対象とした、テキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。
表現上の有害性: バイアス、ステレオタイプ、有害な関連付け、不正確さなど、安全性ポリシーを網羅するテキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。

評価結果

安全性テストのすべての分野で、以前の Gemma モデルと比較して、子どもの安全、コンテンツの安全、表現上の危害のカテゴリで大幅な改善が見られました。すべてのテストは、モデルの機能と動作を評価するために、安全フィルタなしで実施されました。このモデルでは、ポリシー違反が最小限に抑えられ、根拠のない推論に関して、以前の Gemma モデルのパフォーマンスを大幅に上回る結果が得られました。評価の制限として、英語のプロンプトのみが含まれていました。

使用量と制限事項

これらのモデルには、ユーザーが認識しておくべき制限事項があります。

想定される使用方法

このモデルは、直接的な対話モデルとして使用することを意図したものではありません。
オープン大規模言語モデル（LLM）は、さまざまな業界やドメインで幅広い用途があります。以下に示す用途は、すべてを網羅したものではありません。このリストの目的は、モデルの作成者がモデルのトレーニングと開発の一環として検討した可能性のあるユースケースに関するコンテキスト情報を提供することです。

コンテンツの作成とコミュニケーション
- テキスト生成: これらのモデルを使用して、詩、脚本、コード、マーケティングコピー、メールのドラフトなどのクリエイティブなテキスト形式を生成できます。
- chatbot と会話型 AI: カスタマーサービス、仮想アシスタント、インタラクティブアプリケーションの会話型インターフェースを強化します。
- テキストの要約: テキストコーパス、研究論文、レポートの簡潔な要約を生成します。
研究と教育
- 自然言語処理（NLP）の研究: これらのモデルは、研究者が NLP 技術を試し、アルゴリズムを開発し、この分野の発展に貢献するための基盤として機能します。
- 言語学習ツール: インタラクティブな言語学習体験をサポートし、文法の修正やライティングの練習を支援します。
- 知識の探索: 要約を生成したり、特定のトピックに関する質問に回答したりすることで、研究者が大量のテキストを探索するのを支援します。

制限事項

トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの機能に大きな影響を与えます。トレーニングデータにバイアスやギャップがあると、モデルの回答に制限が生じる可能性があります。
- トレーニングデータセットの範囲によって、モデルが効果的に処理できる対象分野が決まります。
コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示で構成できるタスクに適しています。自由形式のタスクや非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります（一般的に、コンテキストが長いほど、ある程度のところまでは出力が向上します）。
言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは、微妙なニュアンス、皮肉、比喩表現を理解するのが難しい場合があります。
事実の正確性
- モデルはトレーニングデータセットから学習した情報に基づいて回答を生成しますが、ナレッジベースではありません。不正確または古い事実に基づくステートメントが生成される可能性があります。
Common Sense
- モデルは言語の統計パターンに依存します。特定の状況で常識的な推論を適用する能力が欠けている可能性があります。

倫理的考慮事項とリスク

大規模言語モデル（LLM）の開発には、いくつかの倫理的な懸念があります。オープンモデルの作成にあたっては、次の点を慎重に検討しました。

バイアスと公平性
- 大規模な実際のテキストデータでトレーニングされた LLM は、トレーニング資料に埋め込まれた社会文化的バイアスを反映する可能性があります。これらのモデルは慎重に精査され、入力データの事前処理が記述され、事後分布の評価がこのカードで報告されています。
誤った情報と不正使用
- LLM は、虚偽、誤解を招く、有害なテキストを生成するために悪用される可能性があります。
- モデルの責任ある使用に関するガイドラインが提供されています。責任ある生成 AI ツールキットをご覧ください。
透明性と説明責任:
- このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスに関する詳細がまとめられています。
- 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が LLM テクノロジーにアクセスできるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと軽減策:

バイアスの永続化: モデルのトレーニング、ファインチューニング、その他のユースケースでは、継続的なモニタリング（評価指標、人間によるレビューを使用）とバイアス除去手法の探索を行うことが推奨されます。
有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクトポリシーとアプリケーションのユースケースに基づいて、適切なコンテンツの安全保護対策を慎重に実装することが推奨されます。
悪意のある目的での不正使用: 技術的な制限と、デベロッパーおよびエンドユーザー向けの教育は、LLM の悪意のあるアプリケーションに対するリスクを軽減するのに役立ちます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが提供されます。Gemma モデルの禁止されている使用については、Gemma の使用禁止に関するポリシーで概説されています。
プライバシー違反: モデルは、PII（個人を特定できる情報）を削除するためにフィルタリングされたデータでトレーニングされました。デベロッパーは、プライバシー保護手法を使用してプライバシー規制を遵守することが推奨されます。

利点

リリース時点で、このモデルファミリーは、同様のサイズのモデルと比較して、責任ある AI 開発向けにゼロから設計された高性能のオープン大規模言語モデル実装を提供します。