Gemma 4 がリリースされました。テキスト、音声、画像の入力に対応し、最大 256, 000 トークンの長いコンテキストウィンドウを備えています。詳細

Gemma のコンテンツ生成と推論を実行する

Gemma モデルを実行する際には、1）実行する Gemma バリアントと、2）実行に使用する AI 実行フレームワークの 2 つの重要な決定を行う必要があります。これらの決定を行ううえで重要な問題は、モデルを実行するために利用できるハードウェアです。

この概要では、これらの決定を行い、Gemma モデルの使用を開始するのに役立ちます。Gemma モデルを実行する一般的な手順は次のとおりです。

を実行するフレームワークを選択する
Gemma バリアントを選択する
生成リクエストと推論リクエストを実行する

フレームワークを選択する

Gemma モデルは、さまざまなエコシステムツールと互換性があります。適切なツールを選択するかどうかは、利用可能なハードウェア（Cloud GPU とローカルラップトップ）とインターフェースの好み（Python コードとデスクトップアプリケーション）によって異なります。

次の表を使用して、ニーズに最適なツールをすばやく特定してください。

目的	推奨フレームワーク	最適な用途
チャット UI を使用してローカルで実行する	- LM Studio - Ollama	初心者、またはノートパソコンで「Gemini のような」エクスペリエンスを希望するユーザー。
Edge で効率的に実行する	- LiteRT-LM - llama.cpp - MediaPipe LLM 推論 API - MLX	最小限のリソースで高性能なローカル推論を実現。
Python でビルド/トレーニングする	- JAX 用 Gemma ライブラリ - Hugging Face Transformers - Keras - Unsloth	カスタムアプリケーションを構築する研究者やデベロッパー、モデルをファインチューニングする研究者やデベロッパー。
本番環境 / エンタープライズにデプロイする	- Google Cloud Kubernetes Engine（GKE） - Google Cloud Run - Vertex AI - vLLM	エンタープライズセキュリティと MLOps のサポートを備えた、スケーラブルなマネージドクラウドデプロイ。

フレームワークの詳細

以下は、デプロイ環境ごとに分類された Gemma モデルを実行するためのガイドです。

1. デスクトップとローカル推論（高効率）

これらのツールを使用すると、最適化された形式（GGUF など）または特定のハードウェアアクセラレータを利用して、コンシューマーハードウェア（ノートパソコン、デスクトップ）で Gemma を実行できます。

LM Studio: ユーザーフレンドリーなインターフェースで Gemma モデルをダウンロードしてチャットできるデスクトップアプリケーション。コーディングは不要です。
llama.cpp: CPU と Apple Silicon で非常に高速に動作する、Llama（および Gemma）の一般的なオープンソース C++ ポート。
LiteRT-LM: デスクトップ（Windows、Linux、macOS）で最適化された .litertlm Gemma モデルを実行するためのコマンドラインインターフェース（CLI）を提供します。LiteRT（以前の TFLite）を搭載しています。
MLX

Ollama: オープン LLM をローカルで実行するツール。他のアプリケーションの強化によく使用されます。

2. Python 開発（研究とファインチューニング）

アプリケーション、パイプライン、トレーニングモデルを構築する AI デベロッパー向けの標準フレームワーク。

Hugging Face Transformers: モデルとパイプラインにすばやくアクセスするための業界標準。

Unsloth: LLM をファインチューニングするための最適化されたライブラリ。メモリを大幅に削減して Gemma モデルを 2 ～ 5 倍高速にトレーニングできるため、コンシューマー GPU（無料の Google Colab 階層など）でファインチューニングできます。

Keras / JAX: ディープラーニングの研究とカスタムアーキテクチャの実装のためのコアライブラリ。

3. モバイルとエッジのデプロイ（オンデバイス）

インターネット接続なしでユーザーデバイス（Android、iOS、ウェブ）で LLM を直接実行するように設計されたフレームワーク。多くの場合、NPU（Neural Processing Unit）を利用します。

LiteRT-LM: オンデバイス LLM 開発向けの完全オープンソースフレームワーク。最高のパフォーマンスときめ細かい制御を実現し、 Android と iOS で CPU、GPU、NPU アクセラレーションを直接サポートします。

MediaPipe LLM 推論 API: Gemma をクロスプラットフォームアプリに統合する最も簡単な方法。Android、iOS、ウェブで動作する高レベルの API を提供します。

4. クラウドと本番環境へのデプロイ

アプリケーションを数千人のユーザーにスケーリングしたり、膨大なコンピューティング能力にアクセスしたりするためのマネージドサービス。

Vertex AI: Google Cloud のフルマネージド AI プラットフォーム。SLA とスケーリングを必要とするエンタープライズアプリケーションに最適です。

**Google Cloud Kubernetes Engine（GKE）**: 独自のサービングクラスタをオーケストレートする場合。

vLLM: 高スループットでメモリ効率の高い推論およびサービングエンジン。クラウドデプロイでよく使用されます。

選択したフレームワークで、目的のデプロイ Gemma モデル形式（Keras 組み込み形式、Safetensors、GGUF など）がサポートされていることを確認してください。

Gemma バリアントを選択する

Gemma モデルには、基盤となるコア Gemma モデル、 PaliGemma や DataGemma などの特殊なモデルバリアント、 Kaggle や Hugging Face などのサイトで AI デベロッパーコミュニティによって作成された多くのバリアントなど、さまざまなバリアントとサイズがあります。どのバリアントから始めるべきかわからない場合は、パラメータ数が最も少ない最新の Gemma コア指示用調整（IT）モデルを選択してください。このタイプの Gemma モデルはコンピューティング要件が低く、追加の開発を行わずにさまざまなプロンプトに対応できます。

Gemma バリアントを選択する際は、次の要素を考慮してください。

Gemma コア、PaliGemma、CodeGemma などの他のバリアントファミリー: Gemma（コア）をおすすめします。コアバージョン以外の Gemma バリアントは、コアモデルと同じアーキテクチャを持ち、特定のタスクでより優れたパフォーマンスを発揮するようにトレーニングされています。アプリケーションや目標が特定の Gemma バリアントの専門分野と一致しない限り、Gemma コアモデルまたはベースモデルから始めることをおすすめします。

指示用調整（IT）、事前トレーニング済み（PT）、ファインチューニング済み（FT）、混合（mix）: IT をおすすめします。

指示用調整（IT）Gemma バリアントは、人間言語のさまざまな指示やリクエストに対応するようにトレーニングされたモデルです。これらのモデルバリアントは、モデルのトレーニングを追加しなくてもプロンプトに対応できるため、最初に試すのに最適です。

事前トレーニング済み（PT）Gemma バリアントは、言語やその他のデータに関する推論を行うようにトレーニングされたモデルですが、人間の指示に従うようにトレーニングされていません。これらのモデルは、タスクを効果的に実行できるように追加のトレーニングまたはチューニングが必要であり、モデルとそのアーキテクチャの機能を調査または開発したい研究者やデベロッパーを対象としています。

ファインチューニング済み（FT）Gemma バリアントは IT バリアントと見なすことができますが、通常は特定のタスクを実行するようにトレーニングされるか、特定の生成 AI ベンチマークで優れたパフォーマンスを発揮するようにトレーニングされます。 PaliGemma バリアントファミリーには、多くの FT バリアントが含まれています。

混合（mix）Gemma バリアントは、さまざまな指示で指示用調整された PaliGemma モデルのバージョンで、一般的な用途に適しています。

パラメータ: 利用可能な最小数をおすすめします。一般に、モデルのパラメータが多いほど、機能が向上します。ただし、大規模なモデルを実行するには、より大規模で複雑なコンピューティングリソースが必要となり、通常は AI アプリケーションの開発が遅くなります。小規模な Gemma モデルではニーズを満たせないと判断した場合を除き、パラメータ数が少ないモデルを選択してください。

量子化レベル: チューニングを除き、半精度（16 ビット）をおすすめします。量子化は複雑なトピックであり、データのサイズと精度、ひいては生成 AI モデルが計算とレスポンスの生成に使用するメモリ量に帰着します。通常は 32 ビット浮動小数点データである高精度データでモデルをトレーニングした後、Gemma などのモデルを変更して、16 ビット、8 ビット、4 ビットなどの低精度データを使用できます。これらの量子化された Gemma モデルは、タスクの複雑さによっては、コンピューティングリソースとメモリリソースを大幅に削減しながら、優れたパフォーマンスを発揮できます。ただし、量子化されたモデルをチューニングするためのツールは限られており、選択した AI 開発フレームワーク内で利用できない場合があります。通常、Gemma などのモデルをフル精度でファインチューニングしてから、結果のモデルを量子化する必要があります。

Google が公開している主要な Gemma モデルのリストについては、 Gemma モデルの概要、 Gemma モデルリストをご覧ください。

生成リクエストと推論リクエストを実行する

AI 実行フレームワークと Gemma バリアントを選択したら、モデルの実行を開始し、コンテンツの生成やタスクの完了を促すことができます。特定のフレームワークで Gemma を実行する方法について詳しくは、フレームワークを選択するセクションのリンク先のガイドをご覧ください。

プロンプトの書式設定

指示用調整された Gemma バリアントには、特定のプロンプト形式の要件があります。これらの書式設定要件の一部は、Gemma モデルの実行に使用するフレームワークによって自動的に処理されますが、プロンプトデータをトークナイザに直接送信する場合は、特定のタグを追加する必要があります。タグ付けの要件は、使用する Gemma バリアントによって異なります。Gemma バリアントのプロンプト形式とシステムの手順については、次のガイドをご覧ください。

Gemma のプロンプトとシステムの手順

PaliGemma のプロンプトとシステムの手順

FunctionGemma の書式設定とベストプラクティス