Google Cloud で Gemma をデプロイする

Google Cloud プラットフォームには、Gemma 4 オープンモデルのデプロイ、サービング、ファインチューニングを行うためのオプションが多数用意されています。以下に例を示します。

Gemini Enterprise Agent Platform

Gemini Enterprise Agent Platform は、機械学習プロジェクトを迅速に 構築してスケーリングするための Google Cloud プラットフォームです。Gemma 4 は、Model Garden(Gemini Enterprise Agent Platform のモデルのキュレートされたコレクション)で利用できます。 コンソールからモデルを直接テストしてデプロイできます。

詳細については、次のページをご覧ください。

Cloud Run

Cloud Run は、Google のスケーラビリティの高いインフラストラクチャ上でコードまたはコンテナを実行するためのフルマネージド プラットフォームです。GPU を使用して Cloud Run に Gemma 4 をデプロイし、スケールゼロの従量課金制の 推論を行います。

モデルサイズが大きい場合は、RTX 6000 Pro GPU とモデル ストリーミングを使用して高度な構成を活用します。

Google Kubernetes Engine(GKE)

Google Kubernetes Engine(GKE)は、Google Cloud のマネージド Kubernetes サービスです。エンタープライズ グレードのコンテナ オーケストレーションのために GKE で Gemma 4 を実行します。 TPU と GPU を使用して、高スループットと低レイテンシでモデルをサービングします。

Agent Development Kit(ADK)

Gemma 4 と Agent Development Kit (ADK) を使用して、AI エージェントを構築してオーケストレートします。Gemma 4 の強力な推論機能と関数呼び出し機能は、エージェント ワークフローに最適です。

Gemini Enterprise Agent Platform トレーニング クラスタ

Gemini Enterprise Agent Platform トレーニング クラスタを使用して Gemma 4 をファインチューチュニングします。トレーニング クラスタは、オープンモデルの大規模なトレーニングとファインチューニングに最適化されたインフラストラクチャを提供します。

TPU を使用した vLLM

Google Cloud TPU で Gemma 4 をサービングし、最先端のサービング パフォーマンスを実現します。

MaxText

Gemma 4 は、MaxText(Google Cloud TPU 用の高性能で任意のサイズの JAX LLM 実装)でサポートされています。

Sovereign Cloud

Gemma 4 は Sovereign Cloud ソリューションで利用でき、機密性の高いワークロードの制御とコンプライアンスを強化します。