Google Cloud で Gemma をデプロイする

Google Cloud プラットフォームには、Gemma 4 オープンモデルのデプロイ、サービング、ファインチューニングを行うためのオプションが多数用意されています。以下にその一部を示します。

Vertex AI Model Garden

Vertex AI は、 ML プロジェクトを迅速に構築してスケーリングするための Google Cloud プラットフォームです。Gemma 4 は、Vertex AI のモデルのキュレートされたコレクションである Model Gardenで利用できます。 コンソールから直接モデルをテストしてデプロイできます。

詳細については、次のページをご覧ください。

Cloud Run

Cloud Run は、スケーラビリティに優れた Google のインフラストラクチャ上でコードやコンテナを実行できるフルマネージド プラットフォームです。 GPU を使用して Cloud Run に Gemma 4 をデプロイし 、ゼロへのスケーリングの従量課金制の推論を実現します。

モデルサイズが大きい場合は、RTX 6000 Pro GPU とモデル ストリーミングを使用して 高度な構成を活用します。

Google Kubernetes Engine(GKE)

Google Kubernetes Engine(GKE) は、Google Cloud のマネージド Kubernetes サービスです。 エンタープライズ クラスのコンテナ オーケストレーションを実現するために、GKE で Gemma 4 を実行します。 TPU と GPU を使用して、高スループットと低レイテンシでモデルをサービングします。

Agent Development Kit(ADK)

Gemma 4 と Agent Development Kit(ADK)を使用して、AI エージェントを構築してオーケストレートします。 Gemma 4 の強力な推論機能と関数呼び出し機能は、エージェント ワークフローに最適です。

Vertex AI Training クラスタ(VTC)

Vertex AI Training クラスタ(VTC)を使用して Gemma 4 をファインチューニングします。 VTC は、オープンモデルの大規模なトレーニングとファインチューニングに最適化されたインフラストラクチャを提供します。

TPU を使用した vLLM

Google Cloud TPU で Gemma 4 をサービングし 最先端のサービング パフォーマンスを実現します。

MaxText

Gemma 4 は、MaxText( Google Cloud TPU 用の高性能で 任意のサイズの JAX LLM 実装)でサポートされています。

Sovereign Cloud

Gemma 4 は Sovereign Cloud ソリューションで利用でき、 機密性の高いワークロードの制御とコンプライアンスを強化します。