Google Cloud プラットフォームには、Gemma 4 オープンモデルのデプロイ、サービング、ファインチューニングを行うためのオプションが多数用意されています。以下にその一部を示します。
- Vertex AI Model Garden
- Cloud Run
- Google Kubernetes Engine(GKE)
- Agent Development Kit(ADK)
- Vertex AI Training クラスタ(VTC)
- MaxText
- TPU を使用した vLLM
- Sovereign Cloud
Vertex AI Model Garden
Vertex AI は、 ML プロジェクトを迅速に構築してスケーリングするための Google Cloud プラットフォームです。Gemma 4 は、Vertex AI のモデルのキュレートされたコレクションである Model Gardenで利用できます。 コンソールから直接モデルをテストしてデプロイできます。
詳細については、次のページをご覧ください。
- Vertex AI の概要: Vertex AI を使ってみる
- Vertex AI で Gemma を使用する: Vertex AI で Gemma オープンモデルを使用する
Cloud Run
Cloud Run は、スケーラビリティに優れた Google のインフラストラクチャ上でコードやコンテナを実行できるフルマネージド プラットフォームです。 GPU を使用して Cloud Run に Gemma 4 をデプロイし 、ゼロへのスケーリングの従量課金制の推論を実現します。
モデルサイズが大きい場合は、RTX 6000 Pro GPU とモデル ストリーミングを使用して 高度な構成を活用します。
Google Kubernetes Engine(GKE)
Google Kubernetes Engine(GKE) は、Google Cloud のマネージド Kubernetes サービスです。 エンタープライズ クラスのコンテナ オーケストレーションを実現するために、GKE で Gemma 4 を実行します。 TPU と GPU を使用して、高スループットと低レイテンシでモデルをサービングします。
Agent Development Kit(ADK)
Gemma 4 と Agent Development Kit(ADK)を使用して、AI エージェントを構築してオーケストレートします。 Gemma 4 の強力な推論機能と関数呼び出し機能は、エージェント ワークフローに最適です。
Vertex AI Training クラスタ(VTC)
Vertex AI Training クラスタ(VTC)を使用して Gemma 4 をファインチューニングします。 VTC は、オープンモデルの大規模なトレーニングとファインチューニングに最適化されたインフラストラクチャを提供します。
TPU を使用した vLLM
Google Cloud TPU で Gemma 4 をサービングし 最先端のサービング パフォーマンスを実現します。
MaxText
Gemma 4 は、MaxText( Google Cloud TPU 用の高性能で 任意のサイズの JAX LLM 実装)でサポートされています。
Sovereign Cloud
Gemma 4 は Sovereign Cloud ソリューションで利用でき、 機密性の高いワークロードの制御とコンプライアンスを強化します。