Google Cloud プラットフォームには、Gemma オープンモデルのデプロイとサービングに使用できる次のようなサービスが用意されています。
Vertex AI
Vertex AI は、社内の MLOps の専門知識がなくても、ML プロジェクトを迅速に構築してスケーリングできる Google Cloud プラットフォームです。Vertex AI には、さまざまなモデルを操作できるコンソールがあり、エンドツーエンドの MLOps 機能とサーバーレス エクスペリエンスが提供されるため、開発を効率化できます。
Vertex AI は、Gemma を提供するダウンストリーム アプリケーションとして使用できます。Gemma は、モデルのキュレートされたコレクションである Model Garden で利用できます。たとえば、Gemma 実装から重みを移植し、Vertex AI を使用してそのバージョンの Gemma を提供し、予測を取得できます。
詳細については、以下のページをご覧ください。
- Vertex AI の概要: Vertex AI の使用を開始します。
- Vertex AI での Gemma: Vertex AI で Gemma オープンモデルを使用します。
- KerasNLP を使用して Gemma をファインチューニングし、Vertex AI にデプロイする: Keras を使用して Gemma をファインチューニングするエンドツーエンドのノートブック。
Cloud Run
Cloud Run は、Google のスケーラビリティに優れたインフラストラクチャ上でコード、関数、コンテナを実行するためのフルマネージド プラットフォームです。
Cloud Run は、オンデマンド、高速起動、ゼロへのスケーリング、従量課金制の GPU を提供します。これにより、Gemma などのオープンモデルを提供できます。
Cloud Run で Gemma を実行する方法については、次のページをご覧ください。
- Cloud Run で GPU を使用する際のベスト プラクティス
- Ollama を使用して Cloud Run GPU で Gemma 推論を実行する
- vLLM を使用して Cloud Run GPU で Gemma 推論を実行する
- Transformers.js を使用して Cloud Run GPU で Gemma 推論を実行する
Google Kubernetes Engine(GKE)
Google Kubernetes Engine(GKE)は、Google Cloud のマネージド Kubernetes サービスです。Google のインフラストラクチャを使用して、コンテナ化されたアプリケーションを大規模にデプロイして運用するために使用できます。Gemma は、次の LLM サービング フレームワークを使用して、GKE で Cloud Tensor Processing Unit(TPU)とグラフィック プロセッシング ユニット(GPU)を使用して提供できます。
- GKE の GPU で vLLM を使用して Gemma を提供する
- GKE の GPU で TGI を使用して Gemma を提供する
- Triton と TensorRT-LLM を備えた GKE で GPU を使用して Gemma を提供する
- GKE の TPU で JetStream を使用して Gemma を提供する
- GKE で TPU と Saxml を使用して Gemma を提供する
GKE で Gemma を提供すると、効率的なスケーラビリティや高可用性をはじめとするマネージド Kubernetes のメリットをすべて活用した、本番環境対応の堅牢な推論サービング ソリューションを実装できます。
詳細については、以下のページをご覧ください。
- GKE の概要: Google Kubernetes Engine(GKE)の使用を開始する
- GKE での AI/ML オーケストレーション: GKE で最適化された AI/ML ワークロードを実行する
Dataflow ML
Dataflow ML は、完全な ML ワークフローをデプロイして管理するための Google Cloud プラットフォームです。Dataflow ML を使用すると、データ処理ツールでモデル トレーニング用データを準備し、Gemma などのモデルを使用して、バッチ パイプラインとストリーミング パイプラインでローカルとリモートの推論を行うことができます。
Dataflow ML を使用すると、数行のコードを記述するだけで Gemma を Apache Beam 推論パイプラインにシームレスに統合できます。これにより、データの取り込み、データの検証と変換、テキスト入力の Gemma へのフィード、テキスト出力の生成が可能になります。
詳細については、以下のページをご覧ください。
- Dataflow で Gemma オープンモデルを使用する: Dataflow で Gemma を使ってみる。
- Gemma オープンモデルを使用して推論を実行する: Apache Beam 推論パイプラインで Gemma を使用するチュートリアル。