Google Cloud で Gemma をデプロイする

Google Cloud プラットフォームには、Gemma オープンモデルのデプロイとサービングに使用できる次のようなサービスが用意されています。

Vertex AI

Vertex AI は、社内の MLOps の専門知識がなくても、ML プロジェクトを迅速に構築してスケーリングできる Google Cloud プラットフォームです。Vertex AI には、さまざまなモデルを操作できるコンソールがあり、エンドツーエンドの MLOps 機能とサーバーレス エクスペリエンスが提供されるため、開発を効率化できます。

Vertex AI は、Gemma を提供するダウンストリーム アプリケーションとして使用できます。Gemma は、モデルのキュレートされたコレクションである Model Garden で利用できます。たとえば、Gemma 実装から重みを移植し、Vertex AI を使用してそのバージョンの Gemma を提供し、予測を取得できます。

詳細については、以下のページをご覧ください。

Cloud Run

Cloud Run は、Google のスケーラビリティに優れたインフラストラクチャ上でコード、関数、コンテナを実行するためのフルマネージド プラットフォームです。

Cloud Run は、オンデマンド、高速起動、ゼロへのスケーリング、従量課金制の GPU を提供します。これにより、Gemma などのオープンモデルを提供できます。

Cloud Run で Gemma を実行する方法については、次のページをご覧ください。

Google Kubernetes Engine(GKE)

Google Kubernetes Engine(GKE)は、Google Cloud のマネージド Kubernetes サービスです。Google のインフラストラクチャを使用して、コンテナ化されたアプリケーションを大規模にデプロイして運用するために使用できます。Gemma は、次の LLM サービング フレームワークを使用して、GKE で Cloud Tensor Processing Unit(TPU)とグラフィック プロセッシング ユニット(GPU)を使用して提供できます。

GKE で Gemma を提供すると、効率的なスケーラビリティや高可用性をはじめとするマネージド Kubernetes のメリットをすべて活用した、本番環境対応の堅牢な推論サービング ソリューションを実装できます。

詳細については、以下のページをご覧ください。

Dataflow ML

Dataflow ML は、完全な ML ワークフローをデプロイして管理するための Google Cloud プラットフォームです。Dataflow ML を使用すると、データ処理ツールでモデル トレーニング用データを準備し、Gemma などのモデルを使用して、バッチ パイプラインとストリーミング パイプラインでローカルとリモートの推論を行うことができます。

Dataflow ML を使用すると、数行のコードを記述するだけで Gemma を Apache Beam 推論パイプラインにシームレスに統合できます。これにより、データの取り込み、データの検証と変換、テキスト入力の Gemma へのフィード、テキスト出力の生成が可能になります。

詳細については、以下のページをご覧ください。