Google Kubernetes Engine(GKE)は、 Google Cloud のマネージド Kubernetes サービスであり、 を使用して、コンテナ化されたアプリケーションの大規模なデプロイと運用を Google のインフラストラクチャです。Cloud Tensor プロセッシング ユニットを使用して Gemma を提供できる GKE 上の画像処理装置(TPU)と画像処理装置(GPU)で、 フレームワーク:
- GKE の GPU で vLLM を使用して Gemma を提供する
- GKE の GPU で TGI を使用して Gemma を提供する
- Triton と TensorRT-LLM を備えた GKE で GPU を使用して Gemma を提供する
- GKE の TPU で JetStream を使用して Gemma を提供する
- GKE で TPU と Saxml を使用して Gemma を提供する
GKE で Gemma を提供すると、本番環境に対応した堅牢な推論を実装できます。 フルマネージド Kubernetes のあらゆるメリットを 効率的なスケーラビリティと高可用性を実現します
詳しくは、以下のページをご覧ください。
- GKE 概要: Google Kubernetes Engine(GKE)を使ってみる
- Google Cloud で AI/ML オーケストレーション GKE: GKE で最適化された AI/ML ワークロードを実行する