Google Kubernetes Engine (GKE), Google Cloud'un sunduğu yönetilen bir Kubernetes hizmetidir. Google'ın altyapısını kullanarak container mimarisine alınmış uygulamaları geniş ölçekte dağıtıp çalıştırmak için bu hizmeti kullanabilirsiniz. Gemma'yı GKE'de Cloud Tensor işleme birimlerini (TPU'lar) ve grafik işleme birimlerini (GPU'lar) kullanarak aşağıdaki LLM sunma çerçeveleriyle sunabilirsiniz:
- vLLM ile GKE'de GPU'ları kullanarak Gemma'yı sunma
- TGI ile GKE'de GPU'ları kullanarak Gemma sunma
- Trenton ve TensorRT-LLM ile GKE'de GPU'ları kullanarak Gemma'yı sunun
- JetStream ile GKE'de TPU'ları kullanarak Gemma yayınlama
- Saxml ile GKE'de TPU'ları kullanarak Gemma sunma
GKE'de Gemma kullanarak etkili ölçeklenebilirlik ve daha yüksek kullanılabilirlik gibi yönetilen Kubernetes'in tüm avantajlarını içeren sağlam, üretime hazır bir çıkarım hizmeti çözümü uygulayabilirsiniz.
Daha fazla bilgi edinmek için aşağıdaki sayfalara bakın:
- GKE'ye genel bakış: Google Kubernetes Engine'i (GKE) kullanmaya başlama
- GKE üzerinde AI/ML düzenlemesi: GKE ile optimize edilmiş AI/ML iş yükleri çalıştırma