Google Kubernetes Engine (GKE), Google Cloud tarafından sunulan ve yönetilen bir Kubernetes hizmeti olan container mimarisine alınmış uygulamaları geniş ölçekte dağıtmak ve çalıştırmak için Google'ın altyapısı. Cloud Tensor işleme birimlerini kullanarak Gemma sunabilirsiniz GKE'de (TPU'lar) ve grafik işleme birimleri (GPU'lar) ile bu LLM (LLM) yayını çerçeveler:
- GKE'de vLLM ile GPU'ları kullanarak Gemma'yı sunma
- Gemma'yı GKE'de TGI ile GPU'ları kullanarak sunma
- Triton ve TensorRT-LLM ile GKE'de GPU'ları kullanarak Gemma'yı sunma
- JetStream ile GKE'de TPU'ları kullanarak Gemma sunun
- Saxml ile GKE'de TPU'ları kullanarak Gemma'yı sunma
GKE'de Gemma'yı sunarak üretime hazır ve sağlam bir çıkarım uygulayabilirsiniz. yönetilen Kubernetes'in tüm avantajlarına sahip bir sunum çözümüdür. ölçeklenebilirlik ve daha yüksek kullanılabilirlik sunuyor.
Daha fazla bilgi edinmek için aşağıdaki sayfalara bakın:
- GKE genel bakış: Google Kubernetes Engine'i (GKE) kullanmaya başlayın
- AI/makine öğrenimi düzenlemesi GKE: GKE ile optimize edilmiş AI/ML iş yükleri çalıştırın