Google Kubernetes Engine (GKE) adalah layanan Kubernetes terkelola dari Google Cloud yang dapat Anda gunakan untuk men-deploy dan mengoperasikan aplikasi dalam container dalam skala besar menggunakan infrastruktur Google. Anda dapat menyalurkan Gemma menggunakan Cloud Tensor Processing Unit (TPU) dan unit pemrosesan grafis (GPU) di GKE dengan framework penayangan LLM berikut:
- Melayani Gemma menggunakan GPU di GKE dengan vLLM
- Melayani Gemma menggunakan GPU di GKE dengan TGI
- Melayani Gemma menggunakan GPU di GKE dengan Triton dan TensorRT-LLM
- Menyajikan Gemma menggunakan TPU di GKE dengan JetStream
- Menyajikan Gemma menggunakan TPU di GKE dengan Saxml
Dengan menyalurkan Gemma di GKE, Anda dapat mengimplementasikan solusi penayangan inferensi yang tangguh dan siap produksi dengan semua manfaat Kubernetes terkelola, termasuk skalabilitas yang efisien dan ketersediaan yang lebih tinggi.
Untuk mempelajari lebih lanjut, lihat halaman berikut:
- Ringkasan GKE: Memulai Google Kubernetes Engine (GKE)
- Orkestrasi AI/ML di GKE: Jalankan workload AI/ML yang dioptimalkan dengan GKE