Google Kubernetes Engine (GKE) merupakan layanan Kubernetes terkelola dari Google Cloud yang dapat Anda gunakan untuk men-deploy dan mengoperasikan aplikasi dalam container berskala besar menggunakan infrastruktur Google. Anda dapat menyalurkan Gemma menggunakan unit pemrosesan Cloud Tensor (TPU) dan unit pemrosesan grafis (GPU) di GKE dengan fungsi LLM ini framework:
- Melayani Gemma menggunakan GPU di GKE dengan vLLM
- Menyajikan Gemma menggunakan GPU di GKE dengan TGI
- Melayani Gemma menggunakan GPU di GKE dengan Triton dan TensorRT-LLM
- Menyajikan Gemma menggunakan TPU di GKE dengan JetStream
- Melayani Gemma menggunakan TPU di GKE dengan Saxml
Dengan menyajikan Gemma di GKE, Anda dapat mengimplementasikan inferensi yang tangguh dan siap produksi inferensi dengan semua manfaat Kubernetes terkelola, termasuk skalabilitas yang efisien dan ketersediaan yang lebih tinggi.
Untuk mempelajari lebih lanjut, lihat halaman berikut:
- GKE ringkasan: Mulai menggunakan Google Kubernetes Engine (GKE)
- Orkestrasi AI/ML di GKE: Menjalankan workload AI/ML yang dioptimalkan dengan GKE