Lihat repositori Gemma Cookbook untuk mengetahui contoh pembuatan dan penyesuaian. Pelajari lebih lanjut

Halaman ini diterjemahkan oleh Cloud Translation API.

Google Kubernetes Engine (GKE) dengan Gemma

Google Kubernetes Engine (GKE) merupakan layanan Kubernetes terkelola dari Google Cloud yang dapat Anda gunakan untuk men-deploy dan mengoperasikan aplikasi dalam container berskala besar menggunakan infrastruktur Google. Anda dapat menyalurkan Gemma menggunakan unit pemrosesan Cloud Tensor (TPU) dan unit pemrosesan grafis (GPU) di GKE dengan fungsi LLM ini framework:

Melayani Gemma menggunakan GPU di GKE dengan vLLM
Menyajikan Gemma menggunakan GPU di GKE dengan TGI
Melayani Gemma menggunakan GPU di GKE dengan Triton dan TensorRT-LLM
Menyajikan Gemma menggunakan TPU di GKE dengan JetStream
Melayani Gemma menggunakan TPU di GKE dengan Saxml

Dengan menyajikan Gemma di GKE, Anda dapat mengimplementasikan inferensi yang tangguh dan siap produksi inferensi dengan semua manfaat Kubernetes terkelola, termasuk skalabilitas yang efisien dan ketersediaan yang lebih tinggi.

Untuk mempelajari lebih lanjut, lihat halaman berikut:

GKE ringkasan: Mulai menggunakan Google Kubernetes Engine (GKE)
Orkestrasi AI/ML di GKE: Menjalankan workload AI/ML yang dioptimalkan dengan GKE