Google Kubernetes Engine (GKE) là một dịch vụ Kubernetes được quản lý của Google Cloud. Bạn có thể dùng dịch vụ này để triển khai và vận hành các ứng dụng trong vùng chứa trên quy mô lớn bằng cơ sở hạ tầng của Google. Bạn có thể phân phát Gemma bằng các đơn vị xử lý Cloud Tensor (TPU) và đơn vị xử lý đồ hoạ (GPU) trên GKE bằng các khung phân phát LLM sau:
- Phân phát Gemma bằng GPU trên GKE bằng vLLM
- Phân phát Gemma bằng GPU trên GKE bằng TGI
- Phân phát Gemma bằng GPU trên GKE bằng Triton và TensorRT-LLM
- Phân phát Gemma bằng TPU trên GKE bằng JetStream
- Phân phát Gemma bằng TPU trên GKE bằng Saxml
Bằng cách phân phát Gemma trên GKE, bạn có thể triển khai một giải pháp phân phát dự đoán mạnh mẽ, sẵn sàng cho việc sản xuất với tất cả lợi ích của Kubernetes được quản lý, bao gồm cả khả năng mở rộng hiệu quả và khả năng đáp ứng cao hơn.
Để tìm hiểu thêm, hãy tham khảo các trang sau:
- Tổng quan về GKE: Làm quen với Google Kubernetes Engine (GKE)
- Phối hợp trí tuệ nhân tạo/học máy (AI)/học máy trên GKE: Chạy các tải công việc dựa trên trí tuệ nhân tạo/học máy đã được tối ưu hoá bằng GKE