Google Kubernetes Engine (GKE) — это управляемый сервис Kubernetes от Google Cloud, который можно использовать для развертывания и эксплуатации контейнерных приложений в любом масштабе с использованием инфраструктуры Google. Вы можете обслуживать Gemma, используя процессоры Cloud Tensor (TPU) и графические процессоры (GPU) на GKE с помощью следующих платформ обслуживания LLM:
- Обслуживайте Gemma, используя графические процессоры на GKE с vLLM
- Обслуживайте Джемму, используя графические процессоры на GKE с TGI
- Обслуживайте Gemma, используя графические процессоры на GKE с Triton и TensorRT-LLM
- Обслуживайте Джемму, используя TPU на GKE с помощью JetStream
- Обслуживайте Джемму, используя TPU на GKE с Saxml
Обслуживая Gemma на GKE, вы можете реализовать надежное, готовое к использованию решение для обслуживания выводов со всеми преимуществами управляемого Kubernetes, включая эффективную масштабируемость и более высокую доступность.
Чтобы узнать больше, обратитесь к следующим страницам:
- Обзор GKE : Начало работы с Google Kubernetes Engine (GKE)
- Оркестрация AI/ML в GKE : запускайте оптимизированные рабочие нагрузки AI/ML с помощью GKE.