Google Kubernetes Engine (GKE)은 Google Cloud의 관리형 Kubernetes 서비스로 gcloud 명령어를 사용하여 컨테이너화된 애플리케이션을 대규모로 배포하고 Google의 인프라입니다 Cloud 텐서 처리 장치를 사용하여 Gemma를 서빙할 수 있습니다. 이러한 LLM을 제공하는 GKE의 (TPU) 및 그래픽 처리 장치 (GPU) 있습니다.
- GKE에서 vLLM을 사용한 GPU를 사용하여 Gemma 서빙
- GKE에서 GPU를 사용하여 Gemma를 TGI와 함께 서빙
- GKE에서 Triton 및 TensorRT-LLM과 함께 GPU를 사용하여 Gemma 서빙
- GKE에서 JetStream으로 TPU를 사용하여 Gemma 서빙
- Saxml로 GKE에서 TPU를 사용하여 Gemma 서빙
GKE에서 Gemma를 제공하면 프로덕션에 즉시 사용 가능한 강력한 추론을 구현할 수 있습니다. 여기에는 Kubernetes의 모든 이점을 제공하는 효율적인 확장성과 고가용성을 제공합니다
자세한 내용은 다음 페이지를 참고하세요.
- GKE 개요: Google Kubernetes Engine (GKE) 시작하기
- Google Cloud의 GKE: GKE로 최적화된 AI/ML 워크로드 실행