Google Kubernetes Engine (GKE) คือ บริการ Kubernetes ที่มีการจัดการจาก Google Cloud ซึ่ง คุณสามารถใช้เพื่อติดตั้งใช้งานและดำเนินการกับแอปพลิเคชันที่สร้างโดยใช้คอนเทนเนอร์ในวงกว้างได้โดยใช้ โครงสร้างพื้นฐานของ Google คุณให้บริการ Gemma โดยใช้หน่วยประมวลผล Cloud Tensor ได้ (TPU) และหน่วยประมวลผลกราฟิก (GPU) บน GKE ที่มีการให้บริการ LLM เหล่านี้ เฟรมเวิร์ก:
- แสดง Gemma โดยใช้ GPU บน GKE ด้วย vLLM
- แสดง Gemma โดยใช้ GPU บน GKE ด้วย TGI
- รับ Gemma โดยใช้ GPU บน GKE ด้วย Triton และ TensorRT-LLM
- ให้บริการ Gemma โดยใช้ TPU บน GKE ด้วย JetStream
- แสดง Gemma โดยใช้ TPU บน GKE ด้วย Saxml
การให้บริการ Gemma บน GKE ช่วยให้คุณติดตั้งใช้งานการอนุมานที่มีประสิทธิภาพและพร้อมใช้งานจริงได้ การให้บริการโซลูชันพร้อมด้วยประโยชน์ทั้งหมดของ Kubernetes ที่มีการจัดการ รวมถึง ความสามารถในการปรับขนาดที่มีประสิทธิภาพ และความพร้อมใช้งานที่สูงขึ้น
ดูข้อมูลเพิ่มเติมได้ที่หน้าต่อไปนี้
- GKE ภาพรวม: เริ่มต้นใช้งาน Google Kubernetes Engine (GKE)
- เปิดการจัดการ AI/ML เป็นกลุ่ม GKE เรียกใช้ภาระงาน AI/ML ที่เพิ่มประสิทธิภาพด้วย GKE