แพลตฟอร์ม Google Cloud มีบริการมากมายสำหรับการติดตั้งใช้งานและแสดงโมเดล Gemma แบบเปิด ซึ่งรวมถึงบริการต่อไปนี้
Vertex AI
Vertex AI เป็นแพลตฟอร์ม Google Cloud สำหรับการสร้างและปรับขนาดโปรเจ็กต์แมชชีนเลิร์นนิงอย่างรวดเร็วโดยไม่ต้องอาศัยความเชี่ยวชาญด้าน MLOps ในองค์กร Vertex AI มีคอนโซลที่คุณสามารถทํางานกับโมเดลได้มากมาย รวมถึงมีความสามารถของ MLOps ตั้งแต่ต้นจนจบและประสบการณ์การใช้งานแบบเซิร์ฟเวอร์เลสสําหรับการพัฒนาที่มีประสิทธิภาพ
คุณสามารถใช้ Vertex AI เป็นแอปพลิเคชันดาวน์สตรีมที่แสดง Gemma ซึ่งพร้อมให้บริการใน Model Garden ซึ่งเป็นคอลเล็กชันโมเดลที่มีการดูแลจัดการ เช่น คุณอาจพอร์ตน้ำหนักจากการใช้งาน Gemma และใช้ Vertex AI เพื่อแสดง Gemma เวอร์ชันนั้นเพื่อรับการคาดการณ์
ดูข้อมูลเพิ่มเติมได้ที่หน้าต่อไปนี้
- ข้อมูลเบื้องต้นเกี่ยวกับ Vertex AI: เริ่มต้นใช้งาน Vertex AI
- Gemma กับ Vertex AI: ใช้โมเดลแบบเปิดของ Gemma กับ Vertex AI
- ปรับแต่ง Gemma โดยใช้ KerasNLP และติดตั้งใช้งานใน Vertex AI: โน้ตบุ๊กแบบครบวงจรเพื่อปรับแต่ง Gemma โดยใช้ Keras
Cloud Run
Cloud Run เป็นแพลตฟอร์มที่มีการจัดการครบวงจรสำหรับการเรียกใช้โค้ด ฟังก์ชัน หรือคอนเทนเนอร์บนโครงสร้างพื้นฐานที่ปรับขนาดได้สูงของ Google
Cloud Run มี GPU แบบออนดีมานด์ที่เริ่มต้นได้อย่างรวดเร็ว ปรับขนาดเป็น 0 และจ่ายต่อการใช้งาน ซึ่งช่วยให้คุณแสดงโมเดลแบบเปิดได้ เช่น Gemma
ดูข้อมูลเพิ่มเติมเกี่ยวกับการเรียกใช้ Gemma ใน Cloud Run ได้ที่หน้าต่อไปนี้
- แนวทางปฏิบัติแนะนำในการใช้ GPU ใน Cloud Run
- เรียกใช้การอนุมานของ Gemma ใน GPU ของ Cloud Run ด้วย Ollama
- เรียกใช้การอนุมานของ Gemma ใน GPU ของ Cloud Run ด้วย vLLM
- เรียกใช้การอนุมานของ Gemma ใน GPU ของ Cloud Run ด้วย Transformers.js
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) คือบริการ Kubernetes ที่มีการจัดการจาก Google Cloud ที่คุณสามารถใช้เพื่อทำให้แอปพลิเคชันที่มีคอนเทนเนอร์ใช้งานได้และดำเนินการแอปพลิเคชันดังกล่าวในวงกว้างโดยใช้โครงสร้างพื้นฐานของ Google คุณแสดง Gemma ได้โดยใช้ Tensor Processing Unit (TPU) ของ Cloud และหน่วยประมวลผลกราฟิก (GPU) ใน GKE ด้วยเฟรมเวิร์กการแสดง LLM ต่อไปนี้
- แสดง Gemma โดยใช้ GPU ใน GKE ด้วย vLLM
- แสดง Gemma โดยใช้ GPU ใน GKE ด้วย TGI
- ให้บริการ Gemma โดยใช้ GPU ใน GKE ด้วย Triton และ TensorRT-LLM
- แสดง Gemma โดยใช้ TPU ใน GKE ด้วย JetStream
- แสดง Gemma โดยใช้ TPU ใน GKE ด้วย Saxml
การแสดง Gemma ใน GKE จะช่วยให้คุณใช้โซลูชันการแสดงผลข้อมูลเชิงอนุมานที่พร้อมใช้งานจริงและมีประสิทธิภาพได้ พร้อมรับประโยชน์ทั้งหมดของ Kubernetes ที่มีการจัดการ ซึ่งรวมถึงการปรับขนาดที่มีประสิทธิภาพและความพร้อมใช้งานที่สูงขึ้น
ดูข้อมูลเพิ่มเติมได้ที่หน้าต่อไปนี้
- ภาพรวม GKE: เริ่มต้นใช้งาน Google Kubernetes Engine (GKE)
- การจัดการ AI/ML เป็นกลุ่มใน GKE: ใช้ภาระงาน AI/ML ที่เพิ่มประสิทธิภาพด้วย GKE
ML ใน Dataflow
Dataflow ML เป็นแพลตฟอร์ม Google Cloud สำหรับการติดตั้งใช้งานและจัดการเวิร์กโฟลว์แมชชีนเลิร์นนิงที่สมบูรณ์ เมื่อใช้ Dataflow ML คุณจะเตรียมข้อมูลสําหรับการฝึกโมเดลด้วยเครื่องมือการประมวลผลข้อมูลได้ จากนั้นใช้โมเดลอย่าง Gemma เพื่อทําการอนุมานในเครื่องและจากระยะไกลด้วยไปป์ไลน์แบบกลุ่มและสตรีมมิง
คุณสามารถใช้ ML ของ Dataflow เพื่อผสานรวม Gemma เข้ากับไปป์ไลน์การอนุมานของ Apache Beam ได้อย่างราบรื่นด้วยโค้ดเพียงไม่กี่บรรทัด ซึ่งจะช่วยให้คุณนำเข้า ยืนยัน และเปลี่ยนรูปแบบข้อมูล ส่งอินพุตข้อความไปยัง Gemma และสร้างเอาต์พุตข้อความได้
ดูข้อมูลเพิ่มเติมได้ที่หน้าต่อไปนี้
- ใช้โมเดลแบบเปิดของ Gemma กับ Dataflow: เริ่มต้นใช้งาน Gemma ใน Dataflow
- เรียกใช้การอนุมานด้วยโมเดล Gemma แบบเปิด: บทแนะนำที่ใช้ Gemma ในไปป์ไลน์การอนุมาน Apache Beam