تشغيل Gemma باستخدام Kubernetes Engine

توفّر Google Cloud Kubernetes Engine مجموعة كبيرة من خيارات النشر لتشغيل نماذج Gemma بأداء عالٍ ووقت استجابة منخفض باستخدام إطارات العمل المفضّلة للتطوير. اطّلِع على أدلة النشر التالية لـ Hugging Face وvLLM وTensorRT-LLM على وحدات معالجة الرسومات وتنفيذ TPU باستخدام JetStream، بالإضافة إلى دلائل التطبيق والضبط:

النشر والعرض

تحليل البيانات

التحسين