توفّر Google Cloud Kubernetes Engine مجموعة كبيرة من خيارات النشر لتشغيل نماذج Gemma بأداء عالٍ ووقت استجابة منخفض باستخدام إطارات العمل المفضّلة للتطوير. اطّلِع على أدلة النشر التالية لـ Hugging Face وvLLM وTensorRT-LLM على وحدات معالجة الرسومات وتنفيذ TPU باستخدام JetStream، بالإضافة إلى دلائل التطبيق والضبط:
النشر والعرض
عرض Gemma على وحدات معالجة الرسومات باستخدام إطار عمل Hugging Face TGI: يمكنك نشر نماذج Gemma على GKE باستخدام وحدات معالجة الرسومات وإطار عمل Hugging Face Text Generation Inference (TGI).
عرض Gemma على وحدات معالجة الرسومات باستخدام نموذج vLLM: يمكنك نشر Gemma باستخدام نموذج vLLM لإدارة تحميل النماذج بسهولة وتحقيق معدل نقل بيانات مرتفع.
عرض Gemma على وحدات معالجة الرسومات باستخدام TensorRT-LLM: يمكنك نشر Gemma باستخدام NVIDIA TensorRT-LLM لزيادة كفاءة تشغيل النموذج إلى أقصى حد.
عرض Gemma على وحدات معالجة TPU باستخدام JetStream: يمكنك نشر Gemma مع JetStream على معالجات TPU لتحقيق أداء عالٍ ووقت استجابة منخفض.
تحليل البيانات
- تحليل البيانات على GKE باستخدام BigQuery وCloud Run وGemma: يمكنك إنشاء مسار بيانات لتحليل البيانات باستخدام BigQuery وGemma.
التحسين
- تحسين نماذج Gemma المتاحة للجميع باستخدام وحدات معالجة الرسومات المتعدّدة: يمكنك تخصيص سلوك Gemma استنادًا إلى مجموعة البيانات الخاصة بك.