تم إطلاق Gemma 4 مع إمكانية إدخال النصوص والصوت والصور، بالإضافة إلى قدرة استيعاب طويلة تصل إلى 256 ألف رمز مميّز. مزيد من المعلومات

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

تشغيل Gemma باستخدام Kubernetes Engine

توفّر Google Cloud Kubernetes Engine مجموعة كبيرة من خيارات النشر لتشغيل نماذج Gemma بأداء عالٍ ووقت استجابة منخفض باستخدام إطارات العمل المفضّلة للتطوير. اطّلِع على أدلة النشر التالية لـ Hugging Face وvLLM وTensorRT-LLM على وحدات معالجة الرسومات وتنفيذ TPU باستخدام JetStream، بالإضافة إلى دلائل التطبيق والضبط:

النشر والعرض

عرض Gemma على وحدات معالجة الرسومات باستخدام إطار عمل Hugging Face TGI: يمكنك نشر نماذج Gemma على GKE باستخدام وحدات معالجة الرسومات وإطار عمل Hugging Face Text Generation Inference (TGI).
عرض Gemma على وحدات معالجة الرسومات باستخدام نموذج vLLM: يمكنك نشر Gemma باستخدام نموذج vLLM لإدارة تحميل النماذج بسهولة وتحقيق معدل نقل بيانات مرتفع.
عرض Gemma على وحدات معالجة الرسومات باستخدام TensorRT-LLM: يمكنك نشر Gemma باستخدام NVIDIA TensorRT-LLM لزيادة كفاءة تشغيل النموذج إلى أقصى حد.
عرض Gemma على وحدات معالجة TPU باستخدام JetStream: يمكنك نشر Gemma مع JetStream على معالجات TPU لتحقيق أداء عالٍ ووقت استجابة منخفض.

تحليل البيانات

تحليل البيانات على GKE باستخدام BigQuery وCloud Run وGemma: يمكنك إنشاء مسار بيانات لتحليل البيانات باستخدام BigQuery وGemma.

التحسين

تحسين نماذج Gemma المتاحة للجميع باستخدام وحدات معالجة الرسومات المتعدّدة: يمكنك تخصيص سلوك Gemma استنادًا إلى مجموعة البيانات الخاصة بك.