Google Cloud platformu, Gemma açık modellerini dağıtmak ve sunmak için aşağıdakiler de dahil olmak üzere birçok hizmet sunar:
Vertex AI
Vertex AI, şirket içinde MLOps uzmanlığı gerekmeden makine öğrenimi projelerini hızlı bir şekilde oluşturmak ve ölçeklendirmek için kullanılan bir Google Cloud platformudur. Vertex AI, çok çeşitli modellerle çalışabileceğiniz bir konsol sağlar. Ayrıca uçtan uca MLOps özellikleri ve kolaylaştırılmış geliştirme için sunucusuz bir deneyim sunar.
Vertex AI'ı, Gemma'yı sunan yayın sonrası uygulama olarak kullanabilirsiniz. Gemma, özel olarak seçilmiş bir model koleksiyonunun yer aldığı Model Garden'da mevcuttur. Örneğin, bir Gemma uygulamasından ağırlıkları taşıyabilir ve tahmin almak için Gemma'nın bu sürümünü sunmak üzere Vertex AI'ı kullanabilirsiniz.
Daha fazla bilgi edinmek için aşağıdaki sayfalara göz atın:
- Vertex AI'a giriş: Vertex AI'ı kullanmaya başlayın.
- Vertex AI ile Gemma: Gemma açık modellerini Vertex AI ile kullanın.
- Gemma'yı KerasNLP kullanarak hassas ayarlama ve Vertex AI'a dağıtma: Keras'ı kullanarak Gemma'yı hassas ayarlamak için uçtan uca not defteri.
Cloud Run
Cloud Run, kodunuzu, işlevinizi veya container'ınızı Google'ın yüksek ölçeklenebilir altyapısında çalıştırmak için kullanabileceğiniz, tümüyle yönetilen bir platformdur.
Cloud Run, Gemma gibi açık modelleri yayınlamanıza olanak tanıyan, isteğe bağlı, hızlı başlatma, sıfıra ölçeklendirme ve kullandıkça öde GPU'ları sunar.
Gemma'yı Cloud Run'da çalıştırma hakkında daha fazla bilgi edinmek için aşağıdaki sayfalara bakın:
- Cloud Run'da GPU'ları kullanmayla ilgili en iyi uygulamalar
- Ollama ile Cloud Run GPU'larında Gemma çıkarımlarını çalıştırma
- vLLM ile Cloud Run GPU'larında Gemma çıkarımlarını çalıştırma
- Transformers.js ile Cloud Run GPU'larında Gemma çıkarımlarını çalıştırma
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE), Google'ın altyapısını kullanarak container mimarisine alınmış uygulamaları geniş ölçekte dağıtmak ve çalıştırmak için kullanabileceğiniz, Google Cloud'un yönetilen bir Kubernetes hizmetidir. Gemma'yı, GKE'de şu LLM yayınlama çerçeveleriyle Cloud Tensor işleme birimleri (TPU'lar) ve grafik işleme birimleri (GPU'lar) kullanarak yayınlayabilirsiniz:
- vLLM ile GKE'de GPU'ları kullanarak Gemma'yı sunma
- TGI ile GKE'de GPU'ları kullanarak Gemma'yı yayınlama
- Triton ve TensorRT-LLM ile GKE'de GPU'ları kullanarak Gemma'yı sunma
- JetStream ile GKE'de TPU'ları kullanarak Gemma'yı sunma
- Saxml ile GKE'de TPU'ları kullanarak Gemma yayınlama
Gemma'yı GKE üzerinde sunarak verimli ölçeklenebilirlik ve daha yüksek kullanılabilirlik de dahil olmak üzere yönetilen Kubernetes'in tüm avantajlarını içeren güçlü ve üretime hazır bir çıkarım sunma çözümü uygulayabilirsiniz.
Daha fazla bilgi edinmek için aşağıdaki sayfalara göz atın:
- GKE'ye genel bakış: Google Kubernetes Engine'i (GKE) kullanmaya başlama
- GKE'de yapay zeka/makine öğrenimi orkestrasyonu: GKE ile optimize edilmiş yapay zeka/makine öğrenimi iş yüklerini çalıştırma
Dataflow ML
Dataflow ML, eksiksiz makine öğrenimi iş akışlarını dağıtmak ve yönetmek için kullanılan bir Google Cloud platformudur. Dataflow ML ile verilerinizi veri işleme araçlarıyla model eğitimi için hazırlayabilir, ardından toplu ve akış ardışık düzenleriyle yerel ve uzak çıkarım yapmak için Gemma gibi modelleri kullanabilirsiniz.
Birkaç kod satırı kullanarak Gemma'yı Apache Beam çıkarım ardışık düzenlerinize sorunsuz bir şekilde entegre etmek için Dataflow ML'yi kullanabilirsiniz. Böylece verileri besleyebilir, doğrulayabilir ve dönüştürebilir, metin girişlerini Gemma'ya besleyebilir ve metin çıkışı oluşturabilirsiniz.
Daha fazla bilgi edinmek için aşağıdaki sayfalara göz atın:
- Dataflow ile Gemma açık modellerini kullanma: Dataflow'da Gemma'yı kullanmaya başlayın.
- Gemma açık modeliyle çıkarım çalıştırma: Apache Beam çıkarım ardışık düzeninde Gemma'yı kullanan eğitim.