Platforma Google Cloud udostępnia wiele usług do wdrażania i obsługi otwartych modeli Gemma, w tym:
Vertex AI
Vertex AI to platforma Google Cloud do szybkiego tworzenia i rozwijania projektów uczenia maszynowego bez konieczności posiadania wewnętrznej wiedzy z zakresu MLOps. Vertex AI udostępnia konsolę, w której możesz pracować z dużą liczbą modeli, a także zapewnia kompleksowe funkcje MLOps i możliwość korzystania z bezserwerowych usług w celu usprawnienia procesu tworzenia.
Możesz użyć Vertex AI jako aplikacji do dalszego przetwarzania, która obsługuje Gemma, dostępną w bazie modeli – wyselekcjonowanej kolekcji modeli. Możesz na przykład przenosić wagi z implementacji Gemma i wykorzystywać Vertex AI do obsługi tej wersji Gemma w celu uzyskiwania prognoz.
Więcej informacji znajdziesz na tych stronach:
- Wprowadzenie do Vertex AI: jak zacząć korzystać z Vertex AI.
- Gemma z Vertex AI: używaj otwartych modeli Gemma z Vertex AI.
- Dostraj Gemma za pomocą KerasNLP i wdrożenie w Vertex AI: kompleksowy notebook do dostrajania Gemma za pomocą Keras.
Cloud Run
Cloud Run to w pełni zarządzana platforma do uruchamiania kodu, funkcji lub kontenera w infrastrukturze Google o wysokiej skalowalności.
Cloud Run oferuje GPU na żądanie, szybkie uruchamianie, skalowanie do zera i płatność za użycie. Umożliwia to obsługę otwartych modeli, takich jak Gemma.
Więcej informacji o uruchamianiu Gemma w Cloud Run znajdziesz na tych stronach:
- Sprawdzone metody korzystania z kart graficznych w Cloud Run
- Wykonywanie wnioskowania Gemma na GPU Cloud Run za pomocą Ollama
- Wykonywanie wnioskowania Gemma na GPU Cloud Run za pomocą vLLM
- Wykonywanie wnioskowania Gemma na GPU w Cloud Run za pomocą Transformers.js
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) to zarządzana usługa Kubernetes oferowana przez Google Cloud, która pozwala wdrażać i obsługiwać skonteneryzowane aplikacje w infrastrukturze Google na dużą skalę. Gemma może być obsługiwana za pomocą jednostek przetwarzania tensorów w chmurze (TPU) i procesorów graficznych (GPU) w GKE za pomocą tych ram obsługi LLM:
- Obsługa Gemma przy użyciu GPU w GKE z vLLM
- Obsługa Gemma przy użyciu GPU w GKE z TGI
- Usługa Gemma korzystająca z GPU w GKE z Tritonem i TensorRT-LLM
- Obsługa Gemma przy użyciu TPU w GKE z JetStreamem
- Przesyłanie wyników Gemma za pomocą TPU w GKE za pomocą Saxml
Dzięki uruchamianiu Gemma w GKE możesz wdrożyć solidne, gotowe do zastosowań produkcyjnych rozwiązanie do obsługi wnioskowania ze wszystkimi zaletami zarządzanego środowiska Kubernetes, w tym wydajną skalowalnością i większą dostępnością.
Więcej informacji znajdziesz na tych stronach:
- Omówienie Google Kubernetes Engine (GKE): jak zacząć korzystać z Google Kubernetes Engine (GKE)
- Administrowanie AI/ML w GKE: uruchamiaj zoptymalizowane zbiory zadań AI/ML przy użyciu GKE.
Dataflow ML
Dataflow ML to platforma Google Cloud do wdrażania i zarządzania kompletnymi przepływami pracy systemów uczących się. Dzięki Dataflow ML możesz przygotowywać dane do trenowania modelu za pomocą narzędzi do przetwarzania danych, a potem używać modeli takich jak Gemma do przeprowadzania wnioskowania lokalnego i zdalnego za pomocą potoków wsadowych i strumieniowych.
Korzystając z Dataflow ML, możesz bezproblemowo zintegrować Gemma z potoki wnioskowania Apache Beam za pomocą kilku linii kodu. Dzięki temu możesz pobierać dane, weryfikować i przekształcać dane, podawać tekstowe dane wejściowe do Gemma oraz generować tekstowe dane wyjściowe.
Więcej informacji znajdziesz na tych stronach:
- Korzystanie z otwartych modeli Gemma w Dataflow: zacznij korzystać z Gemma w Dataflow.
- Uruchomienie wnioskowania z otwartym modelem Gemma: samouczek, który wykorzystuje Gemma w potoku wnioskowania Apache Beam.