Wdrażanie Gemma w Google Cloud

Platforma Google Cloud udostępnia wiele usług do wdrażania i obsługi otwartych modeli Gemma, w tym:

Vertex AI

Vertex AI to platforma Google Cloud do szybkiego tworzenia i rozwijania projektów uczenia maszynowego bez konieczności posiadania wewnętrznej wiedzy z zakresu MLOps. Vertex AI udostępnia konsolę, w której możesz pracować z dużą liczbą modeli, a także zapewnia kompleksowe funkcje MLOps i możliwość korzystania z bezserwerowych usług w celu usprawnienia procesu tworzenia.

Możesz użyć Vertex AI jako aplikacji do dalszego przetwarzania, która obsługuje Gemma, dostępną w bazie modeli – wyselekcjonowanej kolekcji modeli. Możesz na przykład przenosić wagi z implementacji Gemma i wykorzystywać Vertex AI do obsługi tej wersji Gemma w celu uzyskiwania prognoz.

Więcej informacji znajdziesz na tych stronach:

Cloud Run

Cloud Run to w pełni zarządzana platforma do uruchamiania kodu, funkcji lub kontenera w infrastrukturze Google o wysokiej skalowalności.

Cloud Run oferuje GPU na żądanie, szybkie uruchamianie, skalowanie do zera i płatność za użycie. Umożliwia to obsługę otwartych modeli, takich jak Gemma.

Więcej informacji o uruchamianiu Gemma w Cloud Run znajdziesz na tych stronach:

Google Kubernetes Engine (GKE)

Google Kubernetes Engine (GKE) to zarządzana usługa Kubernetes oferowana przez Google Cloud, która pozwala wdrażać i obsługiwać skonteneryzowane aplikacje w infrastrukturze Google na dużą skalę. Gemma może być obsługiwana za pomocą jednostek przetwarzania tensorów w chmurze (TPU) i procesorów graficznych (GPU) w GKE za pomocą tych ram obsługi LLM:

Dzięki uruchamianiu Gemma w GKE możesz wdrożyć solidne, gotowe do zastosowań produkcyjnych rozwiązanie do obsługi wnioskowania ze wszystkimi zaletami zarządzanego środowiska Kubernetes, w tym wydajną skalowalnością i większą dostępnością.

Więcej informacji znajdziesz na tych stronach:

Dataflow ML

Dataflow ML to platforma Google Cloud do wdrażania i zarządzania kompletnymi przepływami pracy systemów uczących się. Dzięki Dataflow ML możesz przygotowywać dane do trenowania modelu za pomocą narzędzi do przetwarzania danych, a potem używać modeli takich jak Gemma do przeprowadzania wnioskowania lokalnego i zdalnego za pomocą potoków wsadowych i strumieniowych.

Korzystając z Dataflow ML, możesz bezproblemowo zintegrować Gemma z potoki wnioskowania Apache Beam za pomocą kilku linii kodu. Dzięki temu możesz pobierać dane, weryfikować i przekształcać dane, podawać tekstowe dane wejściowe do Gemma oraz generować tekstowe dane wyjściowe.

Więcej informacji znajdziesz na tych stronach: