Gemma 3n è stata rilasciata con input audio e ottimizzata per l'utilizzo nei dispositivi di uso quotidiano. Scopri di più

Esegui il deployment di Gemma con Google Cloud

La piattaforma Google Cloud fornisce molti servizi per il deployment e la pubblicazione di modelli aperti Gemma, tra cui:

Vertex AI
Cloud Run
Google Kubernetes Engine
Dataflow ML

Vertex AI

Vertex AI è una piattaforma Google Cloud per la creazione e la scalabilità rapida di progetti di machine learning senza richiedere competenze MLOps interne. Vertex AI fornisce una console in cui puoi utilizzare una vasta selezione di modelli e offre funzionalità MLOps end-to-end e un'esperienza serverless per uno sviluppo semplificato.

Puoi utilizzare Vertex AI come applicazione a valle che pubblica Gemma, disponibile in Model Garden, una raccolta selezionata di modelli. Ad esempio, puoi eseguire il porting dei pesi da un'implementazione di Gemma e utilizzare Vertex AI per pubblicare questa versione di Gemma per ottenere le previsioni.

Per saperne di più, consulta le seguenti pagine:

Introduzione a Vertex AI: inizia a utilizzare Vertex AI.
Gemma con Vertex AI: utilizza i modelli aperti di Gemma con Vertex AI.
Esegui il fine tuning di Gemma utilizzando KerasNLP ed esegui il deployment in Vertex AI: Notebook end-to-end per eseguire il fine tuning di Gemma utilizzando Keras.

Cloud Run

Cloud Run è una piattaforma completamente gestita per eseguire il codice, la funzione o il contenitore sull'infrastruttura altamente scalabile di Google.

Cloud Run offre GPU on demand, con avvio rapido, scalabilità fino a zero e a consumo, che ti consentono di pubblicare modelli aperti come Gemma.

Per scoprire di più sull'esecuzione di Gemma su Cloud Run, consulta le seguenti pagine:

Google Kubernetes Engine (GKE)

Google Kubernetes Engine (GKE) è un servizio Kubernetes gestito di Google Cloud che puoi utilizzare per eseguire il deployment e gestire applicazioni containerizzate su larga scala utilizzando l'infrastruttura di Google. Puoi pubblicare Gemma utilizzando le unità di elaborazione tensoriale (TPU) Cloud e le unità di elaborazione grafica (GPU) su GKE con questi framework di pubblicazione di LLM:

Se esegui il servizio Gemma su GKE, puoi implementare una soluzione di servizio di inferenza affidabile e pronta per la produzione con tutti i vantaggi di Kubernetes gestito, tra cui scalabilità efficiente e maggiore disponibilità.

Per saperne di più, consulta le seguenti pagine:

Panoramica di GKE: inizia a utilizzare Google Kubernetes Engine (GKE)
Orchestrazione di AI/ML su GKE: esegui carichi di lavoro di AI/ML ottimizzati con GKE

Dataflow ML

Dataflow ML è una piattaforma Google Cloud per il deployment e la gestione di workflow di machine learning completi. Con Dataflow ML, puoi preparare i dati per l'addestramento dei modelli con gli strumenti di elaborazione dei dati, quindi utilizzare modelli come Gemma per eseguire inferenze locali e remote con pipeline batch e in streaming.

Puoi utilizzare Dataflow ML per integrare perfettamente Gemma nelle pipeline di inferenza Apache Beam con poche righe di codice, in modo da importare i dati, verificarli e trasformarli, fornire input di testo a Gemma e generare output di testo.

Per saperne di più, consulta le seguenti pagine:

Utilizzare i modelli aperti di Gemma con Dataflow: inizia a utilizzare Gemma in Dataflow.
Esegui l'inferenza con un modello aperto Gemma: tutorial che utilizza Gemma in una pipeline di inferenza Apache Beam.