Esegui il deployment di Gemma con Google Cloud

La piattaforma Google Cloud fornisce molti servizi per il deployment e la pubblicazione di modelli aperti Gemma, tra cui:

Vertex AI

Vertex AI è una piattaforma Google Cloud per la creazione e la scalabilità rapida di progetti di machine learning senza richiedere competenze MLOps interne. Vertex AI fornisce una console in cui puoi utilizzare una vasta selezione di modelli e offre funzionalità MLOps end-to-end e un'esperienza serverless per uno sviluppo semplificato.

Puoi utilizzare Vertex AI come applicazione a valle che pubblica Gemma, disponibile in Model Garden, una raccolta selezionata di modelli. Ad esempio, puoi eseguire il porting dei pesi da un'implementazione di Gemma e utilizzare Vertex AI per pubblicare questa versione di Gemma per ottenere le previsioni.

Per saperne di più, consulta le seguenti pagine:

Cloud Run

Cloud Run è una piattaforma completamente gestita per eseguire il codice, la funzione o il contenitore sull'infrastruttura altamente scalabile di Google.

Cloud Run offre GPU on demand, con avvio rapido, scalabilità fino a zero e a consumo, che ti consentono di pubblicare modelli aperti come Gemma.

Per scoprire di più sull'esecuzione di Gemma su Cloud Run, consulta le seguenti pagine:

Google Kubernetes Engine (GKE)

Google Kubernetes Engine (GKE) è un servizio Kubernetes gestito di Google Cloud che puoi utilizzare per eseguire il deployment e gestire applicazioni containerizzate su larga scala utilizzando l'infrastruttura di Google. Puoi pubblicare Gemma utilizzando le unità di elaborazione tensoriale (TPU) Cloud e le unità di elaborazione grafica (GPU) su GKE con questi framework di pubblicazione di LLM:

Se esegui il servizio Gemma su GKE, puoi implementare una soluzione di servizio di inferenza affidabile e pronta per la produzione con tutti i vantaggi di Kubernetes gestito, tra cui scalabilità efficiente e maggiore disponibilità.

Per saperne di più, consulta le seguenti pagine:

Dataflow ML

Dataflow ML è una piattaforma Google Cloud per il deployment e la gestione di workflow di machine learning completi. Con Dataflow ML, puoi preparare i dati per l'addestramento dei modelli con gli strumenti di elaborazione dei dati, quindi utilizzare modelli come Gemma per eseguire inferenze locali e remote con pipeline batch e in streaming.

Puoi utilizzare Dataflow ML per integrare perfettamente Gemma nelle pipeline di inferenza Apache Beam con poche righe di codice, in modo da importare i dati, verificarli e trasformarli, fornire input di testo a Gemma e generare output di testo.

Per saperne di più, consulta le seguenti pagine: