La piattaforma Google Cloud fornisce molti servizi per il deployment e la pubblicazione di modelli aperti Gemma, tra cui:
Vertex AI
Vertex AI è una piattaforma Google Cloud per la creazione e la scalabilità rapida di progetti di machine learning senza richiedere competenze MLOps interne. Vertex AI fornisce una console in cui puoi utilizzare una vasta selezione di modelli e offre funzionalità MLOps end-to-end e un'esperienza serverless per uno sviluppo semplificato.
Puoi utilizzare Vertex AI come applicazione a valle che pubblica Gemma, disponibile in Model Garden, una raccolta selezionata di modelli. Ad esempio, puoi eseguire il porting dei pesi da un'implementazione di Gemma e utilizzare Vertex AI per pubblicare questa versione di Gemma per ottenere le previsioni.
Per saperne di più, consulta le seguenti pagine:
- Introduzione a Vertex AI: inizia a utilizzare Vertex AI.
- Gemma con Vertex AI: utilizza i modelli aperti di Gemma con Vertex AI.
- Esegui il fine tuning di Gemma utilizzando KerasNLP ed esegui il deployment in Vertex AI: Notebook end-to-end per eseguire il fine tuning di Gemma utilizzando Keras.
Cloud Run
Cloud Run è una piattaforma completamente gestita per eseguire il codice, la funzione o il contenitore sull'infrastruttura altamente scalabile di Google.
Cloud Run offre GPU on demand, con avvio rapido, scalabilità fino a zero e a consumo, che ti consentono di pubblicare modelli aperti come Gemma.
Per scoprire di più sull'esecuzione di Gemma su Cloud Run, consulta le seguenti pagine:
- Best practice per l'utilizzo delle GPU su Cloud Run
- Eseguire l'inferenza di Gemma sulle GPU Cloud Run con Ollama
- Esegui l'inferenza di Gemma sulle GPU di Cloud Run con vLLM
- Eseguire l'inferenza di Gemma sulle GPU di Cloud Run con Transformers.js
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) è un servizio Kubernetes gestito di Google Cloud che puoi utilizzare per eseguire il deployment e gestire applicazioni containerizzate su larga scala utilizzando l'infrastruttura di Google. Puoi pubblicare Gemma utilizzando le unità di elaborazione tensoriale (TPU) Cloud e le unità di elaborazione grafica (GPU) su GKE con questi framework di pubblicazione di LLM:
- Pubblicare Gemma utilizzando le GPU su GKE con vLLM
- Pubblicare Gemma utilizzando GPU su GKE con TGI
- Pubblicare Gemma utilizzando GPU su GKE con Triton e TensorRT-LLM
- Pubblica Gemma utilizzando TPU su GKE con JetStream
- Pubblicare Gemma utilizzando TPU su GKE con Saxml
Se esegui il servizio Gemma su GKE, puoi implementare una soluzione di servizio di inferenza affidabile e pronta per la produzione con tutti i vantaggi di Kubernetes gestito, tra cui scalabilità efficiente e maggiore disponibilità.
Per saperne di più, consulta le seguenti pagine:
- Panoramica di GKE: inizia a utilizzare Google Kubernetes Engine (GKE)
- Orchestrazione di AI/ML su GKE: esegui carichi di lavoro di AI/ML ottimizzati con GKE
Dataflow ML
Dataflow ML è una piattaforma Google Cloud per il deployment e la gestione di workflow di machine learning completi. Con Dataflow ML, puoi preparare i dati per l'addestramento dei modelli con gli strumenti di elaborazione dei dati, quindi utilizzare modelli come Gemma per eseguire inferenze locali e remote con pipeline batch e in streaming.
Puoi utilizzare Dataflow ML per integrare perfettamente Gemma nelle pipeline di inferenza Apache Beam con poche righe di codice, in modo da importare i dati, verificarli e trasformarli, fornire input di testo a Gemma e generare output di testo.
Per saperne di più, consulta le seguenti pagine:
- Utilizzare i modelli aperti di Gemma con Dataflow: inizia a utilizzare Gemma in Dataflow.
- Esegui l'inferenza con un modello aperto Gemma: tutorial che utilizza Gemma in una pipeline di inferenza Apache Beam.