Déployer Gemma avec Google Cloud

La plate-forme Google Cloud fournit de nombreux services pour déployer et diffuser des modèles ouverts Gemma, y compris les suivants:

Vertex AI

Vertex AI est une plate-forme Google Cloud qui permet de créer et de faire évoluer rapidement des projets de machine learning sans avoir besoin d'expertise MLOps en interne. Vertex AI fournit une console dans laquelle vous pouvez travailler avec un large choix de modèles. Il offre des fonctionnalités MLOps de bout en bout et une expérience sans serveur pour simplifier le développement.

Vous pouvez utiliser Vertex AI en tant qu'application en aval qui diffuse Gemma, disponible dans Model Garden, une collection de modèles sélectionnés. Par exemple, vous pouvez transférer des pondérations à partir d'une implémentation Gemma, puis utiliser Vertex AI pour diffuser cette version de Gemma afin d'obtenir des prédictions.

Pour en savoir plus, consultez les pages suivantes:

Cloud Run

Cloud Run est une plate-forme entièrement gérée qui vous permet d'exécuter votre code, votre fonction ou votre conteneur sur l'infrastructure hautement évolutive de Google.

Cloud Run propose des GPU à la demande, à démarrage rapide, évolutifs à zéro et payants à l'usage, qui vous permettent de diffuser des modèles ouverts comme Gemma.

Pour en savoir plus sur l'exécution de Gemma sur Cloud Run, consultez les pages suivantes:

Google Kubernetes Engine (GKE)

Google Kubernetes Engine (GKE) est un service Kubernetes géré de Google Cloud que vous pouvez utiliser pour déployer et exploiter des applications conteneurisées à grande échelle à l'aide de l'infrastructure de Google. Vous pouvez diffuser Gemma à l'aide de TPU (Tensor Processing Units) Cloud et de GPU (Graphics Processing Units) sur GKE avec ces frameworks de diffusion de LLM:

En diffusant Gemma sur GKE, vous pouvez mettre en œuvre une solution de diffusion d'inférences robuste et prête pour la production avec tous les avantages de Kubernetes géré, y compris une évolutivité efficace et une meilleure disponibilité.

Pour en savoir plus, consultez les pages suivantes:

Dataflow ML

Dataflow ML est une plate-forme Google Cloud qui permet de déployer et de gérer des workflows de machine learning complets. Avec Dataflow ML, vous pouvez préparer vos données à l'entraînement de modèles à l'aide d'outils de traitement des données, puis utiliser des modèles tels que Gemma pour effectuer des inférences en local et à distance avec des pipelines de traitement par lot et par flux.

Vous pouvez utiliser le ML Dataflow pour intégrer facilement Gemma à vos pipelines d'inférence Apache Beam en quelques lignes de code. Vous pouvez ainsi ingérer, vérifier et transformer des données, fournir des entrées textuelles à Gemma et générer une sortie textuelle.

Pour en savoir plus, consultez les pages suivantes: