La plate-forme Google Cloud fournit de nombreux services pour déployer et diffuser des modèles ouverts Gemma, y compris les suivants:
Vertex AI
Vertex AI est une plate-forme Google Cloud qui permet de créer et de faire évoluer rapidement des projets de machine learning sans avoir besoin d'expertise MLOps en interne. Vertex AI fournit une console dans laquelle vous pouvez travailler avec un large choix de modèles. Il offre des fonctionnalités MLOps de bout en bout et une expérience sans serveur pour simplifier le développement.
Vous pouvez utiliser Vertex AI en tant qu'application en aval qui diffuse Gemma, disponible dans Model Garden, une collection de modèles sélectionnés. Par exemple, vous pouvez transférer des pondérations à partir d'une implémentation Gemma, puis utiliser Vertex AI pour diffuser cette version de Gemma afin d'obtenir des prédictions.
Pour en savoir plus, consultez les pages suivantes:
- Présentation de Vertex AI : faites vos premiers pas avec Vertex AI.
- Gemma avec Vertex AI : utilisez les modèles ouverts Gemma avec Vertex AI.
- Affiner Gemma à l'aide de KerasNLP et déployer sur Vertex AI : notebook de bout en bout pour affiner Gemma à l'aide de Keras.
Cloud Run
Cloud Run est une plate-forme entièrement gérée qui vous permet d'exécuter votre code, votre fonction ou votre conteneur sur l'infrastructure hautement évolutive de Google.
Cloud Run propose des GPU à la demande, à démarrage rapide, évolutifs à zéro et payants à l'usage, qui vous permettent de diffuser des modèles ouverts comme Gemma.
Pour en savoir plus sur l'exécution de Gemma sur Cloud Run, consultez les pages suivantes:
- Bonnes pratiques pour utiliser des GPU sur Cloud Run
- Exécuter l'inférence Gemma sur les GPU Cloud Run avec Ollama
- Exécuter l'inférence Gemma sur les GPU Cloud Run avec vLLM
- Exécuter l'inférence Gemma sur des GPU Cloud Run avec Transformers.js
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) est un service Kubernetes géré de Google Cloud que vous pouvez utiliser pour déployer et exploiter des applications conteneurisées à grande échelle à l'aide de l'infrastructure de Google. Vous pouvez diffuser Gemma à l'aide de TPU (Tensor Processing Units) Cloud et de GPU (Graphics Processing Units) sur GKE avec ces frameworks de diffusion de LLM:
- Diffuser Gemma à l'aide de GPU sur GKE avec vLLM
- Diffuser Gemma à l'aide de GPU sur GKE avec TGI
- Diffuser Gemma à l'aide de GPU sur GKE avec Triton et TensorRT-LLM
- Diffuser Gemma à l'aide de TPU sur GKE avec JetStream
- Diffuser Gemma à l'aide de TPU sur GKE avec Saxml
En diffusant Gemma sur GKE, vous pouvez mettre en œuvre une solution de diffusion d'inférences robuste et prête pour la production avec tous les avantages de Kubernetes géré, y compris une évolutivité efficace et une meilleure disponibilité.
Pour en savoir plus, consultez les pages suivantes:
- Présentation de GKE : commencez à utiliser Google Kubernetes Engine (GKE)
- Orchestration IA/ML sur GKE : exécutez des charges de travail d'IA/de ML optimisées avec GKE.
Dataflow ML
Dataflow ML est une plate-forme Google Cloud qui permet de déployer et de gérer des workflows de machine learning complets. Avec Dataflow ML, vous pouvez préparer vos données à l'entraînement de modèles à l'aide d'outils de traitement des données, puis utiliser des modèles tels que Gemma pour effectuer des inférences en local et à distance avec des pipelines de traitement par lot et par flux.
Vous pouvez utiliser le ML Dataflow pour intégrer facilement Gemma à vos pipelines d'inférence Apache Beam en quelques lignes de code. Vous pouvez ainsi ingérer, vérifier et transformer des données, fournir des entrées textuelles à Gemma et générer une sortie textuelle.
Pour en savoir plus, consultez les pages suivantes:
- Utiliser des modèles ouverts Gemma avec Dataflow : commencez à utiliser Gemma dans Dataflow.
- Exécuter l'inférence avec un modèle ouvert Gemma : tutoriel utilisant Gemma dans un pipeline d'inférence Apache Beam.