Платформа Google Cloud предоставляет множество услуг для развертывания и обслуживания открытых моделей Gemma, в том числе следующие:
Вертексный ИИ
Vertex AI — это облачная платформа Google для быстрого создания и масштабирования проектов машинного обучения без необходимости использования собственных знаний MLOps. Vertex AI предоставляет консоль, на которой вы можете работать с большим выбором моделей, а также предлагает комплексные возможности MLOps и бессерверную работу для упрощения разработки.
Вы можете использовать Vertex AI в качестве дополнительного приложения, которое обслуживает Gemma, доступную в Model Garden — тщательно подобранной коллекции моделей. Например, вы можете перенести веса из реализации Gemma и использовать Vertex AI для обслуживания этой версии Gemma для получения прогнозов.
Чтобы узнать больше, обратитесь к следующим страницам:
- Введение в Vertex AI : начните работу с Vertex AI.
- Gemma с Vertex AI : используйте открытые модели Gemma с Vertex AI.
- Точная настройка Gemma с помощью KerasNLP и развертывание в Vertex AI : комплексный блокнот для точной настройки Gemma с помощью Keras.
Облачный бег
Cloud Run – это полностью управляемая платформа для запуска вашего кода, функции или контейнера поверх высокомасштабируемой инфраструктуры Google.
Cloud Run предлагает графические процессоры с оплатой по факту использования, обеспечивающие быстрый запуск и масштабируемость до нуля, что позволяет обслуживать открытые модели, такие как Gemma.
Чтобы узнать больше о запуске Gemma в Cloud Run, посетите следующие страницы:
- Рекомендации по использованию графических процессоров в Cloud Run
- Выполнение вывода Gemma на графических процессорах Cloud Run с помощью Ollama
- Выполнение вывода Gemma на графических процессорах Cloud Run с помощью vLLM
- Выполнение вывода Gemma на облачных графических процессорах с помощью Transformers.js
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) — это управляемый сервис Kubernetes от Google Cloud, который можно использовать для развертывания и эксплуатации контейнерных приложений в любом масштабе с использованием инфраструктуры Google. Вы можете обслуживать Gemma, используя процессоры Cloud Tensor (TPU) и графические процессоры (GPU) на GKE с помощью следующих платформ обслуживания LLM:
- Обслуживайте Gemma, используя графические процессоры на GKE с vLLM
- Обслуживайте Джемму, используя графические процессоры на GKE с TGI
- Обслуживайте Gemma, используя графические процессоры на GKE с Triton и TensorRT-LLM
- Обслуживайте Джемму, используя TPU на GKE с помощью JetStream
- Обслуживайте Джемму, используя TPU на GKE с Saxml
Обслуживая Gemma на GKE, вы можете реализовать надежное, готовое к использованию решение для обслуживания выводов со всеми преимуществами управляемого Kubernetes, включая эффективную масштабируемость и более высокую доступность.
Чтобы узнать больше, обратитесь к следующим страницам:
- Обзор GKE : Начало работы с Google Kubernetes Engine (GKE)
- Оркестровка AI/ML в GKE : запускайте оптимизированные рабочие нагрузки AI/ML с помощью GKE.
Поток данных ML
Dataflow ML — это облачная платформа Google для развертывания и управления полными рабочими процессами машинного обучения. С помощью Dataflow ML вы можете подготовить данные для обучения модели с помощью инструментов обработки данных, а затем использовать такие модели, как Gemma, для выполнения локального и удаленного вывода с помощью пакетных и потоковых конвейеров.
Вы можете использовать Dataflow ML для простой интеграции Gemma в ваши конвейеры вывода Apache Beam с помощью нескольких строк кода, что позволяет вам принимать данные, проверять и преобразовывать их, передавать текстовые входные данные в Gemma и генерировать текстовый вывод.
Чтобы узнать больше, обратитесь к следующим страницам:
- Используйте открытые модели Gemma с Dataflow . Начните работу с Gemma в Dataflow.
- Выполнение вывода с помощью открытой модели Gemma : руководство, в котором используется Gemma в конвейере вывода Apache Beam.