Google Cloud에서 Gemma 배포

Google Cloud 플랫폼은 다음을 포함하여 Gemma 오픈 모델을 배포하고 제공하기 위한 다양한 서비스를 제공합니다.

Vertex AI
Cloud Run
Google Kubernetes Engine
Dataflow ML

Vertex AI

Vertex AI는 사내 MLOps 전문 지식 없이도 머신러닝 프로젝트를 빠르게 빌드하고 확장할 수 있는 Google Cloud 플랫폼입니다. Vertex AI는 다양한 모델을 사용할 수 있는 콘솔을 제공하고 엔드 투 엔드 MLOps 기능과 간소화된 개발을 위한 서버리스 환경을 제공합니다.

Vertex AI를 선별된 모델 모음인 Model Garden에서 사용할 수 있는 Gemma를 제공하는 다운스트림 애플리케이션으로 사용할 수 있습니다. 예를 들어 Gemma 구현에서 가중치를 포팅하고 Vertex AI를 사용하여 해당 버전의 Gemma를 서빙하여 예측을 얻을 수 있습니다.

자세한 내용은 다음 페이지를 참고하세요.

Vertex AI 소개: Vertex AI를 시작합니다.
Vertex AI를 통한 Gemma: Vertex AI에서 Gemma 개방형 모델을 사용합니다.
KerasNLP를 사용하여 Gemma 미세 조정 및 Vertex AI에 배포: Keras를 사용하여 Gemma를 미세 조정하는 엔드 투 엔드 노트북입니다.

Cloud Run

Cloud Run은 Google의 확장성이 뛰어난 인프라 위에서 코드, 함수 또는 컨테이너를 실행할 수 있는 완전 관리형 플랫폼입니다.

Cloud Run은 Gemma와 같은 개방형 모델을 제공할 수 있는 주문형, 빠른 시작, 0으로 확장, 종량제 GPU를 제공합니다.

Cloud Run에서 Gemma를 실행하는 방법을 자세히 알아보려면 다음 페이지를 참고하세요.

Google Kubernetes Engine(GKE)

Google Kubernetes Engine (GKE)은 Google 인프라를 사용하여 컨테이너화된 애플리케이션을 대규모로 배포하고 운영하는 데 사용할 수 있는 Google Cloud의 관리형 Kubernetes 서비스입니다. 다음과 같은 LLM 제공 프레임워크를 사용하여 GKE에서 Cloud Tensor Processing Unit(TPU) 및 그래픽 처리 장치 (GPU)를 사용하여 Gemma를 제공할 수 있습니다.

GKE에서 Gemma를 제공하면 효율적인 확장성 및 더 높은 가용성을 비롯하여 관리형 Kubernetes의 모든 이점을 갖춘 강력한 프로덕션에 즉시 사용 가능한 추론 제공 솔루션을 구현할 수 있습니다.

자세한 내용은 다음 페이지를 참고하세요.

GKE 개요: Google Kubernetes Engine (GKE) 시작하기
GKE에서 AI/ML 조정: GKE로 최적화된 AI/ML 워크로드 실행

Dataflow ML

Dataflow ML은 전체 머신러닝 워크플로를 배포하고 관리하기 위한 Google Cloud 플랫폼입니다. Dataflow ML을 사용하면 데이터 처리 도구로 모델 학습용 데이터를 준비한 다음 Gemma와 같은 모델을 사용하여 일괄 및 스트리밍 파이프라인으로 로컬 및 원격 추론을 실행할 수 있습니다.

Dataflow ML을 사용하면 몇 줄의 코드로 Gemma를 Apache Beam 추론 파이프라인에 원활하게 통합하여 데이터를 처리하고, 데이터를 확인 및 변환하고, 텍스트 입력을 Gemma에 제공하고, 텍스트 출력을 생성할 수 있습니다.

자세한 내용은 다음 페이지를 참고하세요.

Dataflow에서 Gemma 개방형 모델 사용: Dataflow에서 Gemma를 시작합니다.
Gemma 개방형 모델로 추론 실행: Apache Beam 추론 파이프라인에서 Gemma를 사용하는 튜토리얼입니다.