이 가이드에서는 Google AI 스튜디오에서 클릭 한 번으로 Cloud Run에 Gemma 3 개방형 모델을 배포하는 방법을 보여줍니다.
Google AI Studio는 모델을 빠르게 사용해 보고 다양한 프롬프트를 실험할 수 있는 브라우저 기반 플랫폼입니다. 선택한 Gemma 3 모델을 사용하는 프로토타입 웹 앱을 설계하기 위한 채팅 프롬프트를 입력한 후 Cloud Run에 배포를 선택하여 GPU 지원 Cloud Run 서비스에서 Gemma 모델을 실행할 수 있습니다.
Google AI 스튜디오를 사용하여 생성된 프런트엔드 서비스를 Cloud Run에 배포하면 컨테이너를 준비하는 설정 단계의 대부분을 건너뛸 수 있습니다. Cloud Run은 Google Gen AI SDK를 지원하는 Cloud Run에서 Gemma 오픈 모델을 제공하기 위한 사전 빌드된 컨테이너를 제공하기 때문입니다.
Google AI Studio 시작하기
이 섹션에서는 Google AI 스튜디오를 사용하여 Gemma 3를 Cloud Run에 배포하는 방법을 안내합니다.
Google AI Studio에서 Gemma 모델을 선택합니다.
Chat 페이지의 실행 설정 패널에서 기본 Gemma 모델을 사용하거나 Gemma 모델 중 하나를 선택합니다.
상단 표시줄에서 추가 작업 보기를 선택하고 Cloud Run에 배포를 클릭합니다.
Google Cloud Run에 Gemma 3 배포 대화상자에서 메시지에 따라 새 Google Cloud 프로젝트를 만들거나 기존 프로젝트를 선택합니다. 연결된 결제 계정이 없는 경우 결제를 사용 설정하라는 메시지가 표시될 수 있습니다.
Google AI 스튜디오에서 프로젝트를 확인하면 Google Cloud에 배포를 클릭합니다.
Gemma 3 모델이 Google Cloud에 성공적으로 배포되면 대화상자에 다음이 표시됩니다.
- Gemma 3 및 Ollama를 실행하는 Cloud Run 서비스의 Cloud Run 엔드포인트 URL입니다.
- 생성된 API 키로, Gemini API 라이브러리와 인증하는 데 사용됩니다. 이 키는 수신 요청을 승인하기 위해 배포된 Cloud Run 서비스의 환경 변수로 구성됩니다. IAM 인증을 사용하도록 API 키를 수정하는 것이 좋습니다. 자세한 내용은 Google 생성형 AI SDK와 안전하게 상호작용하기를 참고하세요.
- Google Cloud 콘솔의 Cloud Run 서비스 링크입니다. Cloud Run 서비스의 기본 구성 설정에 대해 알아보려면 링크로 이동한 후 새 버전 수정 및 배포를 선택하여 구성 설정을 확인하거나 수정합니다.
Cloud Run 서비스를 만드는 데 사용된 Gemini API 샘플 코드를 보려면 코드 가져오기를 선택합니다.
선택사항: 코드를 복사하고 필요에 따라 수정합니다.
코드를 사용하면 배포된 Cloud Run 엔드포인트와 API 키를 Google Gen AI SDK와 함께 사용할 수 있습니다.
예를 들어 Python용 Google 생성형 AI SDK를 사용하는 경우 Python 코드는 다음과 같습니다.
from google import genai
from google.genai.types import HttpOptions
# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))
# Example: Generate content (non-streaming)
response = client.models.generate_content(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["How does AI work?"]
)
print(response.text)
# Example: Stream generate content
response = client.models.generate_content_stream(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
print(chunk.text, end="")
고려사항
Google AI 스튜디오에서 Cloud Run 서비스를 배포할 때는 다음 사항을 고려하세요.
- 가격 책정: Cloud Run은 청구 가능한 구성요소입니다. 프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
- 할당량: Cloud Run은 Cloud Run Admin API 아래에서
Request Total Nvidia L4 GPU allocation, per project per region
할당량을 자동으로 요청합니다. - 앱 프록시 서버: 배포된 서비스는 Google AI Studio Gemini 앱 프록시 서버를 사용하여 Ollama를 래핑하고 서비스를 Gemini API와 호환되도록 만듭니다.
- 권한: Cloud Run 서비스를 수정해야 하는 경우 프로젝트의 계정에 필요한 IAM 역할이 부여되어 있어야 합니다.
- 인증: 기본적으로 Google AI 스튜디오에서 Cloud Run 서비스를 배포하면 서비스가 공개 (인증되지 않음) 액세스(
--allow-unauthenticated
플래그)로 배포됩니다. 더 강력한 보안 메커니즘을 사용하려면 IAM으로 인증하는 것이 좋습니다.
다음 단계
Google AI 스튜디오에서 Cloud Run에 배포할 때 성능을 보호하고 최적화하기 위한 권장사항을 알아보세요.