Google AI Studio를 사용하여 Cloud Run에 Gemma 3 배포

이 가이드에서는 Google AI 스튜디오에서 클릭 한 번으로 Cloud Run에 Gemma 3 개방형 모델을 배포하는 방법을 보여줍니다.

Google AI Studio는 모델을 빠르게 사용해 보고 다양한 프롬프트를 실험할 수 있는 브라우저 기반 플랫폼입니다. 선택한 Gemma 3 모델을 사용하는 프로토타입 웹 앱을 설계하기 위한 채팅 프롬프트를 입력한 후 Cloud Run에 배포를 선택하여 GPU 지원 Cloud Run 서비스에서 Gemma 모델을 실행할 수 있습니다.

Google AI 스튜디오를 사용하여 생성된 프런트엔드 서비스를 Cloud Run에 배포하면 컨테이너를 준비하는 설정 단계의 대부분을 건너뛸 수 있습니다. Cloud Run은 Google Gen AI SDK를 지원하는 Cloud Run에서 Gemma 오픈 모델을 제공하기 위한 사전 빌드된 컨테이너를 제공하기 때문입니다.

Google AI Studio 시작하기

이 섹션에서는 Google AI 스튜디오를 사용하여 Gemma 3를 Cloud Run에 배포하는 방법을 안내합니다.

  1. Google AI Studio에서 Gemma 모델을 선택합니다.

    Google AI Studio로 이동

    Chat 페이지의 실행 설정 패널에서 기본 Gemma 모델을 사용하거나 Gemma 모델 중 하나를 선택합니다.

  2. 상단 표시줄에서 추가 작업 보기를 선택하고 Cloud Run에 배포를 클릭합니다.

  3. Google Cloud Run에 Gemma 3 배포 대화상자에서 메시지에 따라 새 Google Cloud 프로젝트를 만들거나 기존 프로젝트를 선택합니다. 연결된 결제 계정이 없는 경우 결제를 사용 설정하라는 메시지가 표시될 수 있습니다.

  4. Google AI 스튜디오에서 프로젝트를 확인하면 Google Cloud에 배포를 클릭합니다.

  5. Gemma 3 모델이 Google Cloud에 성공적으로 배포되면 대화상자에 다음이 표시됩니다.

    • Gemma 3 및 Ollama를 실행하는 Cloud Run 서비스의 Cloud Run 엔드포인트 URL입니다.
    • 생성된 API 키로, Gemini API 라이브러리와 인증하는 데 사용됩니다. 이 키는 수신 요청을 승인하기 위해 배포된 Cloud Run 서비스의 환경 변수로 구성됩니다. IAM 인증을 사용하도록 API 키를 수정하는 것이 좋습니다. 자세한 내용은 Google 생성형 AI SDK와 안전하게 상호작용하기를 참고하세요.
    • Google Cloud 콘솔의 Cloud Run 서비스 링크입니다. Cloud Run 서비스의 기본 구성 설정에 대해 알아보려면 링크로 이동한 후 새 버전 수정 및 배포를 선택하여 구성 설정을 확인하거나 수정합니다.
  6. Cloud Run 서비스를 만드는 데 사용된 Gemini API 샘플 코드를 보려면 코드 가져오기를 선택합니다.

  7. 선택사항: 코드를 복사하고 필요에 따라 수정합니다.

코드를 사용하면 배포된 Cloud Run 엔드포인트와 API 키를 Google Gen AI SDK와 함께 사용할 수 있습니다.

예를 들어 Python용 Google 생성형 AI SDK를 사용하는 경우 Python 코드는 다음과 같습니다.

from google import genai
from google.genai.types import HttpOptions

# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))


# Example: Generate content (non-streaming)
response = client.models.generate_content(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["How does AI work?"]
)
print(response.text)


# Example: Stream generate content
response = client.models.generate_content_stream(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
   print(chunk.text, end="")

고려사항

Google AI 스튜디오에서 Cloud Run 서비스를 배포할 때는 다음 사항을 고려하세요.

  • 가격 책정: Cloud Run은 청구 가능한 구성요소입니다. 프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
  • 할당량: Cloud Run은 Cloud Run Admin API 아래에서 Request Total Nvidia L4 GPU allocation, per project per region 할당량을 자동으로 요청합니다.
  • 앱 프록시 서버: 배포된 서비스는 Google AI Studio Gemini 앱 프록시 서버를 사용하여 Ollama를 래핑하고 서비스를 Gemini API와 호환되도록 만듭니다.
  • 권한: Cloud Run 서비스를 수정해야 하는 경우 프로젝트의 계정에 필요한 IAM 역할이 부여되어 있어야 합니다.
  • 인증: 기본적으로 Google AI 스튜디오에서 Cloud Run 서비스를 배포하면 서비스가 공개 (인증되지 않음) 액세스(--allow-unauthenticated 플래그)로 배포됩니다. 더 강력한 보안 메커니즘을 사용하려면 IAM으로 인증하는 것이 좋습니다.

다음 단계

Google AI 스튜디오에서 Cloud Run에 배포할 때 성능을 보호하고 최적화하기 위한 권장사항을 알아보세요.