Gemma 콘텐츠 생성 및 추론 실행

Gemma 모델을 실행하려면 두 가지 주요 결정을 내려야 합니다. 1) 실행할 Gemma 변형, 2) 실행에 사용할 AI 실행 프레임워크입니다. 이러한 두 가지 결정을 내릴 때의 주요 문제는 개발자와 사용자가 모델을 실행하는 데 사용할 수 있는 하드웨어와 관련이 있습니다.

이 개요에서는 이러한 결정을 탐색하고 Gemma 모델로 작업을 시작하는 데 도움이 됩니다. Gemma 모델을 실행하는 일반적인 단계는 다음과 같습니다.

프레임워크 선택

Gemma 모델은 다양한 생성형 AI 실행 프레임워크와 호환됩니다. Gemma 모델을 실행할 때 중요한 결정 요소 중 하나는 모델을 실행하는 데 사용할 수 있는 (또는 사용할 예정인) 컴퓨팅 리소스입니다. 호환되는 대부분의 AI 프레임워크는 Gemma 모델을 효과적으로 실행하기 위해 GPU 또는 TPU와 같은 특수 하드웨어가 필요합니다. Google Colab과 같은 도구는 이러한 특수 컴퓨팅 리소스를 제한적으로 제공할 수 있습니다. OllamaGemma.cpp와 같은 일부 AI 실행 프레임워크를 사용하면 x86 호환 또는 ARM 아키텍처를 사용하여 더 일반적인 CPU에서 Gemma를 실행할 수 있습니다.

다음은 다양한 AI 런타임 프레임워크로 Gemma 모델을 실행하기 위한 가이드입니다.

Keras 네이티브 형식, Safetensors, GGUF와 같이 의도한 배포 Gemma 모델 형식이 선택한 프레임워크에서 지원되는지 확인합니다.

Gemma 변형 선택

Gemma 모델은 기반 또는 핵심 Gemma 모델, PaliGemmaDataGemma와 같은 더 전문화된 모델 변형, KaggleHugging Face와 같은 사이트에서 AI 개발자 커뮤니티가 만든 다양한 변형을 포함하여 여러 변형과 크기로 제공됩니다. 어떤 대안으로 시작해야 할지 잘 모르겠다면 최신 Gemma 코어 명령어 조정 (IT) 모델 중 매개변수가 가장 적은 모델을 선택합니다. 이 유형의 Gemma 모델은 컴퓨팅 요구사항이 낮으며 추가 개발 없이 다양한 프롬프트에 응답할 수 있습니다.

Gemma 변형을 선택할 때 다음 요소를 고려하세요.

  • Gemma 핵심 및 PaliGemma, CodeGemma와 같은 기타 변형 제품군: Gemma (핵심)를 권장합니다. 핵심 버전 이외의 Gemma 변형은 핵심 모델과 동일한 아키텍처를 가지며 특정 작업에서 더 나은 성능을 발휘하도록 학습됩니다. 애플리케이션이나 목표가 특정 Gemma 변형의 전문화에 부합하지 않는 한 Gemma 핵심 또는 기본 모델부터 시작하는 것이 가장 좋습니다.
  • 학습 조정 (IT), 사전 학습 (PT), 미세 조정 (FT), 혼합(mix): IT를 권장합니다.
    • 조정된 명령 (IT) Gemma 변형은 인간 언어로 된 다양한 명령이나 요청에 응답하도록 학습된 모델입니다. 이러한 모델 변형은 추가 모델 학습 없이 프롬프트에 응답할 수 있으므로 시작하기 가장 좋은 곳입니다.
    • 사전 학습 (PT) Gemma 변형은 언어 또는 기타 데이터에 관해 추론하도록 학습되었지만 인간의 안내를 따르도록 학습되지 않은 모델입니다. 이러한 모델은 태스크를 효과적으로 실행하기 위해 추가 학습이나 조정이 필요하며, 모델 및 아키텍처의 기능을 연구하거나 개발하려는 연구원이나 개발자를 대상으로 합니다.
    • 미세 조정된 (FT) Gemma 변형은 IT 변형으로 간주될 수 있지만 일반적으로 특정 작업을 수행하거나 특정 생성형 AI 벤치마크에서 우수한 성능을 내도록 학습됩니다. PaliGemma 변형 계열에는 여러 FT 변형이 포함되어 있습니다.
    • 혼합 (mix) Gemma 변형은 다양한 명령으로 명령 조정되었으며 일반적인 용도에 적합한 PaliGemma 모델의 버전입니다.
  • Parameters: 사용 가능한 가장 작은 숫자를 추천합니다. 일반적으로 모델의 파라미터가 많을수록 성능이 향상됩니다. 그러나 더 큰 모델을 실행하려면 더 크고 복잡한 컴퓨팅 리소스가 필요하며 일반적으로 AI 애플리케이션 개발 속도가 느려집니다. 이미 더 작은 Gemma 모델이 요구사항을 충족할 수 없다고 판단한 것이 아니라면 매개변수가 적은 모델을 선택하세요.
  • 양자화 수준: 조정 외에는 절반 정밀도 (16비트)를 권장합니다. 정량화는 데이터의 크기와 정밀도, 그리고 결과적으로 생성형 AI 모델이 계산 및 응답 생성에 사용하는 메모리 양으로 귀결되는 복잡한 주제입니다. 모델이 일반적으로 32비트 부동 소수점 데이터인 고정밀도 데이터로 학습된 후 Gemma와 같은 모델은 16비트, 8비트 또는 4비트 크기와 같은 낮은 정밀도 데이터를 사용하도록 수정할 수 있습니다. 이러한 양자화된 Gemma 모델은 태스크의 복잡도에 따라 컴퓨팅 및 메모리 리소스를 훨씬 적게 사용하면서도 우수한 성능을 발휘할 수 있습니다. 그러나 정규화된 모델을 조정하기 위한 도구는 제한적이며 선택한 AI 개발 프레임워크 내에서 사용할 수 없을 수도 있습니다. 일반적으로 Gemma와 같은 모델을 전체 정밀도로 미세 조정한 후 결과 모델을 정규화해야 합니다.

Google에서 게시한 주요 Gemma 모델 목록은 Gemma 모델 시작하기의 Gemma 모델 목록을 참고하세요.

생성 및 추론 요청 실행

AI 실행 프레임워크와 Gemma 변형을 선택한 후 모델 실행을 시작하고 콘텐츠를 생성하거나 작업을 완료하도록 프롬프트할 수 있습니다. 특정 프레임워크로 Gemma를 실행하는 방법에 관한 자세한 내용은 프레임워크 선택 섹션에 링크된 가이드를 참고하세요.

프롬프트 형식 지정

모든 명령 조정 Gemma 변형에는 특정 프롬프트 형식 지정이 필요합니다. 이러한 형식 지정 요구사항 중 일부는 Gemma 모델을 실행하는 데 사용하는 프레임워크에서 자동으로 처리되지만 프롬프트 데이터를 토큰라이저에 직접 전송하는 경우 특정 태그를 추가해야 하며 태그 지정 요구사항은 사용 중인 Gemma 변형에 따라 달라질 수 있습니다. Gemma 변형 프롬프트 형식 지정 및 시스템 안내에 관한 자세한 내용은 다음 가이드를 참고하세요.