비전 이해

Gemma 제품군의 최신 모델인 Gemma 4는 객체 감지, 광학 문자 인식(OCR), 시각적 질의 응답, 이미지 캡셔닝, 여러 이미지에 걸친 추론과 같은 다양한 비전-언어 작업을 실행할 수 있습니다. 또한 가변 해상도 처리를 지원하므로 추론 속도와 출력 정확도의 균형을 맞출 수 있습니다.

이 섹션에서는 프롬프트에서 시각적 데이터를 효과적으로 준비하고 사용하는 방법을 살펴봅니다.

시각적 데이터

시각적 데이터는 다양한 형식과 해상도로 제공될 수 있습니다. 지원되는 특정 파일 형식 (예: JPEG 및 PNG)은 시각적 데이터를 텐서로 변환하기 위해 선택한 프레임워크에 따라 다릅니다.

Gemma용 시각적 데이터를 준비할 때 주요 고려사항은 다음과 같습니다.

  • 토큰 비용: 각 이미지는 일반적으로 256개의 토큰을 사용하지만 PaliGemma 이미지 토큰 비용은 선택한 특정 모델에 따라 다릅니다.
  • 해결 방법: 해석된 해상도(토큰으로 인코딩되고 모델에서 처리되는 픽셀 수)는 사용 중인 Gemma 버전에 따라 다릅니다.
    • Gemma 4: 토큰 예산에 따라 해상도가 달라집니다. 70, 140, 280, 560, 1120 토큰의 예산 크기 중에서 선택할 수 있으며, 이는 입력 이미지의 크기가 조정되고 처리되는 정도를 결정합니다.
    • Gemma 3: (4B 이상) 896x896 해상도, 더 큰 이미지의 경우 팬 및 스캔 옵션
    • Gemma 3n: 256x256, 512x512 또는 768x768 해상도
    • PaliGemma 2: 224x224, 448x448, 896x896 해상도

해상도가 낮은 이미지는 더 빠르게 처리되지만 시각적 세부정보는 더 적게 캡처됩니다. 추론 속도를 최적화하려면 선택한 Gemma 모델의 내장 해석 해상도 중 하나와 일치하는 시각적 데이터를 제공해야 합니다.

변수 확인 및 토큰 예산

Gemma 4 모델은 다양한 해상도로 이미지를 처리하는 기능을 도입하여 특정 작업에 맞게 시각적 입력을 맞춤설정할 수 있습니다. 예를 들어 객체 감지에서 작은 세부정보를 정확히 파악하려면 고해상도를 선택할 수 있지만, 처리를 가속화하기 위해 개별 동영상 프레임을 분석하는 경우에는 저해상도가 더 적합할 수 있습니다. 궁극적으로 이 기능을 사용하면 시각적 표현의 정확성과 추론 속도 간의 균형을 맞출 수 있습니다.

토큰 예산을 사용하여 이 트레이드오프를 관리합니다. 이 예산은 모델이 단일 이미지에 대해 생성할 수 있는 시각적 토큰 (시각적 토큰 임베딩이라고도 함)의 하드 한도를 설정합니다.

70, 140, 280, 560 또는 1, 120개의 토큰 예산을 선택할 수 있습니다.

  • 높은 예산 (예: 1,120개 토큰): 더 높은 이미지 해상도를 유지합니다. 이렇게 하면 모델이 처리할 패치가 더 많이 생성되므로 미세하고 복잡한 세부정보를 포착하는 데 적합합니다.
  • 예산이 적은 경우 (예: 70개 토큰): 이미지를 다운스케일하여 패치 수를 줄입니다. 이렇게 하면 추론 시간이 크게 단축됩니다.

예산 작동 방식 토큰 예산은 초기 이미지 패치의 최대 수를 지정하여 이미지가 얼마나 리사이즈되는지 직접 제어합니다. 시스템에서 선택한 예산의 9배에 달하는 패치를 생성합니다. 예를 들어 토큰 280개의 예산으로 최대 2,520개의 패치 (280 × 9)를 생성할 수 있습니다.

패치가 압축되는 방식 때문에 9라는 승수가 존재합니다. 처리 중에 모델은 인접한 패치의 모든 3x3 그리드를 가져와 평균을 내어 단일 삽입을 만듭니다. 이러한 통합된 임베딩이 최종 시각적 토큰이 됩니다. 따라서 토큰 예산이 높을수록 최종 임베딩이 많아지므로 모델이 시각적 데이터에서 더 풍부하고 세부적인 정보를 추출할 수 있습니다.

권장사항

시각적 데이터로 Gemma에 프롬프트를 표시할 때 따라야 할 권장사항은 다음과 같습니다.

  • 구체적으로 작성: 구체적인 작업이 있는 경우 충분한 컨텍스트와 안내를 제공하세요. '이 이미지를 설명해 줘' 대신 '이 이미지의 장면을 설명해 줘. 사람과 물체 간의 관계에 중점을 둬'라고 말합니다.

  • 제약 조건 제공: 특정 스타일이나 어조를 사용하려면 프롬프트에 지정해야 합니다. 예를 들어 일반적인 이야기 요청 대신 Gemma에게 '이 이미지를 바탕으로 필름 누아르 스타일의 짧은 이야기를 써 줘'라고 요청하세요.

  • 반복적 개선: 의도한 출력을 얻으려면 실험을 통해 프롬프트를 개선해야 하는 경우가 많습니다. 기본 프롬프트로 시작하여 점차 복잡성을 추가하세요.

금지사항

시각적 데이터로 Gemma에 프롬프트를 표시할 때 피해야 할 사항은 다음과 같습니다.

  • 매우 밀도가 높은 객체의 정확한 수치 기대: Gemma 4는 객체 감지 및 OCR에 탁월하지만 매우 밀도가 높거나 작은 객체 (예: 개별 잔디 가닥 수 세기)의 경우 정확한 수치 대신 근사치를 제공할 수 있습니다. 시각적 작업의 정확도를 높이려면 더 높은 토큰 예산을 사용하세요.

  • 모호한 프롬프트: '이 이미지를 기반으로 무언가를 생성해 줘'와 같은 일반적인 프롬프트 대신 원하는 출력을 얻기 위한 구체적인 지침을 제공하세요. '무언가'가 무엇인지 명확하게 정의합니다(예: 시, 레시피, 코드 스니펫).