미디어 해상도
media_resolution 매개변수는 미디어 입력에 할당된 최대 토큰 수 를 결정하여 이미지, 동영상, PDF 문서와 같은 미디어 입력을 Gemini API가 처리하는 방식을 제어하므로 응답 품질과 지연 시간 및 비용 간의 균형을 맞출 수 있습니다. 다양한 설정, 기본값, 토큰과의 상호 관계는 토큰 수 섹션을 참고하세요.
요청 내에서 개별 미디어 객체 (콘텐츠 항목)의 미디어 해상도를 구성할 수 있습니다 (Gemini 3만 해당).
콘텐츠 항목별 미디어 해상도 (Gemini 3만 해당)
Gemini 3을 사용하면 요청 내에서 개별 미디어 객체의 미디어 해상도를 설정하여 토큰 사용을 세부적으로 최적화할 수 있습니다. 단일 요청에서 해상도 수준을 혼합할 수 있습니다. 예를 들어 복잡한 다이어그램에는 고해상도를 사용하고 간단한 컨텍스트 이미지에는 저해상도를 사용합니다.
Python
from google import genai
from google.genai import types
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.steps[-1].content[0].text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mimeType: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mimeType: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.steps.at(-1).content[0].text);
}
await main();
REST
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3-flash-preview",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
사용 가능한 해상도 값
Gemini API는 미디어 해상도에 대해 다음 수준을 정의합니다.
unspecified: 기본 설정입니다. 이 수준의 토큰 수는 Gemini 3과 이전 Gemini 모델 간에 크게 다릅니다.low: 토큰 수가 적어 처리 속도가 빠르고 비용이 저렴하지만 세부정보가 적습니다.medium: 세부정보, 비용, 지연 시간 간의 균형입니다.high: 토큰 수가 많아 모델이 사용할 수 있는 세부정보가 많지만 지연 시간과 비용이 증가합니다.ultra_high(콘텐츠 항목당만 해당): 토큰 수가 가장 많으며 컴퓨터 사용과 같은 특정 사용 사례에 필요합니다.
high는 대부분의 사용 사례에서 최적의 성능을 제공합니다.
이러한 각 수준에 대해 생성되는 정확한 토큰 수는 미디어 유형 (이미지, 동영상, PDF)과 모델 버전 에 따라 다릅니다.
토큰 수
아래 표에는 모델 계열별로 각 media_resolution 값과 미디어 유형에 대한 대략적인 토큰 수가 요약되어 있습니다.
Gemini 3 모델
| MediaResolution | 이미지 | 동영상 | |
|---|---|---|---|
unspecified (기본값) |
1120 | 70 | 560 |
low |
280 | 70 | 280 + 기본 텍스트 |
medium |
560 | 70 | 560 + 기본 텍스트 |
high |
1120 | 280 | 1,120 + 기본 텍스트 |
ultra_high |
2240 | 해당 사항 없음 | 해당 사항 없음 |
적합한 해상도 선택하기
- 기본값 (
unspecified): 기본값으로 시작합니다. 가장 일반적인 사용 사례에서 품질, 지연 시간, 비용 간의 균형을 맞추도록 조정됩니다. low: 비용과 지연 시간이 가장 중요하고 세부정보가 덜 중요한 시나리오에 사용합니다.medium/high: 태스크에서 미디어 내의 복잡한 세부정보를 이해해야 하는 경우 해상도를 높입니다. 이는 복잡한 시각적 분석, 차트 읽기 또는 밀도 높은 문서 이해에 필요한 경우가 많습니다.ultra_high- 콘텐츠 항목별 설정에만 사용할 수 있습니다. 컴퓨터 사용과 같은 특정 사용 사례 또는 테스트에서high보다 명확한 개선이 확인되는 경우에 권장됩니다.- 콘텐츠 항목별 제어 (Gemini 3): 토큰 사용을 최적화합니다. 예를 들어 이미지가 여러 개 포함된 프롬프트에서 복잡한 다이어그램에는
high를 사용하고 더 간단한 컨텍스트 이미지에는low또는medium을 사용합니다.
권장 설정
다음은 지원되는 각 미디어 유형에 권장되는 미디어 해상도 설정을 나열한 것입니다.
| 미디어 유형 | 권장 설정 | 최대 토큰 수 | 사용 안내 |
|---|---|---|---|
| 이미지 | high |
1120 | 최대 품질을 보장하기 위해 대부분의 이미지 분석 작업에 권장됩니다. |
medium |
560 | 문서 이해에 최적입니다. 품질은 일반적으로 medium에서 포화됩니다. high로 늘려도 표준 문서의 OCR 결과가 개선되는 경우는 거의 없습니다. |
|
| 동영상 (일반) | low (또는 medium) |
70 (프레임당) | 참고: 동영상의 경우 컨텍스트 사용을 최적화하기 위해 low 및 medium 설정이 동일하게 처리됩니다 (70개 토큰). 이는 대부분의 동작 인식 및 설명 작업에 충분합니다. |
| 동영상 (텍스트가 많은 경우) | high |
280 (프레임당) | 사용 사례에 밀도 높은 텍스트 (OCR) 또는 동영상 프레임 내의 작은 세부정보를 읽는 것이 포함되는 경우에만 필요합니다. |
항상 다양한 해상도 설정이 애플리케이션에 미치는 영향을 테스트하고 평가하여 품질, 지연 시간, 비용 간의 최적의 절충점을 찾으세요.
버전 호환성 요약
- 개별 콘텐츠 항목에
resolution을 설정하는 것은 Gemini 3 모델에만 해당 됩니다.