พารามิเตอร์ media_resolution จะควบคุมวิธีที่ Gemini API ประมวลผลอินพุตสื่อ เช่น รูปภาพ วิดีโอ และเอกสาร PDF โดยการกำหนดจำนวนโทเค็นสูงสุดที่จัดสรรไว้สำหรับอินพุตสื่อ ซึ่งจะช่วยให้คุณปรับสมดุลคุณภาพของคำตอบกับเวลาในการตอบสนองและค่าใช้จ่ายได้ ดูการตั้งค่าต่างๆ ค่าเริ่มต้น และวิธีที่การตั้งค่าเหล่านี้สอดคล้องกับโทเค็นได้ที่ส่วนจำนวนโทเค็น
คุณกำหนดค่าความละเอียดของสื่อได้ 2 วิธี ดังนี้
ความละเอียดของสื่อต่อส่วน (Gemini 3 เท่านั้น)
Gemini 3 ช่วยให้คุณตั้งค่าความละเอียดของสื่อสำหรับออบเจ็กต์สื่อแต่ละรายการภายในคำขอได้ ซึ่งช่วยให้เพิ่มประสิทธิภาพการใช้โทเค็นได้อย่างละเอียด คุณสามารถผสมระดับความละเอียดในคำขอเดียวได้ เช่น ใช้ความละเอียดสูงสำหรับไดอะแกรมที่ซับซ้อน และใช้ความละเอียดต่ำสำหรับรูปภาพตามบริบทอย่างง่าย การตั้งค่านี้จะลบล้างการกำหนดค่าส่วนกลางสำหรับชิ้นส่วนที่เฉพาะเจาะจง ดูการตั้งค่าเริ่มต้นได้ที่ส่วนจำนวนโทเค็น
Python
from google import genai
from google.genai import types
# The media_resolution parameter for parts is currently only available in the v1alpha API version. (experimental)
client = genai.Client(
http_options={
'api_version': 'v1alpha',
}
)
# Replace with your image data
with open('path/to/image1.jpg', 'rb') as f:
image_bytes_1 = f.read()
# Create parts with different resolutions
image_part_high = types.Part.from_bytes(
data=image_bytes_1,
mime_type='image/jpeg',
media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)
model_name = 'gemini-3-pro-preview'
response = client.models.generate_content(
model=model_name,
contents=["Describe these images:", image_part_high]
)
print(response.text)
JavaScript
// Example: Setting per-part media resolution in JavaScript
import { GoogleGenAI, MediaResolution, Part } from '@google/genai';
import * as fs from 'fs';
import { Buffer } from 'buffer'; // Node.js
const ai = new GoogleGenAI({ httpOptions: { apiVersion: 'v1alpha' } });
// Helper function to convert local file to a Part object
function fileToGenerativePart(path, mimeType, mediaResolution) {
return {
inlineData: { data: Buffer.from(fs.readFileSync(path)).toString('base64'), mimeType },
mediaResolution: { 'level': mediaResolution }
};
}
async function run() {
// Create parts with different resolutions
const imagePartHigh = fileToGenerativePart('img.png', 'image/png', Part.MediaResolutionLevel.MEDIA_RESOLUTION_HIGH);
const model_name = 'gemini-3-pro-preview';
const response = await ai.models.generateContent({
model: model_name,
contents: ['Describe these images:', imagePartHigh]
// Global config can still be set, but per-part settings will override
// config: {
// mediaResolution: MediaResolution.MEDIA_RESOLUTION_MEDIUM
// }
});
console.log(response.text);
}
run();
REST
# Replace with paths to your images
IMAGE_PATH="path/to/image.jpg"
# Base64 encode the images
BASE64_IMAGE1=$(base64 -w 0 "$IMAGE_PATH")
MODEL_ID="gemini-3-pro-preview"
echo '{
"contents": [{
"parts": [
{"text": "Describe these images:"},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "'"$BASE64_IMAGE1"'",
},
"media_resolution": {"level": "MEDIA_RESOLUTION_HIGH"}
}
]
}]
}' > request.json
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1alpha/models/${MODEL_ID}:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d @request.json
ความละเอียดของสื่อทั่วโลก
คุณตั้งค่าความละเอียดเริ่มต้นสำหรับชิ้นส่วนสื่อทั้งหมดในคำขอได้โดยใช้
GenerationConfig โมเดลมัลติโมดัลทั้งหมดรองรับฟีเจอร์นี้ หากคำขอมีทั้งการตั้งค่าส่วนกลางและการตั้งค่าต่อชิ้นส่วน การตั้งค่าต่อชิ้นส่วนจะมีลำดับความสำคัญเหนือกว่าสำหรับรายการนั้นๆ
Python
from google import genai
from google.genai import types
client = genai.Client()
# Prepare standard image part
with open('image.jpg', 'rb') as f:
image_bytes = f.read()
image_part = types.Part.from_bytes(data=image_bytes, mime_type='image/jpeg')
# Set global configuration
config = types.GenerateContentConfig(
media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)
response = client.models.generate_content(
model='gemini-2.5-flash',
contents=["Describe this image:", image_part],
config=config
)
print(response.text)
JavaScript
import { GoogleGenAI, MediaResolution } from '@google/genai';
import * as fs from 'fs';
const ai = new GoogleGenAI({ });
async function run() {
// ... (Image loading logic) ...
const response = await ai.models.generateContent({
model: 'gemini-2.5-flash',
contents: ["Describe this image:", imagePart],
config: {
mediaResolution: MediaResolution.MEDIA_RESOLUTION_HIGH
}
});
console.log(response.text);
}
run();
REST
# ... (Base64 encoding logic) ...
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [...],
"generation_config": {
"media_resolution": "MEDIA_RESOLUTION_HIGH"
}
}'
ค่าความละเอียดที่ใช้ได้
Gemini API กำหนดระดับความละเอียดของสื่อดังต่อไปนี้
MEDIA_RESOLUTION_UNSPECIFIED: การตั้งค่าเริ่มต้น จำนวนโทเค็นสำหรับ ระดับนี้จะแตกต่างกันอย่างมากระหว่าง Gemini 3 กับโมเดล Gemini รุ่นก่อนหน้าMEDIA_RESOLUTION_LOW: จำนวนโทเค็นน้อยลง ส่งผลให้ประมวลผลได้เร็วขึ้น และมีต้นทุนต่ำลง แต่มีรายละเอียดน้อยลงMEDIA_RESOLUTION_MEDIUM: ความสมดุลระหว่างรายละเอียด ต้นทุน และเวลาในการตอบสนองMEDIA_RESOLUTION_HIGH: จำนวนโทเค็นสูงขึ้น ซึ่งให้รายละเอียดเพิ่มเติมเพื่อให้โมเดลทำงานได้ โดยมีข้อเสียคือเวลาในการตอบสนองและค่าใช้จ่ายเพิ่มขึ้น- (เร็วๆ นี้)
MEDIA_RESOLUTION_ULTRA_HIGH: จำนวนโทเค็นสูงสุด จำเป็นสำหรับกรณีการใช้งานเฉพาะ เช่น การใช้คอมพิวเตอร์
จำนวนโทเค็นที่แน่นอนซึ่งสร้างขึ้นสำหรับแต่ละระดับเหล่านี้ จะขึ้นอยู่กับทั้งประเภทสื่อ (รูปภาพ วิดีโอ PDF) และรุ่นโมเดล
จำนวนโทเค็น
ตารางด้านล่างสรุปจำนวนโทเค็นโดยประมาณสำหรับแต่ละmedia_resolutionค่าและประเภทสื่อต่อตระกูลโมเดล
โมเดล Gemini 3
| MediaResolution | รูปภาพ | วิดีโอ | |
MEDIA_RESOLUTION_UNSPECIFIED (ค่าเริ่มต้น)
|
1120 | 70 | 560 |
MEDIA_RESOLUTION_LOW
|
280 | 70 | 280 + ข้อความเนทีฟ |
MEDIA_RESOLUTION_MEDIUM
|
560 | 70 | 560 + ข้อความเนทีฟ |
MEDIA_RESOLUTION_HIGH
|
1120 | 280 | 1120 + ข้อความเนทีฟ |
โมเดล Gemini 2.5
| MediaResolution | รูปภาพ | วิดีโอ | PDF (สแกน) | PDF (เนทีฟ) |
MEDIA_RESOLUTION_UNSPECIFIED (ค่าเริ่มต้น)
|
256 + Pan & Scan (~2048) | 256 | 256 + OCR | 256 + ข้อความเนทีฟ |
MEDIA_RESOLUTION_LOW
|
64 | 64 | 64 + OCR | 64 + ข้อความเนทีฟ |
MEDIA_RESOLUTION_MEDIUM
|
256 | 256 | 256 + OCR | 256 + ข้อความเนทีฟ |
MEDIA_RESOLUTION_HIGH
|
256 + Pan & Scan | 256 | 256 + OCR | 256 + ข้อความเนทีฟ |
การเลือกความละเอียดที่เหมาะสม
- ค่าเริ่มต้น (
UNSPECIFIED): เริ่มต้นด้วยค่าเริ่มต้น โดยได้รับการปรับแต่งให้มีความสมดุลที่ดีระหว่างคุณภาพ เวลาในการตอบสนอง และต้นทุนสำหรับกรณีการใช้งานที่พบบ่อยที่สุด LOW: ใช้ในกรณีที่ต้นทุนและเวลาในการตอบสนองมีความสำคัญสูงสุด และรายละเอียดแบบละเอียดมีความสำคัญน้อยกว่าMEDIUM/HIGH: เพิ่มความละเอียดเมื่องานต้อง ทำความเข้าใจรายละเอียดที่ซับซ้อนภายในสื่อ ซึ่งมักจำเป็นสำหรับการวิเคราะห์ภาพที่ซับซ้อน การอ่านแผนภูมิ หรือการทำความเข้าใจเอกสารที่มีข้อมูลหนาแน่น- การควบคุมต่อส่วน (Gemini 3): ใช้การควบคุมนี้เพื่อเพิ่มประสิทธิภาพการใช้โทเค็น ตัวอย่างเช่น ในพรอมต์ที่มีหลายรูปภาพ ให้ใช้
HIGHสำหรับไดอะแกรมที่ซับซ้อน และLOWหรือMEDIUMสำหรับรูปภาพตามบริบทที่เรียบง่ายกว่า
การตั้งค่าที่แนะนำ
รายการต่อไปนี้แสดงการตั้งค่าความละเอียดของสื่อที่แนะนำสำหรับสื่อแต่ละประเภทที่รองรับ
| ประเภทสื่อ | การตั้งค่าที่แนะนำ | โทเค็นสูงสุด | คำแนะนำในการใช้งาน |
| รูปภาพ | MEDIA_RESOLUTION_HIGH
|
1120 | แนะนำสำหรับงานวิเคราะห์รูปภาพส่วนใหญ่เพื่อให้มั่นใจว่ามีคุณภาพสูงสุด |
MEDIA_RESOLUTION_MEDIUM
|
560 | เหมาะสำหรับการทำความเข้าใจเอกสาร โดยปกติคุณภาพจะอิ่มตัวที่ medium การเพิ่มเป็น high แทบจะไม่ช่วยปรับปรุงผลลัพธ์ OCR สำหรับเอกสารมาตรฐาน
|
|
| วิดีโอ (ทั่วไป) | MEDIA_RESOLUTION_LOW (หรือ MEDIA_RESOLUTION_MEDIUM)
|
70 (ต่อเฟรม) | หมายเหตุ: สำหรับวิดีโอ ระบบจะถือว่าการตั้งค่า low และ medium เหมือนกัน (70 โทเค็น) เพื่อเพิ่มประสิทธิภาพการใช้งานบริบท ซึ่งเพียงพอสำหรับงานการจดจำและการอธิบายการกระทำส่วนใหญ่
|
| วิดีโอ (มีข้อความจำนวนมาก) | MEDIA_RESOLUTION_HIGH
|
280 (ต่อเฟรม) | จำเป็นเฉพาะเมื่อ Use Case เกี่ยวข้องกับการอ่านข้อความหนาแน่น (OCR) หรือรายละเอียดเล็กๆ ภายในเฟรมวิดีโอ |
ทดสอบและประเมินผลกระทบของการตั้งค่าความละเอียดต่างๆ ในแอปพลิเคชันที่เฉพาะเจาะจงเสมอ เพื่อหาจุดสมดุลที่ดีที่สุดระหว่างคุณภาพ เวลาในการตอบสนอง และต้นทุน
สรุปความเข้ากันได้ของเวอร์ชัน
MediaResolutionenum พร้อมใช้งานสำหรับโมเดลทั้งหมดที่รองรับอินพุตสื่อ- จำนวนโทเค็นที่เชื่อมโยงกับแต่ละระดับของ Enum จะแตกต่างกันระหว่าง โมเดล Gemini 3 กับ Gemini เวอร์ชันก่อนหน้า
- การตั้งค่า
media_resolutionในออบเจ็กต์Partแต่ละรายการใช้ได้เฉพาะกับ โมเดล Gemini 3
ขั้นตอนถัดไป
- ดูข้อมูลเพิ่มเติมเกี่ยวกับความสามารถแบบหลายรูปแบบของ Gemini API ได้ในคำแนะนำเกี่ยวกับการทำความเข้าใจรูปภาพ การทำความเข้าใจวิดีโอ และการทำความเข้าใจเอกสาร