ความละเอียดของสื่อ
พารามิเตอร์ media_resolution จะควบคุมวิธีที่ Gemini API ประมวลผลอินพุตสื่อ เช่น รูปภาพ วิดีโอ และเอกสาร PDF โดยกำหนดจำนวนโทเค็นสูงสุด ที่จัดสรรไว้สำหรับอินพุตสื่อ ซึ่งช่วยให้คุณปรับสมดุลคุณภาพการตอบสนองกับเวลาในการตอบสนองและต้นทุนได้ ดูการตั้งค่าต่างๆ ค่าเริ่มต้น และวิธีที่การตั้งค่าเหล่านั้นสอดคล้องกับโทเค็นได้ในส่วนจำนวนโทเค็น
คุณสามารถกำหนดค่าความละเอียดของสื่อสำหรับออบเจ็กต์สื่อแต่ละรายการ (รายการเนื้อหา) ภายในคำขอ (Gemini 3 เท่านั้น)
ความละเอียดของสื่อต่อรายการเนื้อหา (Gemini 3 เท่านั้น)
Gemini 3 ช่วยให้คุณกำหนดความละเอียดของสื่อสำหรับออบเจ็กต์สื่อแต่ละรายการภายในคำขอได้ ซึ่งช่วยให้เพิ่มประสิทธิภาพการใช้โทเค็นได้อย่างละเอียด คุณสามารถผสมระดับความละเอียดในคำขอเดียวได้ เช่น ใช้ความละเอียดสูงสำหรับแผนภาพที่ซับซ้อน และความละเอียดต่ำสำหรับรูปภาพบริบทที่เรียบง่าย
Python
from google import genai
from google.genai import types
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.steps[-1].content[0].text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mimeType: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mimeType: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.steps.at(-1).content[0].text);
}
await main();
REST
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3-flash-preview",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
ค่าความละเอียดที่ใช้ได้
Gemini API กำหนดระดับความละเอียดของสื่อไว้ดังนี้
unspecified: การตั้งค่าเริ่มต้น จำนวนโทเค็นสำหรับระดับนี้จะแตกต่างกันอย่างมากระหว่าง Gemini 3 กับโมเดล Gemini รุ่นก่อนหน้าlow: จำนวนโทเค็นต่ำกว่า ส่งผลให้การประมวลผลเร็วขึ้นและมีต้นทุนต่ำกว่า แต่รายละเอียดน้อยกว่าmedium: ความสมดุลระหว่างรายละเอียด ต้นทุน และเวลาในการตอบสนองhigh: จำนวนโทเค็นสูงกว่า ซึ่งให้รายละเอียดมากขึ้นเพื่อให้โมเดลทำงานได้ แต่ต้องแลกมาด้วยเวลาในการตอบสนองและต้นทุนที่เพิ่มขึ้นultra_high(ต่อรายการเนื้อหาเท่านั้น): จำนวนโทเค็นสูงสุด ซึ่งจำเป็นสำหรับกรณีการใช้งานที่เฉพาะเจาะจง เช่น การใช้คอมพิวเตอร์
โปรดทราบว่า high ให้ประสิทธิภาพสูงสุดสำหรับกรณีการใช้งานส่วนใหญ่
จำนวนโทเค็นที่แน่นอนที่สร้างขึ้นสำหรับแต่ละระดับจะขึ้นอยู่กับทั้งประเภทสื่อ (รูปภาพ วิดีโอ, PDF) และเวอร์ชันของโมเดล
จำนวนโทเค็น
ตารางด้านล่างสรุปจำนวนโทเค็นโดยประมาณสำหรับค่า media_resolution และประเภทสื่อแต่ละรายการต่อตระกูลโมเดล
โมเดล Gemini 3
| MediaResolution | รูปภาพ | วิดีโอ | |
|---|---|---|---|
unspecified (ค่าเริ่มต้น) |
1120 | 70 | 560 |
low |
280 | 70 | 280 + ข้อความเนทีฟ |
medium |
560 | 70 | 560 + ข้อความเนทีฟ |
high |
1120 | 280 | 1120 + ข้อความเนทีฟ |
ultra_high |
2240 | ไม่มี | ไม่มี |
การเลือกความละเอียดที่เหมาะสม
- ค่าเริ่มต้น (
unspecified): เริ่มต้นด้วยค่าเริ่มต้น ซึ่งได้รับการปรับแต่งให้มีความสมดุลที่ดีระหว่างคุณภาพ เวลาในการตอบสนอง และต้นทุนสำหรับกรณีการใช้งานที่พบบ่อยที่สุด low: ใช้สำหรับสถานการณ์ที่ต้นทุนและเวลาในการตอบสนองมีความสำคัญสูงสุด และรายละเอียดที่ละเอียดมีความสำคัญน้อยกว่าmedium/high: เพิ่มความละเอียดเมื่องานต้องใช้ความเข้าใจรายละเอียดที่ซับซ้อนภายในสื่อ ซึ่งมักจำเป็นสำหรับการวิเคราะห์ภาพที่ซับซ้อน การอ่านแผนภูมิ หรือความเข้าใจเอกสารที่มีเนื้อหาหนาแน่นultra_high- ใช้ได้กับการตั้งค่าต่อรายการเนื้อหาเท่านั้น แนะนำสำหรับกรณีการใช้งานที่เฉพาะเจาะจง เช่น การใช้คอมพิวเตอร์ หรือในกรณีที่การทดสอบแสดงให้เห็นถึงการปรับปรุงที่ชัดเจนเมื่อเทียบกับhigh- การควบคุมต่อรายการเนื้อหา (Gemini 3): เพิ่มประสิทธิภาพการใช้โทเค็น เช่น ในพรอมต์ที่มีรูปภาพหลายรายการ ให้ใช้
highสำหรับแผนภาพที่ซับซ้อน และlowหรือmediumสำหรับรูปภาพบริบทที่เรียบง่ายกว่า
การตั้งค่าที่แนะนำ
รายการต่อไปนี้แสดงการตั้งค่าความละเอียดของสื่อที่แนะนำสำหรับสื่อแต่ละประเภทที่รองรับ
| ประเภทสื่อ | การตั้งค่าที่แนะนำ | โทเค็นสูงสุด | คำแนะนำการใช้งาน |
|---|---|---|---|
| Google รูปภาพ | high |
1120 | แนะนำสำหรับงานวิเคราะห์รูปภาพส่วนใหญ่เพื่อให้ได้คุณภาพสูงสุด |
medium |
560 | เหมาะอย่างยิ่งสำหรับการทำความเข้าใจเอกสาร โดยคุณภาพจะอิ่มตัวที่ medium โดยทั่วไป การเพิ่มเป็น high ไม่ค่อยปรับปรุงผลลัพธ์ OCR สำหรับเอกสารมาตรฐาน |
|
| วิดีโอ (ทั่วไป) | low (หรือ medium) |
70 (ต่อเฟรม) | หมายเหตุ: สำหรับวิดีโอ ระบบจะถือว่าการตั้งค่า low และ medium เหมือนกัน (70 โทเค็น) เพื่อเพิ่มประสิทธิภาพการใช้บริบท ซึ่งเพียงพอสำหรับงานการจดจำและการอธิบายการกระทำส่วนใหญ่ |
| วิดีโอ (มีข้อความจำนวนมาก) | high |
280 (ต่อเฟรม) | จำเป็นเฉพาะเมื่อกรณีการใช้งานเกี่ยวข้องกับการอ่านข้อความที่มีเนื้อหาหนาแน่น (OCR) หรือรายละเอียดเล็กๆ ภายในเฟรมวิดีโอ |
ทดสอบและประเมินผลกระทบของการตั้งค่าความละเอียดต่างๆ ในแอปพลิเคชันของคุณเสมอ เพื่อหาจุดสมดุลที่ดีที่สุดระหว่างคุณภาพ เวลาในการตอบสนอง และต้นทุน
สรุปความเข้ากันได้กับเวอร์ชันต่างๆ
- การตั้งค่า
resolutionในรายการเนื้อหาแต่ละรายการใช้ได้กับโมเดล Gemini 3 เท่านั้น
ขั้นตอนถัดไป
- ดูข้อมูลเพิ่มเติมเกี่ยวกับความสามารถแบบหลายรูปแบบของ Gemini API ได้ในคำแนะนำการทำความเข้าใจรูปภาพ การทำความเข้าใจวิดีโอ และการทำความเข้าใจเอกสาร