درجة دقة الوسائط

تتحكّم المَعلمة media_resolution في طريقة معالجة Gemini API لإدخالات الوسائط، مثل الصور والفيديوهات ومستندات PDF، من خلال تحديد الحدّ الأقصى لعدد الرموز المميّزة المخصّصة لإدخالات الوسائط، ما يسمح لك بتحقيق توازن بين جودة الردّ ووقت الاستجابة والتكلفة. بالنسبة إلى الإعدادات المختلفة، يمكنك الاطّلاع على القيم التلقائية وكيفية مطابقتها للرموز المميّزة في قسم عدد الرموز المميّزة.

يمكنك ضبط دقة الوسائط لكائنات الوسائط الفردية (عناصر المحتوى) ضِمن طلبك (Gemini 3 فقط).

دقة الوسائط لكل عنصر محتوى (Gemini 3 فقط)

يسمح لك Gemini 3 بضبط دقة الوسائط لكائنات الوسائط الفردية ضِمن طلبك، ما يوفّر تحسينًا دقيقًا لاستخدام الرموز المميّزة. يمكنك المزج بين مستويات الدقة في طلب واحد. على سبيل المثال، يمكنك استخدام دقة عالية لمخطّط بياني معقّد ودقة منخفضة لصورة سياقية بسيطة.

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file="path/to/image.jpg")

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input=[
        {"type": "text", "text": "Describe this image:"},
        {
            "type": "image",
            "uri": myfile.uri,
            "mime_type": myfile.mime_type,
            "resolution": "high"
        }
    ]
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/image.jpg",
    config: { mime_type: "image/jpeg" },
  });

  const interaction = await ai.interactions.create({
    model: "gemini-3.5-flash",
    input: [
      { type: "text", text: "Describe this image:" },
      {
        type: "image",
        uri: myfile.uri,
        mime_type: myfile.mimeType,
        resolution: "high"
      }
    ],
  });
  console.log(interaction.output_text);
}

await main();

راحة

# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3.5-flash",
    "input": [
      {"type": "text", "text": "Describe this image:"},
      {
        "type": "image",
        "uri": "YOUR_FILE_URI",
        "mime_type": "image/jpeg",
        "resolution": "high"
      }
    ]
  }'

قيم الدقة المتاحة

تحدّد Gemini API المستويات التالية لدقة الوسائط:

  • unspecified: الإعداد التلقائي. يختلف عدد الرموز المميّزة لهذا المستوى بشكلٍ كبير بين Gemini 3 ونماذج Gemini السابقة.
  • low: عدد أقل من الرموز المميّزة، ما يؤدي إلى معالجة أسرع وتكلفة أقل، ولكن مع تفاصيل أقل.
  • medium: توازن بين التفاصيل والتكلفة ووقت الاستجابة.
  • high: عدد أكبر من الرموز المميّزة، ما يوفّر مزيدًا من التفاصيل التي يمكن للنموذج استخدامها، ولكن مع زيادة وقت الاستجابة والتكلفة.
  • ultra_high (لكل عنصر محتوى فقط): أعلى عدد من الرموز المميّزة، وهو مطلوب لحالات استخدام معيّنة، مثل استخدام الكمبيوتر.

يُرجى العِلم أنّ high يوفّر الأداء الأمثل لمعظم حالات الاستخدام.

يعتمد العدد الدقيق للرموز المميّزة التي يتم إنشاؤها لكل من هذه المستويات على نوع الوسائط (صورة أو فيديو أو PDF) وإصدار النموذج.

عدد الرموز المميّزة

تُلخّص الجداول أدناه الأعداد التقريبية للرموز المميّزة لكل قيمة من قيم media_resolution ونوع وسائط لكل مجموعة نماذج.

نماذج Gemini 3

MediaResolution صورة فيديو PDF
unspecified (تلقائي) 1120 70 560
low 280 70 280 + نص أصلي
medium 560 70 560 + نص أصلي
high 1120 280 1120 + نص أصلي
ultra_high 2240 لا ينطبق لا ينطبق

اختيار الدقة المناسبة

  • تلقائي (unspecified): ابدأ بالإعداد التلقائي. تم ضبط هذا الإعداد لتحقيق توازن جيد بين الجودة ووقت الاستجابة والتكلفة لمعظم حالات الاستخدام الشائعة.
  • low: استخدِم هذا الإعداد في السيناريوهات التي تكون فيها التكلفة ووقت الاستجابة في غاية الأهمية، وتكون التفاصيل الدقيقة أقل أهمية.
  • medium / high: يمكنك زيادة الدقة عندما تتطلّب المهمة فهم تفاصيل معقّدة ضِمن الوسائط. غالبًا ما يكون ذلك ضروريًا لإجراء تحليل مرئي معقّد أو قراءة الرسوم البيانية أو فهم المستندات الكثيفة.
  • ultra_high : لا يتوفّر هذا الإعداد إلا لكل عنصر محتوى. يُنصح باستخدامه في حالات معيّنة، مثل استخدام الكمبيوتر أو عندما تُظهر الاختبارات تحسينًا واضحًا مقارنةً بالإعداد high.
  • التحكّم لكل عنصر محتوى (Gemini 3): يؤدي هذا الإعداد إلى تحسين استخدام الرموز المميّزة. على سبيل المثال، في طلب يتضمّن صورًا متعدّدة، استخدِم high لمخطّط بياني معقّد وlow أو medium لصور سياقية أبسط.

الإعدادات المقترَحة

في ما يلي الإعدادات المقترَحة لدقة الوسائط لكل نوع من أنواع الوسائط المتوافقة.

نوع الوسائط الإعداد المقترَح الحدّ الأقصى للرموز المميّزة إرشادات الاستخدام
الصور high 1120 يُنصح باستخدامه لمعظم مهام تحليل الصور لضمان تحقيق أعلى جودة.
ملفات PDF medium 560 هذا الإعداد مثالي لفهم المستندات، وعادةً ما تصل الجودة إلى الحدّ الأقصى عند استخدام medium. نادرًا ما يؤدي الانتقال إلى high إلى تحسين نتائج التعرّف البصري على الأحرف للمستندات العادية.
الفيديو (عام) low (أو medium) 70 (لكل إطار) ملاحظة: بالنسبة إلى الفيديو، يتم التعامل مع الإعدادَين low وmedium بشكلٍ متطابق (70 رمزًا مميّزًا) لتحسين استخدام السياق. ويكفي ذلك لمعظم مهام التعرّف على الإجراءات والأوصاف.
الفيديو (يحتوي على نص كثيف) high 280 (لكل إطار) لا يكون هذا الإعداد مطلوبًا إلا عندما تتضمّن حالة الاستخدام قراءة نص كثيف (التعرّف البصري على الأحرف) أو تفاصيل صغيرة ضِمن إطارات الفيديو.

عليك دائمًا اختبار وتقييم تأثير إعدادات الدقة المختلفة على تطبيقك للعثور على أفضل حلّ وسط بين الجودة ووقت الاستجابة والتكلفة.

ملخّص التوافق مع الإصدارات

  • إنّ ضبط resolution على عناصر المحتوى الفردية خاص بنماذج Gemini 3 فقط.

الخطوات التالية