Mit dem Parameter media_resolution wird festgelegt, wie die Gemini API Media-Eingaben wie Bilder, Videos und PDF-Dokumente verarbeitet. Dazu wird die maximale Anzahl von Tokens bestimmt, die für Media-Eingaben zugewiesen werden. So können Sie die Qualität der Antworten gegen Latenz und Kosten abwägen. Informationen zu den Standardwerten für verschiedene Einstellungen und wie sie mit Tokens zusammenhängen finden Sie im Abschnitt Tokenanzahl.
Sie können die Media-Auflösung für einzelne Media-Objekte (Inhaltselemente) in Ihrer Anfrage konfigurieren (nur Gemini 3).
Media-Auflösung pro Inhaltselement (nur Gemini 3)
Mit Gemini 3 können Sie die Media-Auflösung für einzelne Media-Objekte in Ihrer Anfrage festlegen und so die Tokennutzung detailliert optimieren. Sie können Auflösungsstufen in einer einzelnen Anfrage kombinieren. Beispielsweise können Sie eine hohe Auflösung für ein komplexes Diagramm und eine niedrige Auflösung für ein einfaches Kontextbild verwenden.
Python
from google import genai
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3.5-flash",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mime_type: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3.5-flash",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mime_type: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.output_text);
}
await main();
REST
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3.5-flash",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
Verfügbare Auflösungswerte
Die Gemini API definiert die folgenden Stufen für die Media-Auflösung:
unspecified: Die Standardeinstellung. Die Tokenanzahl für diese Stufe variiert erheblich zwischen Gemini 3 und früheren Gemini-Modellen.low: Niedrigere Tokenanzahl, was zu einer schnelleren Verarbeitung und geringeren Kosten führt, aber weniger Details bietet.medium: Ein ausgewogenes Verhältnis zwischen Detailgenauigkeit, Kosten und Latenz.high: Höhere Tokenanzahl, die mehr Details für das Modell bietet, aber zu einer höheren Latenz und höheren Kosten führt.ultra_high(nur pro Inhaltselement): Höchste Tokenanzahl, die für bestimmte Anwendungsfälle wie die Computernutzung erforderlich ist.
Die Einstellung high bietet für die meisten Anwendungsfälle die optimale Leistung.
Die genaue Anzahl der für jede dieser Stufen generierten Tokens hängt sowohl vom Medientyp (Bild, Video, PDF) als auch von der Modellversion ab.
Tokenanzahl
In den folgenden Tabellen sind die ungefähren Tokenanzahlen für jeden media_resolution-Wert und Medientyp pro Modellfamilie zusammengefasst.
Gemini 3-Modelle
| MediaResolution | Bild | Video | |
|---|---|---|---|
unspecified (Standard) |
1.120 | 70 | 560 |
low |
280 | 70 | 280 + nativer Text |
medium |
560 | 70 | 560 + nativer Text |
high |
1.120 | 280 | 1.120 + nativer Text |
ultra_high |
2240 | – | – |
Die richtige Auflösung auswählen
- Standard (
unspecified): Beginnen Sie mit der Standardeinstellung. Sie ist auf ein gutes Gleichgewicht zwischen Qualität, Latenz und Kosten für die meisten gängigen Anwendungsfälle abgestimmt. low: Verwenden Sie diese Einstellung für Szenarien, in denen Kosten und Latenz im Vordergrund stehen und feine Details weniger wichtig sind.medium/high: Erhöhen Sie die Auflösung, wenn die Aufgabe erfordert, dass Sie komplizierte Details in den Medien verstehen. Dies ist oft für komplexe visuelle Analysen, das Lesen von Diagrammen oder das Verstehen umfangreicher Dokumente erforderlich.ultra_high: Nur für die Einstellung pro Inhaltselement verfügbar. Empfohlen für bestimmte Anwendungsfälle wie die Computernutzung oder wenn Tests eine deutliche Verbesserung gegenüberhighzeigen.- Steuerung pro Inhaltselement (Gemini 3): Optimiert die Tokennutzung. Verwenden Sie beispielsweise in einem Prompt mit mehreren Bildern
highfür ein komplexes Diagramm undlowodermediumfür einfachere Kontextbilder.
Empfohlene Einstellungen
In der folgenden Liste sind die empfohlenen Einstellungen für die Media-Auflösung für jeden unterstützten Medientyp aufgeführt.
| Medientyp | Empfohlene Einstellung | Maximale Anzahl von Tokens | Usage Guidance |
|---|---|---|---|
| Google Bilder | high |
1.120 | Für die meisten Bildanalyseaufgaben empfohlen, um maximale Qualität zu gewährleisten. |
| PDFs | medium |
560 | Optimal für das Verstehen von Dokumenten. Die Qualität erreicht in der Regel bei medium ein Maximum. Eine Erhöhung auf high verbessert die OCR-Ergebnisse für Standarddokumente selten. |
| Video (Allgemein) | low oder medium |
70 (pro Frame) | Hinweis:Bei Videos werden die Einstellungen low und medium identisch behandelt (70 Tokens), um die Kontextnutzung zu optimieren. Dies reicht für die meisten Aufgaben zur Aktionserkennung und -beschreibung aus. |
| Video (Textlastig) | high |
280 (pro Frame) | Nur erforderlich, wenn der Anwendungsfall das Lesen von dichtem Text (OCR) oder kleinen Details in Videoframes umfasst. |
Testen und bewerten Sie immer die Auswirkungen verschiedener Auflösungseinstellungen auf Ihre Anwendung, um den besten Kompromiss zwischen Qualität, Latenz und Kosten zu finden.
Zusammenfassung der Versionskompatibilität
- Das Festlegen der
resolutionfür einzelne Inhaltselemente ist nur für Gemini 3-Modelle möglich.
Nächste Schritte
- Weitere Informationen zu den multimodalen Funktionen der Gemini API finden Sie in den Leitfäden Bildverständnis, Videoerkennung und Dokumenterkennung.