Gemini Deep Research ist jetzt in der Vorabversion mit Funktionen wie gemeinsamer Planung, Visualisierung und MCP-Unterstützung verfügbar.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Auflösung von Medien

Hinweis: Auf dieser Seite wird die neue Interactions API beschrieben, die sich derzeit in der Betaphase befindet.
Für stabile Produktionsbereitstellungen empfehlen wir, weiterhin die generateContent API zu verwenden. Mit dem Schalter auf dieser Seite können Sie zwischen den Versionen wechseln.

Mit dem Parameter media_resolution wird gesteuert, wie die Gemini API Media-Eingaben wie Bilder, Videos und PDF-Dokumente verarbeitet. Dazu wird die maximale Anzahl von Tokens für Media-Eingaben festgelegt, sodass Sie die Antwortqualität mit Latenz und Kosten in Einklang bringen können. Informationen zu den verschiedenen Einstellungen, Standardwerten und der Zuordnung zu Tokens finden Sie im Abschnitt Tokenanzahl.

Sie können die Media-Auflösung für einzelne Media-Objekte (Inhaltselemente) in Ihrer Anfrage konfigurieren (nur Gemini 3).

Media-Auflösung pro Inhaltselement (nur Gemini 3)

Mit Gemini 3 können Sie die Media-Auflösung für einzelne Media-Objekte in Ihrer Anfrage festlegen und so die Token-Nutzung detailliert optimieren. Sie können Auflösungsstufen in einer einzelnen Anfrage kombinieren. So können Sie beispielsweise für ein komplexes Diagramm eine hohe Auflösung und für ein einfaches Kontextbild eine niedrige Auflösung verwenden.

Python

from google import genai
from google.genai import types

client = genai.Client()

myfile = client.files.upload(file="path/to/image.jpg")

interaction = client.interactions.create(
    model="gemini-3-flash-preview",
    input=[
        {"type": "text", "text": "Describe this image:"},
        {
            "type": "image",
            "uri": myfile.uri,
            "mime_type": myfile.mime_type,
            "resolution": "high"
        }
    ]
)
print(interaction.steps[-1].content[0].text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/image.jpg",
    config: { mimeType: "image/jpeg" },
  });

  const interaction = await ai.interactions.create({
    model: "gemini-3-flash-preview",
    input: [
      { type: "text", text: "Describe this image:" },
      {
        type: "image",
        uri: myfile.uri,
        mimeType: myfile.mimeType,
        resolution: "high"
      }
    ],
  });
  console.log(interaction.steps.at(-1).content[0].text);
}

await main();

REST

# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": [
      {"type": "text", "text": "Describe this image:"},
      {
        "type": "image",
        "uri": "YOUR_FILE_URI",
        "mime_type": "image/jpeg",
        "resolution": "high"
      }
    ]
  }'

Verfügbare Auflösungswerte

Die Gemini API definiert die folgenden Stufen für die Media-Auflösung:

unspecified: Die Standardeinstellung. Die Anzahl der Tokens für diese Stufe variiert erheblich zwischen Gemini 3 und früheren Gemini-Modellen.
low: Geringere Anzahl von Tokens, was zu einer schnelleren Verarbeitung und niedrigeren Kosten führt, aber weniger Details liefert.
medium: Ein ausgewogenes Verhältnis zwischen Detailgrad, Kosten und Latenz.
high: Höhere Anzahl von Tokens, die dem Modell mehr Details zur Verfügung stellen, was jedoch zu einer höheren Latenz und höheren Kosten führt.
ultra_high (nur pro Inhaltselement): Höchste Anzahl an Tokens, die für bestimmte Anwendungsfälle wie die Verwendung auf Computern erforderlich ist.

Beachten Sie, dass high für die meisten Anwendungsfälle die optimale Leistung bietet.

Die genaue Anzahl der Tokens, die für jede dieser Stufen generiert werden, hängt sowohl vom Medientyp (Bild, Video, PDF) als auch von der Modellversion ab.

Tokenanzahl

In den folgenden Tabellen sind die ungefähren Tokenanzahlen für jeden media_resolution-Wert und Medientyp pro Modellfamilie zusammengefasst.

Gemini 3-Modelle

MediaResolution	Bild	Video	PDF
`unspecified` (Standard)	1.120	70	560
`low`	280	70	280 + nativer Text
`medium`	560	70	560 + nativer Text
`high`	1.120	280	1.120 + nativer Text
`ultra_high`	2240	–	–

Die richtige Auflösung auswählen

Standard (unspecified): Beginnen Sie mit der Standardeinstellung. Es ist für die meisten gängigen Anwendungsfälle auf ein gutes Gleichgewicht zwischen Qualität, Latenz und Kosten abgestimmt.
low:Für Szenarien, in denen Kosten und Latenz im Vordergrund stehen und detaillierte Informationen weniger wichtig sind.
medium / high:Erhöhen Sie die Auflösung, wenn für die Aufgabe das Erfassen komplexer Details in den Media erforderlich ist. Das ist oft für komplexe visuelle Analysen, das Lesen von Diagrammen oder das Verstehen von umfangreichen Dokumenten erforderlich.
ultra_high: Nur für die Einstellung pro Inhaltselement verfügbar. Empfohlen für bestimmte Anwendungsfälle wie die Verwendung von Computern oder wenn Tests eine deutliche Verbesserung gegenüber high zeigen.
Steuerung pro Inhaltselement (Gemini 3): Optimiert die Tokennutzung. Verwenden Sie beispielsweise in einem Prompt mit mehreren Bildern high für ein komplexes Diagramm und low oder medium für einfachere Kontextbilder.

Empfohlene Einstellungen

In den folgenden Listen sind die empfohlenen Einstellungen für die Media-Auflösung für jeden unterstützten Medientyp aufgeführt.

Medientyp	Empfohlene Einstellung	Maximale Anzahl an Tokens	Usage Guidance
Bilder	`high`	1.120	Für die meisten Bildanalyseaufgaben empfohlen, um maximale Qualität zu gewährleisten.
PDFs	`medium`	560	Optimal für das Verständnis von Dokumenten; die Qualität erreicht in der Regel bei `medium` ein Sättigungsniveau. Eine Erhöhung auf `high` führt bei Standarddokumenten selten zu besseren OCR-Ergebnissen.
Video (Allgemein)	`low` oder `medium`	70 (pro Frame)	Hinweis:Bei Video werden die Einstellungen für `low` und `medium` identisch behandelt (70 Tokens), um die Kontextnutzung zu optimieren. Das ist für die meisten Aufgaben zur Aktionserkennung und ‑beschreibung ausreichend.
Video (textlastig)	`high`	280 (pro Frame)	Nur erforderlich, wenn der Anwendungsfall das Lesen von dichtem Text (OCR) oder kleinen Details in Videoframes umfasst.

Testen und bewerten Sie immer die Auswirkungen verschiedener Auflösungseinstellungen auf Ihre Anwendung, um den besten Kompromiss zwischen Qualität, Latenz und Kosten zu finden.

Zusammenfassung der Versionskompatibilität

Das Festlegen von resolution für einzelne Inhalte ist nur bei Gemini 3-Modellen möglich.

Nächste Schritte

Weitere Informationen zu den multimodalen Funktionen der Gemini API finden Sie in den Anleitungen zum Bildverständnis, Videoverständnis und Dokumentverständnis.