Résolution du contenu multimédia
Le paramètre media_resolution contrôle la façon dont l'API Gemini traite les entrées multimédias telles que les images, les vidéos et les documents PDF en déterminant le nombre maximal de jetons alloués aux entrées multimédias. Vous pouvez ainsi équilibrer la qualité de la réponse par rapport à la latence et au coût. Pour en savoir plus sur les différents paramètres, les valeurs par défaut et leur correspondance avec les jetons, consultez la section Nombre de jetons.
Vous pouvez configurer la résolution des contenus multimédias pour des objets multimédias individuels (éléments de contenu) dans votre requête (Gemini 3 uniquement).
Résolution du contenu multimédia par élément (Gemini 3 uniquement)
Gemini 3 vous permet de définir la résolution des éléments multimédias individuels dans votre requête, ce qui vous permet d'optimiser précisément l'utilisation des jetons. Vous pouvez combiner différents niveaux de résolution dans une même requête. Par exemple, utilisez une haute résolution pour un diagramme complexe et une basse résolution pour une image contextuelle simple.
Python
from google import genai
from google.genai import types
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.steps[-1].content[0].text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mimeType: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mimeType: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.steps.at(-1).content[0].text);
}
await main();
REST
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3-flash-preview",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
Valeurs de résolution disponibles
L'API Gemini définit les niveaux suivants pour la résolution des contenus multimédias :
unspecified: paramètre par défaut. Le nombre de jetons pour ce niveau varie considérablement entre Gemini 3 et les modèles Gemini précédents.low: nombre de jetons inférieur, ce qui permet un traitement plus rapide et un coût plus faible, mais avec moins de détails.medium: un équilibre entre le niveau de détail, le coût et la latence.high: nombre de jetons plus élevé, ce qui permet au modèle de disposer de plus de détails, mais augmente la latence et le coût.ultra_high(par élément de contenu uniquement) : nombre de jetons le plus élevé, requis pour des cas d'utilisation spécifiques tels que l'utilisation d'un ordinateur.
Notez que high offre des performances optimales pour la plupart des cas d'utilisation.
Le nombre exact de jetons générés pour chacun de ces niveaux dépend à la fois du type de contenu multimédia (image, vidéo, PDF) et de la version du modèle.
Nombre de jetons
Les tableaux ci-dessous récapitulent le nombre approximatif de jetons pour chaque valeur media_resolution et type de support par famille de modèles.
Modèles Gemini 3
| MediaResolution | Image | Vidéo | |
|---|---|---|---|
unspecified (par défaut) |
1120 | 70 | 560 |
low |
280 | 70 | 280 + texte natif |
medium |
560 | 70 | 560 + texte natif |
high |
1120 | 280 | 1120 + texte natif |
ultra_high |
2240 | N/A | N/A |
Choisir la bonne résolution
- Par défaut (
unspecified) : commencez par la valeur par défaut. Il est optimisé pour offrir un bon équilibre entre qualité, latence et coût pour les cas d'utilisation les plus courants. low: à utiliser dans les scénarios où le coût et la latence sont primordiaux, et où les détails précis sont moins importants.medium/high: augmentez la résolution lorsque la tâche nécessite de comprendre des détails complexes dans le contenu multimédia. Cela est souvent nécessaire pour l'analyse visuelle complexe, la lecture de graphiques ou la compréhension de documents denses.ultra_high: disponible uniquement pour le paramètre "Par élément de contenu". Recommandé pour des cas d'utilisation spécifiques tels que l'utilisation d'un ordinateur ou lorsque les tests montrent une nette amélioration par rapport àhigh.- Contrôle par élément de contenu (Gemini 3) : optimise l'utilisation des jetons. Par exemple, dans une requête comportant plusieurs images, utilisez
highpour un diagramme complexe etlowoumediumpour des images contextuelles plus simples.
Paramètres recommandés
Vous trouverez ci-dessous les paramètres de résolution média recommandés pour chaque type de contenu multimédia compatible.
| Type de support | Réglage recommandé | Nombre maximal de jetons | Conseils d'utilisation |
|---|---|---|---|
| Images | high |
1120 | Recommandé pour la plupart des tâches d'analyse d'images afin de garantir une qualité maximale. |
medium |
560 | Optimal pour la compréhension des documents. La qualité atteint généralement son maximum à medium. Augmenter la valeur à high améliore rarement les résultats de l'OCR pour les documents standards. |
|
| Vidéo (général) | low (ou medium) |
70 (par frame) | Remarque : Pour les vidéos, les paramètres low et medium sont traités de manière identique (70 jetons) afin d'optimiser l'utilisation du contexte. Cela suffit pour la plupart des tâches de reconnaissance et de description d'actions. |
| Vidéo (avec beaucoup de texte) | high |
280 (par frame) | Obligatoire uniquement lorsque le cas d'utilisation implique la lecture de texte dense (OCR) ou de petits détails dans les images vidéo. |
Testez et évaluez toujours l'impact des différents paramètres de résolution sur votre application afin de trouver le meilleur compromis entre qualité, latence et coût.
Résumé de la compatibilité des versions
- La définition de
resolutionsur des éléments de contenu individuels est exclusive aux modèles Gemini 3.
Étapes suivantes
- Pour en savoir plus sur les capacités multimodales de l'API Gemini, consultez les guides sur la compréhension d'images, la compréhension des vidéos et la compréhension des documents.