Résolution des contenus multimédias
Le paramètre media_resolution contrôle la façon dont l'API Gemini traite les entrées multimédias telles que les images, les vidéos et les documents PDF en déterminant le nombre maximal de jetons alloués aux entrées multimédias. Vous pouvez ainsi équilibrer la qualité de la réponse par rapport à la latence et au coût. Pour connaître les différents paramètres, les valeurs par défaut et leur correspondance avec les jetons, consultez la section Nombre de jetons.
Vous pouvez configurer la résolution des contenus multimédias pour des objets multimédias individuels (éléments de contenu) dans votre requête (Gemini 3 uniquement).
Résolution des contenus multimédias par élément de contenu (Gemini 3 uniquement)
Gemini 3 vous permet de définir la résolution des contenus multimédias pour des objets multimédias individuels dans votre requête, ce qui vous offre une optimisation précise de l'utilisation des jetons. Vous pouvez combiner différents niveaux de résolution dans une même requête. Par exemple, vous pouvez utiliser une haute résolution pour un diagramme complexe et une faible résolution pour une image contextuelle simple.
Python
from google import genai
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3.5-flash",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mime_type: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3.5-flash",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mime_type: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.output_text);
}
await main();
REST
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
Valeurs de résolution disponibles
L'API Gemini définit les niveaux suivants pour la résolution des contenus multimédias :
unspecified: paramètre par défaut. Le nombre de jetons pour ce niveau varie considérablement entre Gemini 3 et les modèles Gemini antérieurs.low: nombre de jetons inférieur, ce qui permet un traitement plus rapide et un coût plus faible, mais avec moins de détails.medium: équilibre entre détails, coût et latence.high: nombre de jetons plus élevé, ce qui fournit plus de détails au modèle, mais augmente la latence et le coût.ultra_high(par élément de contenu uniquement) : nombre de jetons le plus élevé, requis pour des cas d'utilisation spécifiques tels que l'utilisation d'un ordinateur.
Notez que high offre des performances optimales pour la plupart des cas d'utilisation.
Le nombre exact de jetons générés pour chacun de ces niveaux dépend à la fois du type de contenu multimédia (image, vidéo, PDF) et de la version du modèle.
Nombre de jetons
Les tableaux ci-dessous récapitulent le nombre approximatif de jetons pour chaque valeur media_resolution et type de contenu multimédia par famille de modèles.
Modèles Gemini 3
| MediaResolution | Image | Vidéo | |
|---|---|---|---|
unspecified (par défaut) |
1120 | 70 | 560 |
low |
280 | 70 | 280 + texte natif |
medium |
560 | 70 | 560 + texte natif |
high |
1120 | 280 | 1120 + texte natif |
ultra_high |
2240 | N/A | N/A |
Choisir la bonne résolution
- Par défaut (
unspecified) : commencez par la valeur par défaut. Elle est optimisée pour un bon équilibre entre qualité, latence et coût pour la plupart des cas d'utilisation courants. low: utilisez cette valeur dans les scénarios où le coût et la latence sont primordiaux, et où les détails précis sont moins importants.medium/high: augmentez la résolution lorsque la tâche nécessite de comprendre des détails complexes dans le contenu multimédia. Cela est souvent nécessaire pour l'analyse visuelle complexe, la lecture de graphiques ou la compréhension de documents denses.ultra_high: disponible uniquement pour le paramètre par élément de contenu. Recommandé pour des cas d'utilisation spécifiques tels que l'utilisation d'un ordinateur ou lorsque les tests montrent une amélioration claire par rapport àhigh.- Contrôle par élément de contenu (Gemini 3) : optimise l'utilisation des jetons. Par exemple, dans une requête comportant plusieurs images, utilisez
highpour un diagramme complexe etlowoumediumpour des images contextuelles plus simples.
Paramètres recommandés
La liste suivante indique les paramètres de résolution des contenus multimédias recommandés pour chaque type de contenu multimédia compatible.
| Type de support | Réglage recommandé | Nombre maximal de jetons | Usage Guidance |
|---|---|---|---|
| Images | high |
1120 | Recommandé pour la plupart des tâches d'analyse d'images afin de garantir une qualité maximale. |
medium |
560 | Optimal pour la compréhension des documents. La qualité atteint généralement un niveau de saturation à medium. Passer à high améliore rarement les résultats de l'OCR pour les documents standards. |
|
| Vidéo (général) | low (ou medium) |
70 (par image) | Remarque : Pour les vidéos, les paramètres low et medium sont traités de manière identique (70 jetons) afin d'optimiser l'utilisation du contexte. Cela est suffisant pour la plupart des tâches de reconnaissance et de description des actions. |
| Vidéo (avec beaucoup de texte) | high |
280 (par image) | Requis uniquement lorsque le cas d'utilisation implique la lecture de texte dense (OCR) ou de petits détails dans les images vidéo. |
Testez et évaluez toujours l'impact des différents paramètres de résolution sur votre application afin de trouver le meilleur compromis entre qualité, latence et coût.
Résumé de la compatibilité des versions
- La définition de la
resolutionsur des éléments de contenu individuels est exclusive aux modèles Gemini 3.
Étapes suivantes
- Pour en savoir plus sur les fonctionnalités multimodales de l'API Gemini, consultez les guides Comprendre les images, Comprendre les vidéos et Comprendre les documents.