Gemma 4 est disponible avec des entrées de texte, audio et image, et une fenêtre de contexte longue allant jusqu'à 256 000 jetons. En savoir plus

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Compréhension de la vision

Gemma 4, le dernier modèle de la famille Gemma, peut effectuer un large éventail de tâches de vision-langage telles que la détection d'objets, la reconnaissance optique des caractères (OCR), les systèmes de questions-réponses visuelles, la légende d'images et le raisonnement sur plusieurs images. Il est également compatible avec le traitement à résolution variable, ce qui vous permet d'équilibrer la vitesse d'inférence et la précision de la sortie.

Cette section explique comment préparer et utiliser efficacement des données visuelles dans vos requêtes.

Données visuelles

Les données visuelles peuvent se présenter dans de nombreux formats et résolutions. Les formats de fichiers spécifiques compatibles (tels que JPEG et PNG) dépendent du framework que vous choisissez pour convertir vos données visuelles en tenseurs.

Voici les points clés à prendre en compte lors de la préparation de données visuelles pour Gemma :

Coût des jetons : chaque image utilise généralement 256 jetons, bien que les coûts des jetons d'image PaliGemma varient en fonction du modèle spécifique sélectionné.
Résolution : la résolution interprétée (c'est-à-dire le nombre de pixels encodés dans les jetons et traités par le modèle) dépend de la version de Gemma que vous utilisez :
- Gemma 4 : résolution variable en fonction du budget de jetons. Vous pouvez choisir entre des budgets de 70, 140, 280, 560 ou 1 120 jetons, ce qui détermine le niveau de redimensionnement et de traitement de l'image d'entrée.
- Gemma 3 : (4B et versions ultérieures) résolution de 896 x 896, avec des options de panoramique et de balayage pour les images plus grandes.
- Gemma 3n : résolution de 256 x 256, 512 x 512 ou 768 x 768
- PaliGemma 2 : résolution de 224 x 224, 448 x 448 ou 896 x 896

Les images de résolution inférieure sont traitées plus rapidement, mais capturent moins de détails visuels. Pour optimiser la vitesse d'inférence, vous devez fournir des données visuelles correspondant à l'une des résolutions interprétées intégrées du modèle Gemma choisi.

Résolution variable et budgets de jetons

Les modèles Gemma 4 permettent de traiter des images à différentes résolutions, ce qui vous permet d'adapter l'entrée visuelle à votre tâche spécifique. Par exemple, vous pouvez opter pour une haute résolution afin d'identifier de petits détails dans la détection d'objets, tandis qu'une résolution inférieure peut être préférable pour analyser des images vidéo individuelles afin d'accélérer le traitement. En fin de compte, cette fonctionnalité vous permet d'équilibrer la vitesse d'inférence et la précision de la représentation visuelle.

Vous gérez ce compromis à l'aide d'un budget de jetons. Ce budget définit une limite stricte au nombre de jetons visuels (également appelés embeddings de jetons visuels) que le modèle peut générer pour une seule image.

Vous pouvez choisir un budget de 70, 140, 280, 560 ou 1 120 jetons :

Budgets élevés (par exemple, 1 120 jetons) : conservez une résolution d'image plus élevée. Cela génère davantage de correctifs à traiter par le modèle, ce qui est idéal pour capturer des détails fins et complexes.
Budgets faibles (par exemple, 70 jetons) : réduisez l'échelle de l'image, ce qui génère moins de correctifs. Cela accélère considérablement les délais d'inférence.

Fonctionnement du budget Le budget de jetons contrôle directement le niveau de redimensionnement d'une image en dictant le nombre maximal de correctifs d'image initiaux. Le système génère neuf fois plus de correctifs que le budget sélectionné. Par exemple, un budget de 280 jetons génère jusqu'à 2 520 correctifs (280 x 9).

Le multiplicateur de 9 existe en raison de la façon dont les correctifs sont compressés : lors du traitement, le modèle prend chaque grille 3x3 de correctifs adjacents et les moyenne pour créer un seul embedding. Ces embeddings consolidés deviennent vos jetons visuels finaux. Par conséquent, un budget de jetons plus élevé génère davantage d'embeddings finaux, ce qui permet au modèle d'extraire des informations plus riches et plus granulaires de vos données visuelles.

Choses à faire

Voici quelques bonnes pratiques à suivre lorsque vous invitez Gemma à utiliser des données visuelles.

Soyez précis : si vous avez des tâches spécifiques, fournissez suffisamment de contexte et d’indications. Au lieu de "décrire cette image", essayez "décrire la scène de cette image en vous concentrant sur la relation entre les personnes et les objets".
Fournissez des contraintes : pour obtenir un style ou un ton particulier, veillez à le spécifier dans votre requête. Par exemple, au lieu d'une requête générale d'histoire, demandez à Gemma de "rédiger une courte histoire sur cette image dans le style d'un film noir".
Affinement itératif : pour obtenir le résultat souhaité, il est souvent nécessaire d’ expérimenter et d’affiner les requêtes. Commencez par une requête de base et ajoutez progressivement de la complexité.

À éviter

Voici quelques éléments à éviter lorsque vous invitez Gemma à utiliser des données visuelles.

Attendez-vous à des nombres exacts pour les objets extrêmement denses : bien que Gemma 4 excelle dans la détection d’objets et l’OCR, il peut toujours fournir des approximations plutôt que des nombres exacts pour les objets extrêmement denses ou minuscules (comme le comptage des brins d’herbe individuels). Pour obtenir la meilleure précision possible pour les tâches visuelles, utilisez un budget de jetons plus élevé.
Requêtes vagues ou ambiguës : au lieu de requêtes générales telles que "Générer quelque chose à partir de cette image", fournissez des instructions spécifiques pour obtenir les résultats souhaités. Définissez clairement ce qu'est "quelque chose". Par exemple, un poème, une recette ou un extrait de code.