Stratégies de requête de fichier

La famille de modèles d'intelligence artificielle (IA) Gemini est conçue pour gérer différents types de données d'entrée, y compris du texte, des images et de l'audio. Étant donné que ces modèles peuvent gérer plusieurs types ou modes de données, les modèles Gemini sont appelés modèles multimodaux ou ont des fonctionnalités multimodales.

Cette page fournit des conseils et des bonnes pratiques concernant l'utilisation de fichiers multimédias avec des invites pour l'API Gemini. Pour savoir comment utiliser l'API Gemini Files pour importer des fichiers multimédias et les inclure dans vos requêtes, consultez Requête avec des fichiers multimédias.

Utiliser des fichiers multimédias avec des requêtes

La possibilité d'utiliser différents types de données dans vos requêtes vous offre plus de flexibilité concernant les tâches à effectuer avec l'API Gemini. Par exemple, vous pouvez envoyer au modèle la photo d'un délicieux repas et lui demander de rédiger un court blog sur ce repas.

Prompt (Invite) Réponse

Rédige un article de blog court et attrayant à partir de cette photo. Elle doit inclure une description du repas sur la photo et parler de mon parcours de préparation du repas.


Cookies

La préparation des repas est un excellent moyen d'économiser du temps et de l'argent, et peut également vous aider à manger plus sainement. Ce repas est un excellent exemple de repas sains et délicieux qui peut être facilement préparé à l'avance.

Ce repas se compose de riz complet, de légumes rôtis et de poulet teriyaki. Le riz complet est un glucide sain et complexe qui vous procure une énergie soutenue. Les légumes rôtis constituent un excellent moyen d'obtenir votre dose quotidienne de vitamines et de minéraux, tandis que le poulet teriyaki est une option délicieuse et riche en protéines.

Ce repas est également très facile à préparer. Il suffit de faire cuire le riz complet, de faire rôtir les légumes et de faire cuire le teriyaki au poulet. Une fois que tout est cuit, répartissez-les dans des récipients pour préparer les repas au réfrigérateur. Vous pourrez ensuite prendre un conteneur et vous lancer dans des matins bien chargés !

Si vous recherchez un repas sain et délicieux qui peut être facilement préparé à l'avance, ce repas est une excellente option. Elle regorge de nutriments et de saveurs, et fait en sorte que vous vous sentiez rassasié(e) et satisfait(e).

Envie de préparer des repas sains et délicieux !

Stratégies pour générer des requêtes avec des contenus multimédias

Si vous ne parvenez pas à obtenir le résultat souhaité à partir des requêtes qui utilisent des fichiers multimédias, il existe des stratégies pour vous aider à obtenir les résultats souhaités. Les sections suivantes fournissent des approches de conception et des conseils de dépannage pour améliorer les requêtes utilisant une entrée multimodale.

Vous pouvez améliorer vos invites multimodales en suivant ces bonnes pratiques :

Principes de base de la conception d'invites

  • Soyez précis dans vos instructions : définissez des instructions claires et concises qui laissent peu de place aux erreurs d'interprétation.
  • Ajoutez quelques exemples à votre invite :utilisez des exemples réalistes pour illustrer votre objectif.
  • Décomposez la tâche étape par étape : divisez les tâches complexes en sous-objectifs gérables pour guider le modèle tout au long du processus.
  • Spécifiez le format de sortie : dans votre invite, demandez la sortie au format souhaité, tel que Markdown, JSON, HTML, etc.
  • Placez votre image en premier pour les requêtes comportant une seule image: Gemini peut gérer les entrées d'image et de texte dans n'importe quel ordre. Toutefois, pour les requêtes contenant une seule image, il est possible que les performances soient meilleures si cette image est placée avant la requête textuelle.

    Résoudre les problèmes liés à votre requête multimodale

    • Si le modèle n'extrait pas d'informations de la partie pertinente de l'image : ajoutez des indications sur les aspects de l'image à partir desquels vous souhaitez que l'invite puise des informations.
    • Si la sortie du modèle est trop générique (pas assez adaptée à l'image) : au début de la requête, demandez au modèle de décrire les images avant de fournir l'instruction de la tâche, ou demandez-lui de se référer au contenu de l'image.
    • Principes de base de la conception d'invites

      Cette section développe les bonnes pratiques présentées dans la section précédente.

      Remarque : Les résultats des modèles présentés dans les exemples Gemini suivants peuvent varier d'une exécution à l'autre.

      Soyez précis dans vos instructions

      Les requêtes ont plus de succès lorsqu'elles sont claires et détaillées. Si vous avez une sortie spécifique en tête, il est préférable d'inclure cette exigence dans l'invite pour vous assurer d'obtenir le résultat souhaité.

      Parfois, l'intent d'une invite peut sembler clair pour celui qui l'a écrit, mais en réalité manquer d'informations. Pour personnaliser le comportement du modèle, réfléchissez à la façon dont votre invite peut être (mal) interprétée et assurez-vous que les instructions que vous fournissez sont spécifiques et claires. N'oubliez pas de laisser suffisamment de place aux erreurs d'interprétation

      Pour cette image de tableau d'aéroport, demander au modèle de "décrire cette image" peut générer une description générale. Si vous avez besoin du modèle pour analyser une heure et une ville à partir de l'image, vous pouvez inclure cette requête directement dans votre invite.

      Requête Réponse du modèle

      Décrivez cette image.

      L'image montre un tableau des arrivées et des départs d'aéroport.

      Requête modifiée Amélioration de la réponse
      Horaires de transport

      Analysez les heures et les villes du tableau d'aéroport présent l'image ci-dessous et affichez-les sous forme de liste.

    • 10:50 Moscou
    • 11:05 Édimbourg
    • 11:05 Londres
    • 11:10 Bucarest
    • 11:30 Kiev
    • 11:35 Dublin
    • 11:45 Midlands de l'Est
    • 12:15 Sofia
    • 12:30 Londres
    • 12:30 Newcastle
    • 12:40 Saint-Pétersbourg
    • 12:40 Londres
    • 12:45 Manchester
    • Ajoutez quelques exemples

      Le modèle Gemini peut accepter plusieurs entrées qu'il peut utiliser comme exemples pour comprendre la sortie que vous souhaitez. L'ajout de ces exemples peut aider le modèle à identifier les modèles, et à appliquer la relation entre les images données et les réponses au nouvel exemple. C'est ce qu'on appelle l'apprentissage few-shot.

      Dans l'exemple ci-dessous, le résultat initial est écrit sous forme de phrase et contient également le pays (Brésil). Supposons que vous souhaitiez obtenir la sortie dans un format ou un style différent, et que vous ne souhaitiez que la ville, et non le pays. En ajoutant des exemples few-shot à votre invite, vous pouvez orienter le modèle pour qu'il réponde comme vous le souhaitez.

      Prompt (Invite) Réponse du modèle
      Horaires de transport

      Déterminez la ville et le repère.

      Le repère est la statue du Christ Rédempteur à Rio de Janeiro, au Brésil.

      Requête modifiée Amélioration de la réponse

      Déterminez la ville et le repère.

      colisée

      ville : Rome ; repère : le Colisée.

      Cité interdite

      ville : Pékin ; repère : la Cité interdite

      forbidden-city

      Ville : Rio de Janeiro ; repère : statue du Christ Rédempteur

      Examiner étape par étape

      Pour les tâches complexes telles que celles nécessitant une compréhension visuelle et un raisonnement, il peut être utile de diviser la tâche en étapes plus petites et plus simples. Cela peut également être efficace si vous demandez directement au modèle de "penser étape par étape" dans votre invite.

      Requête Réponse du modèle

      Quand vais-je manquer de papier toilette ?

      Bientôt, car il ne vous reste que trois rouleaux.

      Requête modifiée Amélioration de la réponse

        1. Commencez par compter le nombre de rouleaux de papier toilette apparaissant sur cette photo.
        2. Déterminez ensuite la quantité de papier toilette qu'une personne type utilise par jour.
        3. Calculez la durée de vie de ces rouleaux de papier toilette.

        1. Sur cette photo, on voit trois rouleaux de papier toilette.
        2. Une personne type utilise environ 20 feuilles de papier toilette par jour.
        3. Si un rouleau contient 200 feuilles, chaque rouleau dure environ 10 jours. Par conséquent, les trois rouleaux dureront environ un mois.

      Les problèmes mathématiques ou les problèmes basés sur les mots sont d'excellents candidats pour demander au modèle de réfléchir étape par étape.

      Prompt (Invite) Response (Réponse)

      Quel est le quatrième terme de la suite ?

      -135

      La réponse du modèle est incorrecte. Pour améliorer ce résultat, vous pouvez demander au modèle d'analyser le problème avant de répondre à l'invite.

      Prompt (Invite) Response (Réponse)

      Analysez d'abord la formule figurant dans l'image.

      Ensuite, en fonction de la formule, répondez à la question "Quel est le quatrième terme de la séquence ?".

      Cliquez pour développer le résultat

      $$ b(n) = b(n-1) * (-3) $$

      $$ b(1) = 15 $$

      1. Remplacez "n = 4" dans la formule :
      2. $$ b(4) = b(4-1) * (-3) $$

        $$ b(4) = b(3) * (-3) $$

      3. Nous ne connaissons pas la valeur de b(3). Remplacez donc n = 3 dans la formule :
      4. $$ b(3) = b(3-1) * (-3) $$

        $$ b(3) = b(2) * (-3) $$

      5. Nous ne connaissons pas la valeur de b(2). Remplacez donc n = 2 dans la formule :
      6. $$ b(2) = b(2-1) * (-3) $$

        $$ b(2) = b(1) * (-3) $$

      7. Nous savons que la valeur de b(1) est 15. Remplacez-la par la formule :
      8. $$ b(2) = 15 * (-3) $$

        $$ b(2) = -45 $$

      9. Maintenant que nous connaissons la valeur de b(2), remplacez-la dans la formule de b(3) :
      10. $$ b(3) = b(2) * (-3) $$

        $$ b(3) = -45 * (-3) $$

        $$ b(3) = 135 $$

      11. Maintenant que nous connaissons la valeur de b(3), remplacez-la dans la formule de b(4) :
      12. $$ b(4) = b(3) * (-3) $$

        $$ b(4) = 135 * (-3) $$

        $$ b(4) = -405 $$

      Par conséquent, le quatrième terme de la suite est -405.

      Cette réponse du modèle est correcte. Maintenant, pour simplifier encore plus la réponse, vous pouvez demander au modèle de réfléchir étape par étape.

      Requête modifiée Amélioration de la réponse

      Quel est le quatrième terme de la suite ? Réfléchir pas à pas.

      Le premier terme est 15.

      Le deuxième terme est b(1) * (-3) = 15 * (-3) = -45.

      Le troisième terme est b(2) * (-3) = -45 * (-3) = 135.

      Le quatrième terme est b(3) * (-3) = 135 * (-3) = -405.

      Essayez de spécifier le format de sortie

      Un problème courant est le besoin d'avoir un format spécifique pour la sortie du modèle (par exemple, Markdown, JSON, HTML), en particulier si celle-ci doit être ingérée par une tâche en aval. Vous pouvez essayer de produire un résultat dans ce format en demandant au modèle via l'invite. Vous trouverez deux exemples ci-dessous :

      Requête Réponse du modèle

      Analysez le tableau de cette image au format Markdown

      | Objet | État | Heure | Date de début | Date limite |

      | ------- | ------ | ---- | --------- | ------ |

      | Mathématiques | Terminé | 1h30 | 29/11/2023 | 01/12/2023 |

      | Zone géographique | Terminé | 30 min | 02/12/2023 | 04/12/2023 |

      | Physique | En cours | 2 heures | 03/12/2023 | 05/12/2023 |

      | Biologie | Non commencée | 6 heures | 02/11/2016 | 06/12/2023 |

      Prompt (Invite) Réponse du modèle

      Fournissez la liste de tous les attributs suivants :

      ingrédients, type de cuisine, végétarien ou non, au format JSON

      ```json```

      {

      "ingredients": [

      "rice",

      "shrimp",

      "clams",

      "mussels",

      "peas",

      "tomatoes",

      "onions",

      "garlic",

      "olive oil",

      "paprika",

      "salt",

      "pepper"

      ],

      "type of cuisine": "Spanish",

      "vegetarian": false

      Utilisez votre image en premier pour les invites liées à une seule image

      Bien que Gemini puisse interpréter l'image et le texte dans n'importe quel ordre dans une invite, le fait de placer une seule image avant l'invite de texte peut offrir de meilleurs résultats. Dans les exemples suivants, vous remarquerez que l'image apparaît en premier avant le texte de chaque requête.

      Résoudre les problèmes liés à une requête multimodale

      Vous devrez peut-être résoudre les problèmes liés à votre invite si vous n'obtenez pas de réponse utile. Voici quelques stratégies que vous pouvez essayer.

      Si le modèle n'extrait pas d'informations de la partie pertinente de l'image

      Pour obtenir une réponse plus spécifique, vous pouvez indiquer les aspects de l'image à partir desquels vous souhaitez que l'invite extraie des informations pour éclairer sa réponse.

      Requête Réponse du modèle

      Combien de jours ces couches vont-elles durer avec un bébé ?

      Les couches vont durer 198 jours avant d'être épuisées.

      Requête modifiée Amélioration de la réponse

      Combien de temps vont durer ces couches avant d'être épuisées ?

      Utilisez le poids indiqué sur la boîte pour déterminer l'âge de l'enfant et le nombre total de couches dans la boîte.

      Divisez le nombre total par le nombre de couches utilisées par l'enfant chaque jour.

      La boîte contient 198 couches. La boîte indique que les couches sont destinées à un enfant pesant entre 22 et 37 livres.

      L'enfant correspondant à cette plage de poids a probablement 1 à 2 ans.

      Un enfant de deux ans utilise généralement six couches par jour. Par conséquent, les couches vont durer environ 33 jours (198/6).

      Si la sortie du modèle est trop générique et n'est pas assez adaptée à l'entrée d'image

      Pour aider le modèle à adapter sa réponse aux images, essayez de lui demander de décrire les images avant d'effectuer sa tâche de raisonnement.

      Requête Réponse du modèle

      Quel est le point commun entre ces images ?

      Les quatre images sont des exemples de photographie de paysages.

      Requête modifiée Amélioration de la réponse

      Tout d'abord, décrivez en détail le contenu de chaque image. Quel est le point commun entre ces images ?

      La première image montre une personne préparant une valise. La deuxième image montre un couloir vide dans un centre commercial. La troisième image montre un rouleau de papier toilette. La quatrième image montre une mer sombre et orageuse.

      Le point commun de ces images est qu'elles sont toutes des exemples d'espaces liminaux. Les espaces liminaux sont des lieux ou des situations situés entre deux autres lieux ou situations. Ils sont souvent caractérisés par un sentiment d'incertitude ou d'ambiguïté.

      La première image montre la personne qui est à la maison ou en voyage. La deuxième image montre le couloir situé entre deux magasins. La troisième image montre du papier toilette, ce qui peut représenter une salle de bain. Une salle de bain est un espace de transition entre les domaines privé et public. C'est un endroit où nous nous préparons à entrer dans le monde extérieur ou à le quitter.

      La quatrième image montre la mer entre calme et orage.

      Les espaces liminaux peuvent être à la fois intéressants et étranges. Ils peuvent constituer un début ou une fin. Ils peuvent représenter un lieu de réflexion ou d'action.

      Vous pouvez également demander explicitement au modèle de faire référence à ce que l'image représente.

      Requête modifiée Amélioration de la réponse

      Quel est le point commun entre ces images ? Reportez-vous au contenu des images dans votre réponse.

      Toutes les images concernent des voyages. La première image montre une personne préparant une valise, la deuxième montre un couloir vide dans un centre commercial, la troisième une pile de rouleaux de papier toilette, et la quatrième image montre une mer sombre et orageuse.

      Ces images sont toutes liées au voyage, car elles correspondent à tout ce dont les gens ont besoin ou utilisent lorsqu'ils voyagent. La première image montre une personne préparant une valise. C'est une chose que font les personnes qui partent en voyage. La deuxième image montre un couloir vide dans un centre commercial. C'est un lieu où les gens se rendent pour acheter les articles dont ils ont besoin pour leur voyage. La troisième image montre une pile de rouleaux de papier toilette. C'est quelque chose que les gens utilisent lorsqu'ils voyagent. La quatrième image montre une mer sombre et orageuse. C'est ce que les gens rencontrent souvent lorsqu'ils voyagent.

      Les mêmes conseils s'appliquent aux créations à partir d'images. Dans l'exemple suivant, avec le lapin, demandez explicitement au modèle d'inclure certains aspects de l'image pouvant améliorer le résultat.

      Requête Réponse du modèle

      Peux-tu m'écrire un poème sur cette image ?

      Petit lapin, si doux et marron,
      Sautant à travers champ, de haut en bas.
      Tes oreilles sont si longues, ta queue si petite,
      tu es la créature la plus mignonne de toutes.

      Tu grignotes l'herbe, si verte et douce,
      et tu sautes lorsque tu me vois.
      Mais je serai toujours ton ami,
      Petit lapin, jusqu'à la fin.

      Requête modifiée Amélioration de la réponse

      Peux-tu m'écrire un poème descriptif et théâtral sur cette image et y inclure le lieu ?

      Petit lapin sur la pelouse,
      Les oreilles sont si longues, si fines.
      Que vois-tu là-bas,
      Au loin, là où tu regardes ?

      Est-ce le bleu de l'océan,
      Étincelant dans la lumière du soleil ?
      Ou les vagues qui s'écrasent et rugissent,
      Un rythme que tu adores ?

      Petit lapin, dis-moi la vérité,
      Qu'est-ce qui retient tant ton attention ?
      Est-ce la brise salée,
      ou les cris des mouettes qui supplient ?

      Peut-être est-ce toute cette immensité,
      un monde si grand et si petit à la fois.
      Un lieu où les rêves peuvent vagabonder
      et où les aventures peuvent être créées.

      Petit lapin, je me demande à quoi à quoi tu rêves,
      Quand tu es assis sur l'herbe, si serein.
      As-tu envie d'explorer les profondeurs,
      ou de rester sur la terre ferme, là où tu peux sauter ?

      Quoi qu'il en soit, petit lapin,
      Garde cette étincelle qui brille en toi.
      Car dans tes rêves et tes aspirations,
      se trouve un monde qui n'attend que d'être créé.

      Savoir quelle partie de l'invite a échoué

      Il peut être difficile de savoir si une invite a échoué car le modèle n'a pas compris l'image avec laquelle commencer, ou s'il a compris l'image, mais n'a pas effectué les bonnes étapes de raisonnement.

      Pour faire la distinction entre les deux, demandez au modèle de décrire le contenu de l'image.

      Dans l'exemple ci-dessous, si le modèle répond avec un aliment qui ne semble pas correspondre au thé (par exemple, du pop-up), vous pouvez d'abord chercher à déterminer si le modèle a correctement reconnu que l'image contient du thé.

      Requête Invite de dépannage

      Quel aliment puis-je préparer en une minute qui pourrait être associé à cela ?

      Décrivez le contenu de cette image.

      Une autre stratégie consiste à demander au modèle d'expliquer son raisonnement. Cela peut vous aider à déterminer la partie du raisonnement qui a échoué, le cas échéant.

      Requête Invite de dépannage

      Quel aliment puis-je préparer en une minute qui pourrait être associé à cela ?

      Quel aliment puis-je préparer en une minute qui pourrait être associé à cela ? Merci d'indiquer pour quelle raison.

      Régler les paramètres d'échantillonnage

      Dans chaque requête, vous envoyez non seulement l'invite multimodale, mais aussi un ensemble de paramètres d'échantillonnage au modèle. Le modèle peut générer différents résultats pour différentes valeurs de paramètre. Testez les différents paramètres afin d'obtenir les meilleures valeurs pour la tâche. Les paramètres les plus couramment ajustés sont les suivants :

      • Température
      • top-P
      • top-K

      Température

      La température est utilisée pour l'échantillonnage lors de la génération de la réponse, ce qui se produit lorsque les paramètres top-p et top-k sont appliqués. La température permet de contrôler le degré de hasard dans la sélection des jetons. Des températures basses sont idéales pour les requêtes qui nécessitent une réponse plus déterministe et moins ouverte ou créative, tandis que des températures plus élevées peuvent entraîner des résultats plus diversifiés ou créatifs. Une température de 0 est déterministe, ce qui signifie que la réponse dont la probabilité est la plus élevée est toujours sélectionnée.

      Dans la plupart des cas, essayez de démarrer avec une température de 0,4. Si vous avez besoin de résultats plus créatifs, essayez d'augmenter la température. Si vous observez des incohérences évidentes, essayez de réduire la température.

      Top-K

      Top-K modifie la façon dont le modèle sélectionne les jetons pour la sortie. Une valeur top-K de 1 signifie que le prochain jeton sélectionné est le plus probable parmi tous les jetons du vocabulaire du modèle (également appelé décodage glouton), tandis qu'une valeur top-K de 3 signifie que le jeton suivant est sélectionné parmi les trois jetons les plus probables à l'aide de la température.

      Pour chaque étape de sélection des jetons, les jetons top-K ayant les plus fortes probabilités sont échantillonnés. Les jetons sont ensuite filtrés en fonction du top-P avec le jeton final sélectionné à l'aide de l'échantillonnage de température.

      Spécifiez une valeur inférieure pour obtenir des réponses moins aléatoires et une valeur supérieure pour des réponses plus aléatoires. La valeur par défaut de top-K est 32.

      Top-P

      Top-P modifie la façon dont le modèle sélectionne les jetons pour la sortie. Les jetons sont sélectionnés en partant de la probabilité la plus forte (voir top-K) à la plus basse, jusqu'à ce que la somme de leurs probabilités soit égale à la valeur top-P. Par exemple, si les jetons A, B et C ont une probabilité de 0,6, 0,3 et 0,1 et que la valeur de top-P est 0,9, le modèle sélectionne A ou B comme jeton suivant à l'aide de la température et exclut le jeton C comme candidat.

      Spécifiez une valeur inférieure pour obtenir des réponses moins aléatoires et une valeur supérieure pour des réponses plus aléatoires. La valeur par défaut de "top-P" est de 1,0.

      Étapes suivantes