Gemini

Gemini est une famille de modèles d'IA générative qui permet aux développeurs de générer du contenu et de résoudre des problèmes. Ces modèles sont conçus et entraînés pour gérer le texte et les images en entrée. Ce guide fournit des informations sur chaque variante de modèle pour vous aider à déterminer celle qui convient le mieux à votre cas d'utilisation.

Langues disponibles

arbnbgzhhrcsdanlenetfifrdeeliwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

Les modèles PaLM ne fonctionnent bien qu'avec l'anglais. L'utilisation d'autres langages peut produire des résultats inattendus.

Variantes du modèle

L'API Gemini propose différents modèles optimisés pour des cas d'utilisation spécifiques. Voici un aperçu des variantes de Gemini disponibles:

Variante du modèle Entrée(s) Sortie Optimized for
Gemini 1.5 Pro (preview) Audio, images, vidéos et texte Texte Tâches de raisonnement, y compris, mais sans s'y limiter, la génération de code et de texte, l'édition de texte, la résolution de problèmes, ainsi que l'extraction et la génération de données
Gemini 1.5 Flash (preview) Audio, images, vidéos et texte Texte Rapidité et polyvalence pour des tâches diverses
Gemini 1.0 Pro Texte Texte Tâches en langage naturel, chat textuel et de code multitour, et génération de code
Gemini 1.0 Pro Vision Images, vidéos et texte Texte Performances optimisées pour les tâches visuelles, comme la génération de descriptions d'images ou l'identification d'objets dans des images
Représentation vectorielle continue de texte Texte Représentations vectorielles continues de textes Générez des représentations vectorielles continues de texte élastiques avec un maximum de 768 dimensions pour du texte comportant jusqu'à 2 048 jetons
Intégration Texte Représentations vectorielles continues de textes Générer des représentations vectorielles continues de texte avec 768 dimensions pour du texte comportant jusqu'à 2 048 jetons
AQA Texte Texte Effectuer des tâches de questions-réponses attribuées sur du texte fourni

Le tableau suivant décrit les attributs des modèles Gemini qui sont communs à toutes les variantes de modèle:

Attribut Description
Données d'entraînement La limite de connaissances de Gemini est fixée à début 2023. La connaissance des événements générés après cette période est limitée.
Langues prises en charge Voir les langues disponibles
Paramètres de modèle configurables
  • Top P
  • Top K
  • Température
  • Arrêter la séquence
  • Longueur maximale de sortie
  • Nombre de réponses candidates

Pour en savoir plus sur chacun de ces paramètres, consultez la section Paramètres de modèle du guide sur les modèles génératifs.

Gemini 1.5 Pro (preview)

Gemini 1.5 Pro est un modèle multimodal de taille moyenne optimisé pour un large éventail de tâches de raisonnement, telles que les suivantes:

  • Génération de code
  • Génération de texte
  • Modification de texte
  • Résolution des problèmes
  • Génération de recommandations
  • Extraire des informations
  • Extraction ou génération de données
  • Créer des agents d'IA

1.5 Pro peut traiter simultanément de grandes quantités de données, y compris 1 heure de vidéo, 9,5 heures d'audio, des codebases de plus de 30 000 lignes de code ou plus de 700 000 mots.

1.5 Pro est capable de gérer des tâches d'apprentissage zero-shot, one-shot ou few-shot.

Informations sur le modèle

Propriété Description
Code du modèle models/gemini-1.5-pro-latest
Entrées Audio, images, vidéo et texte
Sortie Texte
Méthodes de génération compatibles generateContent
Saisir la limite de jetons[**] 1 048 576
Limite de jetons de sortie[**] 8 192
Nombre maximal d'images par requête 3 600
Durée maximale de la vidéo 1 heure
Durée maximale de l'audio Environ 9,5 heures
Nombre maximal de fichiers audio par requête 1
Sécurité du modèle Paramètres de sécurité appliqués automatiquement qui peuvent être ajustés par les développeurs. Pour en savoir plus, consultez notre page sur les paramètres de sécurité.
Limites de débit[*]
Sans frais:
  • 2 tr/min
  • 32 000 TPM
  • 50 RPD
  • 46 080 000 VPD
Pay-as-you-go:
  • 360 tr/min
  • 10 millions de TPM
  • 10 000 RPD
  • 14 400 000 000 TPD
Deux millions de contexte:
  • 1 tr/min
  • 2 millions de TPM
  • 50 RPD
Instructions système Compatible
Mode JSON Compatible
Dernière version gemini-1.5-pro-latest
Dernière version stable gemini-1.5-pro
Dernière mise à jour Avril 2024

Gemini 1.5 Flash (preview)

Gemini 1.5 Flash est un modèle multimodal rapide et polyvalent qui permet d'effectuer un scaling sur diverses tâches.

Informations sur le modèle

Propriété Description
Code du modèle gemini-1.5-flash-latest
Entrée(s) Audio, images, vidéo et texte
Sortie Texte
Méthodes de génération compatibles generateContent
Saisir la limite de jetons[**] 1 048 576
Limite de jetons de sortie[**] 8 192
Nombre maximal d'images par requête 3 600
Durée maximale de la vidéo 1 heure
Durée maximale de l'audio Environ 9,5 heures
Nombre maximal de fichiers audio par requête 1
Sécurité du modèle Paramètres de sécurité appliqués automatiquement qui peuvent être ajustés par les développeurs. Pour en savoir plus, consultez notre page sur les paramètres de sécurité.
Limites de débit[*]
Sans frais:
  • 15 tr/min
  • 1 million de TPM
  • 1500 RPD
Pay-as-you-go:
  • 360 tr/min
  • 10 millions de TPM
  • 10 000 RPD
Instructions système Compatible
Mode JSON Compatible
Dernière version gemini-1.5-flash-latest
Dernière version stable gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro est un modèle de TLN qui gère des tâches comme le chat textuel et de code multitour, ainsi que la génération de code.

1.0 Pro est capable de gérer des tâches d'apprentissage zero-shot, one-shot ou few-shot.

Informations sur le modèle

Propriété Description
Code du modèle models/gemini-pro
Entrée Texte
Sortie Texte
Méthodes de génération compatibles
Python: generate_content
REST: generateContent
Limites de débit[*]
Sans frais:
  • 15 tr/min
  • 32 000 TPM
  • 1 500 RPD
  • 46 080 000 VPD
Pay-as-you-go:
  • 360 tr/min
  • 120 000 TPM
  • 30 000 RPD
  • 172 800 000 TPD
Instructions système Non compatible
Mode JSON Non compatible
Dernière version gemini-1.0-pro-latest
Dernière version stable gemini-1.0-pro
Versions stables gemini-1.0-pro-001
Dernière mise à jour February 2024

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision est un modèle multimodal optimisé pour les performances, capable d'effectuer des tâches visuelles. Par exemple, 1.0 Pro Vision peut générer des descriptions d'images, identifier les objets présents dans des images, fournir des informations sur des lieux ou des objets présents dans des images, etc.

1.0 Pro Vision est capable de gérer des tâches zero-shot, one-shot et few-shot.

Informations sur le modèle

Propriété Description
Code du modèle models/gemini-pro-vision
Entrées Texte, vidéo et images
Sortie Texte
Méthodes de génération compatibles
Python: generate_content
REST: generateContent
Saisir la limite de jetons[*] 12 288
Limite de jetons de sortie[*] 4 096
Taille maximale de l'image No limit
Nombre maximal d'images par requête 16
Durée maximale de la vidéo 2 minutes
Nombre maximal de vidéos par requête 1
Sécurité du modèle Paramètres de sécurité appliqués automatiquement qui peuvent être ajustés par les développeurs. Pour en savoir plus, consultez notre page sur les paramètres de sécurité.
Limite de débit[*] 60 requêtes par minute
Dernière version gemini-1.0-pro-vision-latest
Dernière version stable gemini-1.0-pro-vision
Dernière mise à jour Décembre 2023

Représentation vectorielle continue de texte

Représentation vectorielle continue de texte

Vous pouvez utiliser le modèle de représentation vectorielle continue de texte pour générer des représentations vectorielles continues de texte pour le texte d'entrée. Pour en savoir plus sur le modèle de représentation vectorielle continue de texte, consultez la documentation sur l'IA générative sur Vertex AI concernant les représentations vectorielles continues de textes.

Le modèle de représentation vectorielle continue de texte est optimisé pour créer des représentations vectorielles continues de 768 dimensions pour du texte comportant jusqu'à 2 048 jetons. La représentation vectorielle continue de texte offre des tailles élastiques inférieures à 768. Vous pouvez utiliser des représentations vectorielles continues élastiques pour générer des dimensions de sortie plus petites et potentiellement réduire les coûts de calcul et de stockage avec une légère perte de performances.

Informations sur le modèle
Propriété Description
Code du modèle models/text-embedding-004 (text-embedding-preview-0409 dans Vertex AI)
Entrée Texte
Sortie Représentations vectorielles continues de textes
Limite de jetons d'entrée 2 048
Taille de la dimension de sortie 768
Méthodes de génération compatibles
Python: embed_content
REST: embedContent
Sécurité du modèle Aucun paramètre de sécurité réglable.
Limite de débit[*] 1 500 requêtes par minute
Dernière mise à jour Avril 2024

Embedding

Vous pouvez utiliser le modèle de représentation vectorielle continue pour générer des représentations vectorielles continues de texte pour le texte d'entrée.

Le modèle de représentation vectorielle continue est optimisé pour créer des représentations vectorielles continues de 768 dimensions pour du texte comportant jusqu'à 2 048 jetons.

Détails du modèle de représentation vectorielle continue
Propriété Description
Code du modèle models/embedding-001
Entrée Texte
Sortie Représentations vectorielles continues de textes
Limite de jetons d'entrée 2 048
Taille de la dimension de sortie 768
Méthodes de génération compatibles
Python: embed_content
REST: embedContent
Sécurité du modèle Aucun paramètre de sécurité réglable.
Limite de débit[*] 1 500 requêtes par minute
Dernière mise à jour Décembre 2023

AQA

Vous pouvez utiliser le modèle AQA pour effectuer des tâches liées à la question-réponse attribuée sur un document, un corpus ou un ensemble de passages. Le modèle AQA renvoie les réponses aux questions fondées sur les sources fournies et estime la probabilité de réponse.

Informations sur le modèle

Propriété Description
Code du modèle models/aqa
Entrée Texte
Sortie Texte
Méthodes de génération compatibles
Python: GenerateAnswerRequest
REST: generateAnswer
Langues prises en charge Anglais
Saisir la limite de jetons[**] 7,168
Limite de jetons de sortie[**] 1 024
Sécurité du modèle Paramètres de sécurité appliqués automatiquement qui peuvent être ajustés par les développeurs. Pour en savoir plus, consultez notre page sur les paramètres de sécurité.
Limite de débit[*] 60 requêtes par minute
Dernière mise à jour Décembre 2023

Consultez les exemples pour explorer les capacités de ces variantes de modèle.

[*] Un jeton équivaut à environ quatre caractères pour les modèles Gemini. 100 jetons représentent environ 60 à 80 mots anglais.

[**] RPM: requêtes par minute
TPM: jetons par minute
RPD: requêtes par jour
TPD: jetons par jour

En raison des limites de capacité, les limites de débit maximales spécifiées ne sont pas garanties.

Modèles de nom de version de modèle

Les modèles Gemini sont disponibles en versions preview ou stable. Dans votre code, vous pouvez utiliser l'un des formats de nom de modèle suivants pour spécifier le modèle et la version que vous souhaitez utiliser.

  • La plus récente:pointe vers la version de pointe du modèle pour une génération et une variante spécifiées. Le modèle sous-jacent est mis à jour régulièrement et peut être une version preview. Seuls les prototypes et applications de test exploratoires doivent utiliser cet alias.

    Pour spécifier la dernière version, utilisez le format suivant : <model>-<generation>-<variation>-latest. Exemple : gemini-1.0-pro-latest.

  • Dernière version stable:pointe vers la version stable la plus récente publiée pour la génération et la variante de modèle spécifiées.

    Pour spécifier la dernière version stable, utilisez le modèle suivant : <model>-<generation>-<variation>. Exemple :gemini-1.0-pro

  • Stable:pointe vers un modèle stable spécifique. Les modèles stables ne changent pas. La plupart des applications de production doivent utiliser un modèle stable spécifique.

    Pour spécifier une version stable, utilisez le modèle suivant : <model>-<generation>-<variation>-<version>. Exemple : gemini-1.0-pro-001.