Gemini est une famille de modèles d'IA générative qui permet aux développeurs de générer du contenu et de résoudre des problèmes. Ces modèles sont conçus et entraînés pour traiter à la fois du texte et des images en entrée. Ce guide fournit des informations sur chaque variante de modèle pour vous aider à déterminer celle qui convient le mieux à votre cas d'utilisation.
Sécurité et utilisation prévue
Les modèles d'intelligence artificielle générative sont des outils puissants, mais ils ne sont pas sans limites. Leur polyvalence et leur applicabilité peuvent parfois entraîner des résultats inattendus, tels que des résultats imprécis, biaisés ou choquants. Le post-traitement et une évaluation manuelle rigoureuse sont essentiels pour limiter le risque de préjudice généré par de tels résultats. Consultez les conseils de sécurité pour obtenir d'autres suggestions d'utilisation sécurisée.
Les modèles fournis par l'API Gemini peuvent être utilisés pour une grande variété d'applications d'IA générative et de traitement du langage naturel (TLN). L'utilisation de ces fonctions n'est disponible que via l'API Gemini ou l'application Web Google AI Studio. Votre utilisation de l'API Gemini est également soumise au Règlement sur les utilisations interdites de l'IA générative et aux Conditions d'utilisation de l'API Gemini.
Variantes du modèle
L'API Gemini propose différents modèles optimisés pour des cas d'utilisation spécifiques. Voici un bref aperçu des variantes de Gemini disponibles:
Variante de modèle | Entrée(s) | Résultat | Optimized for |
---|---|---|---|
Gemini 1.5 Pro (preview) | Audio, images et texte | Texte | Tâches de raisonnement, y compris, mais sans s'y limiter, la génération de code et de texte, l'édition de texte, la résolution de problèmes, l'extraction et la génération de données |
Gemini 1.5 Flash (preview) | Audio, images et texte | Texte | Rapidité et polyvalence, pour un large éventail de tâches |
Gemini 1.0 Pro | Texte | Texte | Tâches en langage naturel, chat textuel et de code multitours, génération de code |
Gemini 1.0 Pro Vision | Images et texte | Texte | Performances optimisées pour les tâches visuelles, comme générer des descriptions d'images ou identifier des objets dans des images |
Intégration de texte | Texte | Représentations vectorielles continues de textes | Générez des représentations vectorielles continues élastiques de texte avec jusqu'à 768 dimensions pour un texte comportant jusqu'à 2 048 jetons |
Intégration | Texte | Représentations vectorielles continues de textes | Générez des représentations vectorielles continues de texte avec 768 dimensions pour un texte comportant jusqu'à 2 048 jetons |
AQA | Texte | Texte | Effectuer des tâches liées aux questions-réponses attribuées sur le texte fourni |
Le tableau suivant décrit les attributs des modèles Gemini communs à toutes les variantes de modèle:
Attribut | Description |
---|---|
Données d'entraînement | Gemini est la date limite de connaissance pour début 2023. Les informations sur les événements postérieurs à cette date sont limitées. |
Langues disponibles | Voir les langues disponibles |
Paramètres de modèle configurables |
|
Consultez la section Paramètres de modèle du guide des modèles génératifs pour en savoir plus sur chacun de ces paramètres.
Gemini 1.5 Pro (preview)
Gemini 1.5 Pro est un modèle multimodal de taille moyenne optimisé pour un large éventail de tâches de raisonnement, telles que:
- Génération de code
- Génération de texte
- Modification de texte
- Résolution des problèmes
- Génération de recommandations
- Extraction d'informations
- Extraction ou génération de données
- Créer des agents d'IA
La version 1.5 Pro peut traiter de grandes quantités de données à la fois, y compris 1 heure de vidéo, 9,5 heures de contenu audio, des codebases de plus de 30 000 lignes de code ou plus de 700 000 mots.
La version 1.5 Pro est capable de gérer des tâches d'apprentissage zero-shot, one-shot et zero-shot.
Informations sur le modèle
Propriété | Description |
---|---|
Code du modèle | models/gemini-1.5-pro-latest |
Entrées | Audio, images et texte |
Résultat | Texte |
Méthodes de génération compatibles |
generateContent
|
Limite de jetons d'entrée[**] | 1 048 576 |
Limite de jetons de sortie[**] | 8 192 |
Nombre maximal d'images par requête | 3 600 |
Durée maximale de la vidéo | 1 heure |
Durée audio maximale | Environ 9,5 heures |
Nombre maximal de fichiers audio par requête | 1 |
Sécurité du modèle | Paramètres de sécurité appliqués automatiquement et ajustables par les développeurs. Pour en savoir plus, consultez la page Paramètres de sécurité. |
Limites de débit[*] |
|
Instructions système | Compatible |
Mode JSON | Compatible |
Dernière version | gemini-1.5-pro-latest |
Dernière version stable | gemini-1.5-pro |
Dernière mise à jour | Avril 2024 |
Gemini 1.5 Flash (preview)
Gemini 1.5 Flash est un modèle multimodal rapide et polyvalent qui permet d'effectuer des scalings pour diverses tâches.
Informations sur le modèle
Propriété | Description |
---|---|
Code du modèle | gemini-1.5-flash |
Entrée(s) | Audio, images et texte |
Résultat | Texte |
Méthodes de génération compatibles |
generateContent
|
Limite de jetons d'entrée[**] | 1 048 576 |
Limite de jetons de sortie[**] | 8 192 |
Nombre maximal d'images par requête | 3 600 |
Durée maximale de la vidéo | 1 heure |
Durée audio maximale | Environ 9,5 heures |
Nombre maximal de fichiers audio par requête | 1 |
Sécurité du modèle | Paramètres de sécurité appliqués automatiquement et ajustables par les développeurs. Pour en savoir plus, consultez la page Paramètres de sécurité. |
Limites de débit[*] |
|
Instructions système | Compatible |
Mode JSON | Compatible |
Dernière version | gemini-1.5-flash-latest |
Dernière version stable | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro est un modèle TLN qui gère des tâches telles que le chat textuel et de code multitours, ainsi que la génération de code.
La version 1.0 Pro est capable de gérer des tâches d'apprentissage zero-shot, one-shot et zero-shot.
Informations sur le modèle
Propriété | Description |
---|---|
Code du modèle | models/gemini-pro |
Entrée | Texte |
Résultat | Texte |
Méthodes de génération compatibles |
generate_content
generateContent
|
Limites de débit[*] |
|
Instructions système | Non compatible |
Mode JSON | Non compatible |
Dernière version | gemini-1.0-pro-latest |
Dernière version stable | gemini-1.0-pro |
Versions stables | gemini-1.0-pro-001 |
Dernière mise à jour | February 2024 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision est un modèle multimodal optimisé pour les performances, capable d'effectuer des tâches visuelles. Par exemple, la version 1.0 Pro Vision peut générer des descriptions d'images, identifier les objets présents dans les images, fournir des informations sur les lieux ou les objets présents dans les images, etc.
La version 1.0 Pro Vision permet de gérer des tâches zero-shot, one-shot et few-shot.
Informations sur le modèle
Propriété | Description |
---|---|
Code du modèle | models/gemini-pro-vision |
Entrées | Texte et images |
Résultat | Texte |
Méthodes de génération compatibles |
generate_content
generateContent
|
Limite de jetons d'entrée[*] | 12 288 |
Limite de jetons de sortie[*] | 4 096 |
Taille maximale de l'image | No limit |
Nombre maximal d'images par requête | 16 |
Durée maximale de la vidéo | 2 minutes |
Nombre maximal de vidéos par requête | 1 |
Sécurité du modèle | Paramètres de sécurité appliqués automatiquement et ajustables par les développeurs. Pour en savoir plus, consultez la page Paramètres de sécurité. |
Limite de débit[*] | 60 requêtes par minute |
Dernière version | gemini-1.0-pro-vision-latest |
Dernière version stable | gemini-1.0-pro-vision |
Dernière mise à jour | Décembre 2023 |
Représentation vectorielle continue de texte
Représentation vectorielle continue de texte
Vous pouvez utiliser le modèle de représentation vectorielle continue de texte pour générer des représentations vectorielles continues de texte pour le texte d'entrée. Pour en savoir plus sur le modèle de représentation vectorielle continue de texte, consultez la documentation sur l'IA générative sur Vertex AI.
Le modèle de représentation vectorielle continue de texte est optimisé pour créer des représentations vectorielles continues avec 768 dimensions pour du texte comportant jusqu'à 2 048 jetons. La représentation vectorielle continue de texte offre des tailles élastiques inférieures à 768. Vous pouvez utiliser des représentations vectorielles continues élastiques pour générer des dimensions de sortie plus petites et potentiellement réduire les coûts de calcul et de stockage avec une perte de performances mineure.
Informations sur le modèle
Propriété | Description |
---|---|
Code du modèle |
models/text-embedding-004 (text-embedding-preview-0409 dans Vertex AI)
|
Entrée | Texte |
Résultat | Représentations vectorielles continues de textes |
Limite de jetons d'entrée | 2 048 |
Taille des dimensions de sortie | 768 |
Méthodes de génération compatibles |
embed_content
embedContent
|
Sécurité du modèle | Aucun paramètre de sécurité réglable. |
Limite de débit[*] | 1 500 requêtes par minute |
Dernière mise à jour | Avril 2024 |
Représentation vectorielle continue
Vous pouvez utiliser le modèle de représentation vectorielle continue pour générer des représentations vectorielles continues de texte pour le texte d'entrée.
Le modèle de représentation vectorielle continue est optimisé pour créer des représentations vectorielles continues de 768 dimensions pour du texte comportant jusqu'à 2 048 jetons.
Détails du modèle de représentation vectorielle continue
Propriété | Description |
---|---|
Code du modèle | models/embedding-001 |
Entrée | Texte |
Résultat | Représentations vectorielles continues de textes |
Limite de jetons d'entrée | 2 048 |
Taille des dimensions de sortie | 768 |
Méthodes de génération compatibles |
embed_content
embedContent
|
Sécurité du modèle | Aucun paramètre de sécurité réglable. |
Limite de débit[*] | 1 500 requêtes par minute |
Dernière mise à jour | Décembre 2023 |
AQA
Vous pouvez l'utiliser pour effectuer des tâches liées à la réponse aux questions attribuées (AQA) sur un document, un corpus ou un ensemble de passages. Le modèle AQA renvoie des réponses aux questions fondées sur les sources fournies et estime la probabilité qu'une réponse soit possible.
Informations sur le modèle
Propriété | Description |
---|---|
Code du modèle | models/aqa |
Entrée | Texte |
Résultat | Texte |
Méthodes de génération compatibles |
GenerateAnswerRequest
generateAnswer
|
Langues disponibles | Anglais |
Limite de jetons d'entrée[**] | 7,168 |
Limite de jetons de sortie[**] | 1 024 |
Sécurité du modèle | Paramètres de sécurité appliqués automatiquement et ajustables par les développeurs. Pour en savoir plus, consultez la page Paramètres de sécurité. |
Limite de débit[*] | 60 requêtes par minute |
Dernière mise à jour | Décembre 2023 |
Consultez les exemples pour explorer les fonctionnalités de ces variantes de modèles.
[*] Un jeton équivaut à environ quatre caractères pour les modèles Gemini. 100 jetons correspondent à environ 60 à 80 mots anglais.
[**] RPM: requêtes par minute
TPM: jetons par minute
RPD: requêtes par jour
TPD: jetons par jour
En raison des limites de capacité, les limites de débit maximales spécifiées ne sont pas garanties.
Modèles de nom de version de modèle
Les modèles Gemini sont disponibles en version preview ou stable. Dans votre code, vous pouvez utiliser l'un des formats de nom de modèle suivants pour spécifier le modèle et la version à utiliser.
Dernière version:pointe vers la version de pointe du modèle pour une génération et une variante spécifiées. Le modèle sous-jacent est mis à jour régulièrement et peut être une version preview. Seuls les applications et les prototypes de test exploratoire doivent utiliser cet alias.
Pour spécifier la dernière version, utilisez le modèle suivant :
<model>-<generation>-<variation>-latest
. Exemple :gemini-1.0-pro-latest
.Dernière version stable:pointe vers la version stable la plus récente publiée pour la génération et la variante de modèle spécifiées.
Pour spécifier la dernière version stable, utilisez le modèle suivant :
<model>-<generation>-<variation>
. Exemple :gemini-1.0-pro
Stable:pointe vers un modèle stable spécifique. Les modèles stables ne changent pas. La plupart des applications de production doivent utiliser un modèle stable spécifique.
Pour spécifier une version stable, utilisez le modèle suivant :
<model>-<generation>-<variation>-<version>
. Exemple :gemini-1.0-pro-001
.