Contexte long

Gemini 1.5 Flash est fourni en standard avec une fenêtre de contexte d'un million de jetons. Gemini 1.5 Pro est fourni avec une fenêtre de contexte de deux millions de jetons. Historiquement, les grands les modèles de langage (LLM) étaient considérablement limités par la quantité de texte (ou ou jetons) pouvant être transmis au modèle en même temps. Gemini 1.5 (long) de contexte, avec une extraction presque parfaite (> 99%), offre de nombreux nouveaux cas d'utilisation et paradigmes de développement.

Le code que vous utilisez déjà pour des cas tels que du texte génération ou multimodal d'entrée fonctionnent immédiatement avec un contexte long.

Tout au long de ce guide, vous découvrirez brièvement les bases de la fenêtre de contexte, comment les développeurs doivent réfléchir à un contexte long, à différents cas d'utilisation concrets contexte long et les moyens d’optimiser l’utilisation de contexte long.

Qu'est-ce qu'une fenêtre de contexte ?

Pour utiliser les modèles Gemini 1.5 de base, vous devez transmettre des informations (contexte). au modèle, qui générera ensuite une réponse. Une analogie avec le est la mémoire à court terme. La quantité d'informations est limitée qui peuvent être stockés dans la mémoire à court terme de quelqu'un. Il en va de même pour les modèles génératifs.

Pour en savoir plus sur le fonctionnement des modèles, consultez nos modèles génératifs guide de démarrage.

Premiers pas avec un contexte long

La plupart des modèles génératifs créés ces dernières années n'étaient capables de en traitant 8 000 jetons à la fois. Pour les modèles plus récents, on a pu aller plus loin en acceptant 32 000 ou 128 000 jetons. Gemini 1.5 est le premier modèle capable de qui accepte 1 million de jetons, et maintenant 2 millions de jetons avec Gemini 1.5 Pro.

En pratique, un million de jetons se présente comme suit:

  • 50 000 lignes de code (80 caractères par ligne)
  • Tous les SMS que vous avez envoyés au cours des 5 dernières années
  • 8 romans anglais de durée moyenne
  • Transcriptions de plus de 200 épisodes de podcast d'une durée moyenne

Même si les modèles peuvent accepter de plus en plus de contexte, une grande partie la sagesse conventionnelle concernant l'utilisation de grands modèles de langage suppose que cette approche inhérente ce qui n'est plus le cas depuis 2024.

Quelques stratégies courantes pour gérer la limitation des petites fenêtres de contexte inclus:

  • Déduisant arbitrairement d'anciens messages ou du texte de la fenêtre de contexte en tant que nouveau texte entre
  • en résumant le contenu précédent et en le remplaçant par le résumé lorsque la fenêtre de contexte est sur le point d'être pleine
  • Utiliser la RAG avec la recherche sémantique pour déplacer les données hors de la fenêtre de contexte et dans une base de données vectorielle
  • Utiliser des filtres déterministes ou génératifs pour supprimer certains textes / caractères utilisés dans les requêtes pour enregistrer des jetons

Même si la plupart de ces éléments restent pertinents dans certains cas, « start » consiste maintenant à placer tous les jetons dans la fenêtre de contexte. En effet, Les modèles Gemini 1.5 ont été conçus sur mesure avec une longue fenêtre de contexte. plus capables d'apprendre en contexte. Par exemple, si vous n'utilisez que des ressources pédagogiques aux supports (une grammaire de référence de 500 pages, un dictionnaire et environ 400 parallélisés supplémentaires phrases) sont fournis en contexte, Gemini 1.5 Pro et Gemini 1.5 Flash sont est capable d'apprendre à traduire de l'anglais au kalamang, une langue papouaise comptant moins de 200 locuteurs et Il n'y a donc quasiment aucune présence en ligne, et la qualité est semblable à celle d'une personne qui a appris à partir des mêmes matériaux.

Cet exemple montre comment vous pouvez commencer à réfléchir à ce qui est possible avec le contexte long et les capacités d'apprentissage en contexte de Gemini 1.5.

Cas d'utilisation de contextes longs

Bien que la saisie de texte reste le cas d'utilisation standard de la plupart des modèles génératifs, La famille de modèles Gemini 1.5 offre un nouveau paradigme de cas d'utilisation multimodal. Ces peuvent comprendre de manière native du texte, de la vidéo, de l'audio et des images. Il s'agit accompagnée de l'API Gemini, qui accepte des fichiers multimodaux des types d'annonces pour pratique.

Texte long

Le texte s'est avéré être la couche d'intelligence à la base d'une grande partie des dynamique autour des LLM. Comme indiqué précédemment, une grande partie des limites pratiques du fait que la fenêtre de contexte n'était pas suffisamment grande pour effectuer certaines tâches. Cela a conduit à l'adoption rapide de la génération augmentée de récupération (RAG) et d'autres techniques qui fournissent au modèle de façon dynamique des des informations contextuelles. Désormais, avec des fenêtres de contexte de plus en plus grandes (actuellement, (jusqu'à 2 millions sur Gemini 1.5 Pro), de nouvelles techniques sont disponibles. qui débloquent de nouveaux cas d'utilisation.

Voici quelques cas d'utilisation émergents et standards pour le contexte long basé sur du texte:

  • Résumer de grands corpus de textes <ph type="x-smartling-placeholder">
      </ph>
    • Les options de synthèse précédentes avec des modèles de contexte plus petits nécessiteraient une fenêtre glissante ou une autre technique permettant de conserver l'état des sections précédentes à mesure que de nouveaux jetons sont transmis au modèle
  • Questions et réponses <ph type="x-smartling-placeholder">
      </ph>
    • Auparavant, cela n'était possible qu'avec la RAG, compte tenu du nombre limité de le contexte et les modèles le rappel factuel est faible
  • Workflows des agents <ph type="x-smartling-placeholder">
      </ph>
    • Le texte est le fondement de la façon dont les agents gardent l'état de ce qu'ils ont fait. et ce qu’il doit faire ; le manque d'informations sur le monde L'objectif de l'agent est de limiter la fiabilité des agents

L'apprentissage en contexte multiple fait partie des les fonctionnalités uniques sans frais par les modèles de contexte longs. D'après des études, qu'en prenant le « seul coup » courant ou "mode rafale" paradigme d'exemple, dans lequel le modèle se voit présenter un ou plusieurs exemples de tâche, et le met à l'échelle des centaines, des milliers, voire des centaines de milliers d'exemples peuvent conduire à de nouvelles capacités de modèle. Cette approche multi-shot est également efficace tout comme les modèles affinés pour une tâche spécifique. Cas d'utilisation lorsque les performances d'un modèle Gemini ne sont pas encore suffisantes pour une vous pouvez essayer l'approche multiple. Comme vous le verrez peut-être la section longue sur l'optimisation du contexte, la mise en cache du contexte font de ce type d'efforts la charge de travail des jetons est beaucoup plus économique, et la latence est même plus faible dans certains cas d'utilisation.

Vidéo longue

L'utilité d'un contenu vidéo a longtemps été limitée par le manque d'accessibilité du support lui-même. Il était difficile de survoler le contenu, les transcriptions échouaient souvent pour capturer toutes les nuances d'une vidéo. De plus, la plupart des outils ne traitent pas les images, le texte l'audio. Avec Gemini 1.5, les fonctionnalités de texte en contexte long permettent de traduire en la capacité de raisonner et de répondre aux questions sur les entrées multimodales avec sur le long terme. Flash Gemini 1.5, lorsqu'il est testé sur l'aiguille dans une vidéo problème de botte de foin avec 1 million de jetons, avec un rappel de plus de 99,8% de la vidéo dans le de contexte, et 1,5 Pro a atteint des performances optimales Analyse comparative vidéo-MME.

Voici quelques cas d'utilisation émergents et standards pour les vidéos longues:

  • Questions et réponses vidéo
  • Mémoire vidéo, telle qu'illustrée avec le projet Google Astra
  • Sous-titrage vidéo
  • les systèmes de recommandation de vidéos, en enrichissant les métadonnées existantes avec de nouvelles compréhension multimodale
  • Personnalisation de vidéos à l'aide d'un corpus de données et des vidéos associées les métadonnées, puis en supprimant les parties des vidéos qui n'ont pas de rapport lecteur
  • Modération de contenu vidéo
  • Traitement vidéo en temps réel

Lorsque vous travaillez avec des vidéos, il est important de tenir compte de la façon dont elles sont traités en jetons, ce qui affecte la facturation et les limites d'utilisation. Pour en savoir plus sur l'envoi de requêtes avec des fichiers vidéo, consultez la page Invite guide de démarrage.

Audio en version longue

Les modèles Gemini 1.5 ont été les premiers grands modèles de langage multimodaux en natif capable de comprendre l'audio. Auparavant, le workflow de développement classique impliquent la chaîne de plusieurs modèles spécifiques à un domaine, comme un modèle de reconnaissance vocale et un modèle de texte en texte. Ce a entraîné une latence supplémentaire requise par l'exécution de plusieurs requêtes aller-retour et une baisse des performances, généralement due à la déconnexion d'architectures la configuration de plusieurs modèles.

Pour les évaluations standards de type "meule de foin" audio, Gemini 1.5 Pro peut trouver l'audio a été caché dans 100% des tests, et Gemini 1.5 Flash le trouve 98,7% des tests. Gemini 1.5 Flash accepte jusqu'à 9,5 heures d'audio en une seule fois requête et Gemini 1.5 Pro peut accepter jusqu'à 19 heures d'audio à l'aide d'un jeton de 2 millions de jetons dans la fenêtre de contexte. De plus, sur un ensemble de test de clips audio de 15 minutes, Gemini 1.5 Pro archive un taux d'erreur sur les mots (WER) d'environ 5,5%, bien inférieur à celui des mots de reconnaissance vocale, sans la complexité supplémentaire liée à la segmentation supplémentaire des entrées et le prétraitement.

Voici quelques cas d'utilisation émergents et standards pour le contexte audio:

  • Transcription et traduction en temps réel
  • Questions et réponses sur les podcasts / vidéos
  • Transcription et synthèse de réunions
  • Assistants vocaux

Pour en savoir plus sur les invites avec des fichiers audio, consultez la section Requêtes guide de démarrage.

Optimisations de contextes longs

La principale optimisation lorsque vous travaillez avec un contexte long et la version 1.5 de Gemini consiste à utiliser le contexte mise en cache. Au-delà du précédent l'impossibilité de traiter un grand nombre de jetons en une seule requête, était le coût. Si vous avez un "chat avec vos données" application dans laquelle un utilisateur 10 PDF, une vidéo et des documents de travail, vous auriez historiquement pour travailler avec un outil de génération augmentée de récupération (RAG) plus complexe / pour traiter ces demandes et payer un montant important pour de jetons déplacés dans la fenêtre de contexte. Maintenant, vous pouvez mettre en cache les fichiers que l'utilisateur les importations et les frais de stockage à l'heure. Le coût d'entrée / de sortie par requête avec Gemini 1,5 Flash par exemple est environ 4 fois moins cher que le coût d'entrée / sortie standard, donc si lorsque l'utilisateur discute avec ses données, cela représente pour vous d'énormes économies, car le développeur.

Limitations de contexte longues

Dans différentes sections de ce guide, nous avons abordé les avantages des modèles Gemini 1.5 de hautes performances lors de diverses évaluations de récupération. Ces les tests prennent en compte la configuration de base, qui ne nécessite qu'une aiguille, que vous recherchez. Si vous avez plusieurs "aiguilles" ou des pièces spécifiques d'informations recherchées, les performances du modèle ne sont pas précision. Les performances peuvent varier considérablement en fonction du contexte. Ce est important, car il existe un compromis inhérent entre l'obtention les bonnes informations récupérées et les coûts. Vous pouvez obtenir environ 99% avec une seule requête, mais vous devez payer le coût du jeton d'entrée chaque fois que vous envoyez cette requête. Ainsi, pour 100 d'informations à récupérer. Si vous aviez besoin d'un taux de performances de 99 %, vous devrez probablement envoyer 100 requêtes. C'est un bon exemple de cas où le contexte peut réduire considérablement le coût d'utilisation des modèles Gemini tout en conservant des performances élevées.

Questions fréquentes

L'ajout de jetons à une requête entraîne-t-il une perte de performances du modèle ?

En règle générale, si vous n'avez pas besoin de transmettre des jetons au modèle, évitez de les dépasser. Toutefois, si vous avez un gros bloc de jetons avec et que vous souhaitez poser des questions à leur sujet, le modèle très capables d'extraire ces informations (jusqu'à 99% de précision dans de nombreux cas).

Quelles sont les performances de Gemini 1.5 Pro lors du test standard ?

Gemini 1.5 Pro atteint un rappel de 100% jusqu'à 530 000 jetons et plus de 99,7% de rappel jusqu'à 1 million les jetons.

Comment réduire mes coûts avec les requêtes contextuelles longues ?

Si vous avez un ensemble de jetons ou un contexte similaire que vous souhaitez réutiliser la mise en cache contextuelle peut aider à réduire les coûts associées au fait de poser des questions sur ces informations.

Comment accéder à la fenêtre de contexte de 2 millions de jetons ?

Tous les développeurs ont désormais accès à la fenêtre de contexte de deux millions de jetons avec Gemini 1.5 Pro.

La longueur du contexte affecte-t-elle la latence du modèle ?

La latence est définie dans une requête donnée, quelle que soit la mais généralement, les requêtes longues ont une latence plus élevée (temps de latence ).

Les fonctionnalités de contexte long diffèrent-elles entre Gemini 1.5 Flash et Gemini 1.5 Pro ?

Oui, certains chiffres ont été mentionnés dans différentes sections de ce guide, mais Gemini 1.5 Pro est généralement plus performant pour les cas d'utilisation de contexte les plus longs.