Contexto largo

Gemini 1.5 Flash viene de forma estándar con una ventana de contexto de 1 millón de tokens, y Gemini 1.5 Pro incluye una ventana de contexto de 2 millones de tokens. Históricamente, fue importante de lenguaje extenso (LLM) se vieron muy limitados por la cantidad de texto (o tokens) que se podrían pasar al modelo a la vez. Gemini 1.5 long de contexto, con una recuperación casi perfecta (>99%), desbloquea muchos casos de uso y paradigmas de desarrolladores nuevos.

El código que ya utilizas para casos como los de texto generación o multimodal entradas funcionarán de inmediato con un contexto largo.

En esta guía, explorarás brevemente los conceptos básicos de la ventana de contexto, cómo los desarrolladores deberían considerar el contexto extenso, varios casos de uso reales el contexto largo y formas de optimizar el uso del contexto largo.

¿Qué es una ventana de contexto?

La forma básica en que usas los modelos de Gemini 1.5 es pasando información (contexto) con el modelo, lo que generará una respuesta. Una analogía del la ventana de contexto es la memoria a corto plazo. La cantidad de información es limitada que se pueden almacenar en la memoria a corto plazo de alguien, y lo mismo sucede con generativos.

Puedes leer más sobre cómo funcionan los modelos de forma interna en nuestros modelos generativos. de la guía de YouTube.

Primeros pasos con el contexto extenso

La mayoría de los modelos generativos creados en los últimos años solo podían procesar 8,000 tokens a la vez. Los modelos más nuevos llevaron esto más allá y aceptaron 32,000 o 128,000 tokens Gemini 1.5 es el primer modelo capaz de aceptando 1 millón de tokens y ahora 2 millones de tokens con Gemini 1.5 Ventaja.

En la práctica, 1 millón de tokens se vería de la siguiente manera:

  • 50,000 líneas de código (con el estándar de 80 caracteres por línea)
  • Todos los mensajes de texto que enviaste en los últimos 5 años
  • 8 novelas inglesas de duración promedio
  • Transcripciones de más de 200 episodios de podcasts de duración promedio

Aunque los modelos pueden tener cada vez más contexto, gran parte de La sabiduría convencional sobre el uso de modelos de lenguaje extenso supone que este que, al 2024, dejó de ser el caso.

Algunas estrategias comunes para manejar la limitación de las ventanas de contexto pequeñas incluidos:

  • Eliminar arbitrariamente mensajes antiguos o texto de la ventana de contexto como texto nuevo entra
  • Resumir el contenido anterior y reemplazarlo por el resumen cuando el la ventana de contexto está por llenarse
  • Usar RAG con búsqueda semántica para mover datos fuera de la ventana de contexto en una base de datos de vectores
  • Usar filtros deterministas o generativos para quitar determinados textos caracteres de los mensajes para guardar tokens

Si bien muchos de estos aún son relevantes en algunos casos, el lugar predeterminado para start está colocando todos los tokens en la ventana de contexto. Porque Los modelos de Gemini 1.5 se crearon con una ventana de contexto extensa, más capaces de aprender en contexto. Por ejemplo, con solo instrucciones materiales (una gramática de referencia de 500 páginas, un diccionario y ≈ 400 páginas paralelas adicionales) frases) proporcionadas en contexto, Gemini 1.5 Pro y Gemini 1.5 Flash se que aprenda a traducir del inglés al kalamang, un idioma papú con menos de 200 hablantes y por lo tanto, casi no tiene presencia en línea, con una calidad similar a la de una persona que aprendió de los mismos materiales.

Este ejemplo destaca cómo puedes empezar a pensar en lo que es posible con contexto extenso y las capacidades de aprendizaje en contexto de Gemini 1.5.

Casos de uso de contexto largo

Si bien el caso de uso estándar para la mayoría de los modelos generativos sigue siendo la entrada de texto, el La familia de modelos de Gemini 1.5 habilita un nuevo paradigma de casos de uso multimodales. Estos pueden comprender de forma nativa texto, video, audio e imágenes. Son junto con la API de Gemini, que toma archivos multimodales tipos para para tu conveniencia.

Texto de formato largo

El texto demostró ser la capa de inteligencia que sustenta gran parte de los en torno a los LLM. Como mencionamos antes, gran parte de la limitación práctica de porque los LLM no tenían una ventana de contexto lo suficientemente grande para realizar determinadas tareas. Esto llevó a la rápida adopción de la generación de aumento de recuperación (RAG). y otras técnicas que dinámicamente le proporcionan al modelo datos información contextual. Ahora, con ventanas de contexto cada vez más grandes (actualmente, hasta 2 millones en Gemini 1.5 Pro), están surgiendo nuevas técnicas que desbloquean nuevos casos de uso.

Estos son algunos casos de uso emergentes y estándar para el contexto largo basado en texto:

  • Resumir grandes corpus de texto
    • Las opciones de resumen anteriores con modelos de contexto más pequeños requerirían una ventana deslizante u otra técnica para mantener el estado de las secciones anteriores cuando se pasan tokens nuevos al modelo,
  • Preguntas y respuestas
    • Históricamente, esto solo era posible con la RAG, dada la cantidad limitada de el contexto y los modelos la recuperación fáctica es baja
  • Flujos de trabajo de agentes
    • El texto es la base de la forma en que los agentes mantienen el estado de lo que han hecho y lo que deben hacer; no tener suficiente información sobre el mundo y el objetivo del agente es una limitación en la confiabilidad de los agentes

El aprendizaje en contexto en varios ejemplos es una de la mayoría de las capacidades únicas desbloqueadas con modelos de contexto largo. La investigación demostró que sacar el único golpe común o "disparo múltiple" paradigma de ejemplo, en el que al modelo se le presentan uno o varios ejemplos de una tarea y se escala verticalmente hasta cientos, miles, o incluso cientos de miles de ejemplos, puede llevar a nuevas capacidades de modelos. Este enfoque de varios ejemplos también funciona, de manera similar a los modelos que se ajustaron para una tarea específica. Para casos de uso en la que el rendimiento de un modelo de Gemini aún no es suficiente para una o el lanzamiento, puedes probar el enfoque de varios intentos. Como podrás explorar más adelante sección de optimización de contexto larga, el almacenamiento en caché de contexto hace que este tipo de entrada de tokens es mucho más económica y con una latencia aún más baja en algunos diferentes.

Video de formato largo

Durante mucho tiempo, la utilidad del contenido de video se vio limitada por la falta de accesibilidad. del medio en sí. Fue difícil hacer una lectura rápida del contenido, pero a menudo fallaban las transcripciones para capturar los matices de un video. La mayoría de las herramientas no procesan imágenes, texto ni audio en conjunto. Con Gemini 1.5, las funciones de texto de contexto largo se traducen en la capacidad de razonar y responder preguntas sobre entradas multimodales con rendimiento sostenido. Gemini 1.5 Flash, cuando se prueba en la aguja en un video problema de pajar con 1 millón de tokens, se obtuvo una recuperación de más del 99.8% del video en el de contexto, y 1.5 Pro alcanzó un rendimiento de vanguardia en la Comparativas de Video-MME:

Estos son algunos casos de uso emergentes y estándar para el contexto largo de videos:

  • Preguntas y respuestas sobre el video
  • Memoria de video, como se muestra con el Proyecto Astra de Google
  • Subtítulos de videos
  • Sistemas de recomendación de videos mediante el enriquecimiento de los metadatos existentes con nuevos comprensión multimodal
  • Personalización de videos a través de la observación de un corpus de datos y videos asociados metadatos y, luego, elimina las partes de los videos que no sean relevantes para el oyente
  • Moderación de contenido de video
  • Procesamiento de video en tiempo real

Cuando trabajes con videos, es importante que consideres cómo están y se procesan en tokens, lo que afecta y los límites de uso y facturación. Obtén más información para crear instrucciones con archivos de video en la página de mensajes de la guía de YouTube.

Audio de formato largo

Los modelos de Gemini 1.5 fueron los primeros modelos grandes de lenguaje multimodal de forma nativa. capaz de entender el audio. Históricamente, el flujo de trabajo típico de un desarrollador implican unir varios modelos específicos de dominio, como un de voz a texto y uno de texto a texto para procesar audio. Esta dio lugar a una latencia adicional requerida por la realización de varias solicitudes de ida y vuelta y la disminución del rendimiento, que, por lo general, se atribuyen a arquitecturas desconectadas de la configuración de varios modelos.

En las evaluaciones estándar de pila de audio, Gemini 1.5 Pro puede encontrar la audio oculto en todas las pruebas y Gemini 1.5 Flash puede encontrarlo en El 98,7% de los pruebas. Gemini 1.5 Flash acepta hasta 9.5 horas de audio en una sola solicitud y Gemini 1.5 Pro puede aceptar hasta 19 horas de audio con el token de 2 millones. ventana de contexto. Además, en un conjunto de prueba de clips de audio de 15 minutos, Gemini 1.5 Pro una tasa de error de palabras (WER) de ~5.5%, mucho menor que la de los de voz a texto sin la complejidad adicional de la segmentación adicional de entradas y el procesamiento previo.

Estos son algunos casos de uso emergentes y estándar para el contexto de audio:

  • Transcripciones y traducciones en tiempo real
  • Preguntas y respuestas sobre podcasts o videos
  • Transcripción y resumen de reuniones
  • Asistentes de voz

Obtén más información sobre las instrucciones con archivos de audio en la pestaña Instrucciones de la guía de YouTube.

Optimizaciones de contexto prolongado

La optimización principal cuando se trabaja con contexto extenso y Gemini 1.5 es usar el contexto el almacenamiento en caché. Más allá del anterior de procesamiento de muchos tokens en una sola solicitud, el otro limitación era el costo. Si tienes un "chat con tus datos" app en la que un usuario sube 10 archivos PDF, un video y algunos documentos de trabajo, que históricamente tendrías para trabajar con una herramienta de generación de aumento de recuperación (RAG) más compleja / para procesar estas solicitudes y pagar un importe significativo por los tokens se trasladaron a la ventana de contexto. Ahora puedes almacenar en caché los archivos y pagar por almacenarlas por hora. El costo por entrada / salida solicitarlo con Gemini 1.5 Flash es, por ejemplo, aproximadamente 4 veces menos que el costo de entrada / salida estándar. el usuario chatea con sus datos lo suficiente, se convierte en un gran ahorro de costos el desarrollador.

Limitaciones de contextos largos

En varias secciones de esta guía, hablamos sobre cómo los modelos de Gemini 1.5 logran en varias evaluaciones de recuperación. Estos y pruebas consideran la configuración más básica, en la que hay una sola aguja lo que buscan. En los casos en los que tengas varias “agujas” o partes específicas de información que buscas, el modelo no funciona con la misma exactitud. El rendimiento puede variar en gran medida según el contexto. Esta es importante tener en cuenta, ya que hay una compensación inherente entre la información correcta recuperada y el costo. Puedes obtener alrededor del 99% en una sola consulta, pero tienes que pagar el costo del token de entrada cada vez que envías esa consulta. Entonces, por 100, de información que se deben recuperar. Si necesitaras un rendimiento del 99%, probablemente necesiten enviar 100 solicitudes. Este es un buen ejemplo de cuando el contexto el almacenamiento en caché puede reducir de forma significativa el costo asociado al uso de modelos de Gemini y mantener un alto rendimiento.

Preguntas frecuentes

¿Pierdo el rendimiento del modelo cuando agrego más tokens a una consulta?

Por lo general, si no necesitas pasar tokens al modelo, evitar pasarlos. Sin embargo, si tienes una gran cantidad de tokens con algunos información y quieres hacer preguntas sobre ella, el modelo altamente capaz de extraer esa información (hasta un 99% de exactitud en muchos ).

¿Cuál es el rendimiento de Gemini 1.5 Pro en la prueba estándar de "aguja en un pajar"?

Gemini 1.5 Pro logra una recuperación del 100% con un máximo de 530,000 tokens y más del 99.7% de recuperación hasta un máximo de 530,000 tokens 1 millón tokens.

¿Cómo puedo reducir mi costo con consultas de contexto largo?

Si tienes un conjunto similar de tokens o contexto, te recomendamos que reutilices muchas el almacenamiento en caché en contexto puede reducir los costos asociadas a hacer preguntas sobre esa información.

¿Cómo puedo acceder a la ventana de contexto de 2 millones de tokens?

Todos los desarrolladores ahora tienen acceso a la ventana de contexto de 2 millones de tokens con Gemini 1.5 Pro

¿La longitud del contexto afecta la latencia del modelo?

Existe una cantidad fija de latencia en cualquier solicitud, independientemente de la pero, por lo general, las consultas más largas tendrán mayor latencia (tiempo transcurrido token).

¿Las capacidades de contexto largo son diferentes entre Gemini 1.5 Flash y Gemini 1.5 Pro?

Sí, algunos de los números se mencionaron en diferentes secciones de esta guía, pero en general, Gemini 1.5 Pro tiene un mejor rendimiento en la mayoría de los casos de uso de contexto largo.