7 de noviembre de 2024
Cómo mejorar los asistentes de programación de IA con el contexto largo de los modelos de Gemini
Una de las fronteras más interesantes en la aplicación de ventanas de contexto largo es la generación y comprensión de código. Las bases de código grandes requieren un conocimiento profundo de las relaciones y dependencias complejas, algo que los modelos de IA tradicionales tienen dificultades para comprender. Si expandimos la cantidad de código con ventanas de contexto grandes, podemos acceder a un nuevo nivel de precisión y utilidad en la generación y comprensión del código.
Nos asociamos con Sourcegraph, los creadores del asistente de programación de IA Cody que admite LLM como Gemini 1.5 Pro y Flash, para explorar el potencial de las ventanas de contexto largas en situaciones de programación reales. El enfoque de Sourcegraph en integrar la búsqueda y la inteligencia de código en la generación de código de IA, y la implementación exitosa de Cody en empresas con bases de código grandes y complejas, como Palo Alto Networks y Leidos, los convirtieron en el socio ideal para esta exploración.
Enfoque y resultados de Sourcegraph
Sourcegraph comparó el rendimiento de Cody con una ventana de contexto de 1 millón de tokens (con Gemini 1.5 Flash de Google) en comparación con su versión de producción. Esta comparación directa les permitió aislar los beneficios del contexto expandido. Se enfocaron en responder preguntas técnicas, una tarea fundamental para los desarrolladores que trabajan con bases de código grandes. Usaron un conjunto de datos de preguntas desafiantes que requerían una comprensión profunda del código.
Los resultados fueron sorprendentes. Tres de las comparativas clave de Sourcegraph: Essential Recall, Essential Concision y Helpfulness, demostraron mejoras significativas cuando se usó el contexto más largo.
Recordatorio esencial: La proporción de hechos cruciales en la respuesta aumentó considerablemente.
Concisión esencial: También mejoró la proporción de datos esenciales normalizados por la duración de la respuesta, lo que indica respuestas más concisas y relevantes.
Utilidad: La puntuación general de utilidad, normalizada por la longitud de la respuesta, aumentó significativamente, lo que indica una experiencia más fácil de usar.
Además, el uso de modelos de contexto largo redujo drásticamente la tasa general de alucinaciones (la generación de información fácticamente incorrecta). La tasa de alucinaciones disminuyó del 18.97% al 10.48%, lo que representa una mejora significativa en la precisión y la confiabilidad.
Ventajas y desventajas, y dirección futura
Si bien los beneficios del contexto largo son significativos, hay compensaciones. El tiempo hasta el primer token aumenta de forma lineal con la longitud del contexto. Para mitigar esto, Sourcegraph implementó un mecanismo de carga previa y una arquitectura de modelo de contexto en capas para la caché del estado de ejecución del modelo. Con los modelos de contexto a largo plazo Gemini 1.5 Flash y Pro, se optimizó el tiempo hasta el primer token de 30 a 40 segundos a alrededor de 5 segundos para contextos de 1 MB, lo que representa una mejora considerable para la generación de código en tiempo real y la asistencia técnica.
Esta colaboración muestra el potencial transformador de los modelos de contexto extenso para revolucionar la comprensión y generación de código. Nos complace asociarnos con empresas como Sourcegraph para seguir desbloqueando aplicaciones y paradigmas aún más innovadores con grandes ventanas de contexto.
Si quieres profundizar en las metodologías de evaluación, las comparativas y los análisis detallados de Sourcegraph, incluidos ejemplos ilustrativos, no te pierdas su entrada de blog detallada.