Делиться

7 ноября 2024 г.

Расширение возможностей ИИ-помощников по программированию с помощью длинного контекста моделей Gemini

Бэян Лю

Исходный график

Пейдж Бэйли

Инженер по опыту разработки ИИ

Вишал Дхармадхикари

Инженер по продуктовым решениям

Герой витрины Sourcegraph

Одним из наиболее интересных направлений применения окон с длинным контекстом является генерация и понимание кода. Большие базы кода требуют глубокого понимания сложных взаимосвязей и зависимостей, что с трудом удается понять традиционным моделям ИИ. Расширяя объем кода за счет больших контекстных окон, мы можем открыть новый уровень точности и полезности в генерации и понимании кода.

Мы сотрудничали с Sourcegraph, создателями ИИ-помощника по кодированию Cody , который поддерживает такие LLM, как Gemini 1.5 Pro и Flash , чтобы изучить потенциал длинных контекстных окон в реальных сценариях кодирования. Акцент Sourcegraph на интеграции поиска кода и аналитики в генерацию кода искусственного интеллекта, а также успешное развертывание Cody на предприятиях с большими и сложными базами кода, таких как Palo Alto Networks и Leidos, сделали их идеальным партнером для этого исследования.

Подход и результаты Sourcegraph

Sourcegraph сравнил производительность Коди с контекстным окном токена 1M (с использованием Google Gemini 1.5 Flash) с его производственной версией. Это прямое сравнение позволило им выделить преимущества расширенного контекста. Они сосредоточились на ответах на технические вопросы — важнейшей задаче для разработчиков, работающих с большими базами кода. Они использовали набор сложных вопросов, требующих глубокого понимания кода.

Результаты были поразительными. Три ключевых теста Sourcegraph — Essential Recall, Essential Concision и Helpfulness — продемонстрировали значительные улучшения при использовании более длинного контекста.



  • Важная информация: Доля важных фактов в ответе существенно возросла.

  • Существенная краткость: доля существенных фактов, нормализованных по длине ответа, также улучшилась, что указывает на более краткие и релевантные ответы.

  • Полезность: общий показатель полезности, нормализованный по длине ответа, значительно увеличился, что указывает на более удобный для пользователя опыт.

Альтернативный текст: Гистограмма, показывающая улучшение качества между базой кода и Cody с помощью Gemini 1.5 Flash.

Более того, использование моделей с длинным контекстом резко снизило общую частоту галлюцинаций (генерации фактически неверной информации). Частота галлюцинаций снизилась с 18,97% до 10,48%, что является значительным улучшением точности и надежности.

Гистограмма, показывающая разницу в частоте галлюцинаций между базой Code и Коди с Gemini 1.5 Flash

Компромиссы и будущее направление

Хотя преимущества длинного контекста значительны, существуют и компромиссы. Время появления первого токена увеличивается линейно с длиной контекста. Чтобы смягчить это, Sourcegraph реализовал механизм предварительной выборки и многоуровневую архитектуру контекстной модели для кэширования состояния выполнения модели. В моделях Gemini 1.5 Flash и Pro с длинным контекстом это оптимизировало время создания первого токена с 30–40 секунд до примерно 5 секунд для контекстов размером 1 МБ, что является значительным улучшением для генерации кода в реальном времени и технической помощи.

Это сотрудничество демонстрирует преобразующий потенциал моделей с длинным контекстом в революционном понимании и генерации кода. Мы рады сотрудничать с такими компаниями, как Sourcegraph, чтобы продолжать открывать еще больше инновационных приложений и парадигм с помощью больших контекстных окон.

Чтобы глубже погрузиться в подробные методологии оценки, тесты и анализ Sourcegraph, включая наглядные примеры, не пропустите их подробную публикацию в блоге .