7 ноября 2024 г.
Расширение возможностей ИИ-помощников по программированию с помощью длинного контекста моделей Gemini
Одним из наиболее интересных направлений применения окон с длинным контекстом является генерация и понимание кода. Большие базы кода требуют глубокого понимания сложных взаимосвязей и зависимостей, что с трудом удается понять традиционным моделям ИИ. Расширяя объем кода за счет больших контекстных окон, мы можем открыть новый уровень точности и полезности в генерации и понимании кода.
Мы сотрудничали с Sourcegraph, создателями ИИ-помощника по кодированию Cody , который поддерживает такие LLM, как Gemini 1.5 Pro и Flash , чтобы изучить потенциал длинных контекстных окон в реальных сценариях кодирования. Акцент Sourcegraph на интеграции поиска кода и аналитики в генерацию кода искусственного интеллекта, а также успешное развертывание Cody на предприятиях с большими и сложными базами кода, таких как Palo Alto Networks и Leidos, сделали их идеальным партнером для этого исследования.
Подход и результаты Sourcegraph
Sourcegraph сравнил производительность Коди с контекстным окном токена 1M (с использованием Google Gemini 1.5 Flash) с его производственной версией. Это прямое сравнение позволило им выделить преимущества расширенного контекста. Они сосредоточились на ответах на технические вопросы — важнейшей задаче для разработчиков, работающих с большими базами кода. Они использовали набор сложных вопросов, требующих глубокого понимания кода.
Результаты были поразительными. Три ключевых теста Sourcegraph — Essential Recall, Essential Concision и Helpfulness — продемонстрировали значительные улучшения при использовании более длинного контекста.
Важная информация: Доля важных фактов в ответе существенно возросла.
Существенная краткость: доля существенных фактов, нормализованных по длине ответа, также улучшилась, что указывает на более краткие и релевантные ответы.
Полезность: общий показатель полезности, нормализованный по длине ответа, значительно увеличился, что указывает на более удобный для пользователя опыт.
Более того, использование моделей с длинным контекстом резко снизило общую частоту галлюцинаций (генерации фактически неверной информации). Частота галлюцинаций снизилась с 18,97% до 10,48%, что является значительным улучшением точности и надежности.
Компромиссы и будущее направление
Хотя преимущества длинного контекста значительны, существуют и компромиссы. Время появления первого токена увеличивается линейно с длиной контекста. Чтобы смягчить это, Sourcegraph реализовал механизм предварительной выборки и многоуровневую архитектуру контекстной модели для кэширования состояния выполнения модели. В моделях Gemini 1.5 Flash и Pro с длинным контекстом это оптимизировало время создания первого токена с 30–40 секунд до примерно 5 секунд для контекстов размером 1 МБ, что является значительным улучшением для генерации кода в реальном времени и технической помощи.
Это сотрудничество демонстрирует преобразующий потенциал моделей с длинным контекстом в революционном понимании и генерации кода. Мы рады сотрудничать с такими компаниями, как Sourcegraph, чтобы продолжать открывать еще больше инновационных приложений и парадигм с помощью больших контекстных окон.
Чтобы глубже погрузиться в подробные методологии оценки, тесты и анализ Sourcegraph, включая наглядные примеры, не пропустите их подробную публикацию в блоге .