Проголосуйте за приз зрительских симпатий в конкурсе разработчиков Gemini API! Голосуйте сейчас

Эта страница переведена с помощью Cloud Translation API.

Делиться

7 ноября 2024 г.

Расширение возможностей ИИ-помощников по программированию с помощью длинного контекста моделей Gemini

Бэян Лю

Исходный график

Пейдж Бэйли

Инженер по опыту разработки ИИ

Вишал Дхармадхикари

Инженер по продуктовым решениям

Одним из наиболее интересных направлений применения окон с длинным контекстом является генерация и понимание кода. Большие базы кода требуют глубокого понимания сложных взаимосвязей и зависимостей, что с трудом удается понять традиционным моделям ИИ. Расширяя объем кода за счет больших контекстных окон, мы можем открыть новый уровень точности и полезности в генерации и понимании кода.

Мы сотрудничали с Sourcegraph, создателями ИИ-помощника по кодированию Cody , который поддерживает такие LLM, как Gemini 1.5 Pro и Flash , чтобы изучить потенциал длинных контекстных окон в реальных сценариях кодирования. Акцент Sourcegraph на интеграции поиска кода и аналитики в генерацию кода искусственного интеллекта, а также успешное развертывание Cody на предприятиях с большими и сложными базами кода, таких как Palo Alto Networks и Leidos, сделали их идеальным партнером для этого исследования.

Подход и результаты Sourcegraph

Sourcegraph сравнил производительность Коди с контекстным окном токена 1M (с использованием Google Gemini 1.5 Flash) с его производственной версией. Это прямое сравнение позволило им выделить преимущества расширенного контекста. Они сосредоточились на ответах на технические вопросы — важнейшей задаче для разработчиков, работающих с большими базами кода. Они использовали набор сложных вопросов, требующих глубокого понимания кода.

Результаты были поразительными. Три ключевых теста Sourcegraph — Essential Recall, Essential Concision и Helpfulness — продемонстрировали значительные улучшения при использовании более длинного контекста.

Важная информация: Доля важных фактов в ответе существенно возросла.
Существенная краткость: доля существенных фактов, нормализованных по длине ответа, также улучшилась, что указывает на более краткие и релевантные ответы.
Полезность: общий показатель полезности, нормализованный по длине ответа, значительно увеличился, что указывает на более удобный для пользователя опыт.

Альтернативный текст: Гистограмма, показывающая улучшение качества между базой кода и Cody с помощью Gemini 1.5 Flash.

Более того, использование моделей с длинным контекстом резко снизило общую частоту галлюцинаций (генерации фактически неверной информации). Частота галлюцинаций снизилась с 18,97% до 10,48%, что является значительным улучшением точности и надежности.

Гистограмма, показывающая разницу в частоте галлюцинаций между базой кода и Коди с Gemini 1.5 Flash

Компромиссы и будущее направление

Хотя преимущества длинного контекста значительны, существуют и компромиссы. Время появления первого токена увеличивается линейно с длиной контекста. Чтобы смягчить это, Sourcegraph реализовал механизм предварительной выборки и архитектуру многоуровневой контекстной модели для кэширования состояния выполнения модели. В моделях Gemini 1.5 Flash и Pro с длинным контекстом это оптимизировало время создания первого токена с 30–40 секунд до примерно 5 секунд для контекстов размером 1 МБ, что является значительным улучшением для генерации кода в реальном времени и технической помощи.

Это сотрудничество демонстрирует преобразующий потенциал моделей с длинным контекстом в революционном понимании и генерации кода. Мы рады сотрудничать с такими компаниями, как Sourcegraph, чтобы продолжать открывать еще больше инновационных приложений и парадигм с помощью больших контекстных окон.

Чтобы глубже погрузиться в подробные методологии оценки, тесты и анализ Sourcegraph, включая наглядные примеры, не пропустите их подробную публикацию в блоге .

Номера

Расширение возможностей взаимодействия с аватарами с помощью текстовых и аудиовозможностей Gemini 2.0.

Расширение возможностей ИИ-помощников по программированию с помощью длинного контекста моделей Gemini

Подход и результаты Sourcegraph

Компромиссы и будущее направление

Связанные тематические исследования