2024년 11월 7일
Gemini 모델의 긴 컨텍스트로 AI 코딩 어시스턴트 강화
긴 컨텍스트 창을 적용할 때 가장 흥미로운 분야 중 하나는 코드 생성 및 이해입니다. 대규모 코드베이스에는 복잡한 관계와 종속 항목에 대한 심층적인 이해가 필요하며, 이는 기존 AI 모델이 파악하기 어려운 부분입니다. 대규모 컨텍스트 창으로 코드의 양을 확장하면 코드 생성 및 이해에서 새로운 수준의 정확성과 유용성을 얻을 수 있습니다.
Google은 Gemini 1.5 Pro 및 Flash와 같은 LLM을 지원하는 Cody AI 코딩 어시스턴트의 제작자인 Sourcegraph와 협력하여 실제 코딩 시나리오에서 긴 컨텍스트 창의 잠재력을 살펴봤습니다. Sourcegraph는 코드 검색 및 인텔리전스를 AI 코드 생성에 통합하는 데 중점을 두고 있으며, Palo Alto Networks 및 Leidos와 같이 대규모의 복잡한 코드베이스를 보유한 기업에 Cody를 성공적으로 배포한 경험을 바탕으로 이번 탐색에 적합한 파트너입니다.
Sourcegraph의 접근 방식 및 결과
Sourcegraph는 1백만 개의 토큰 컨텍스트 윈도우 (Google의 Gemini 1.5 Flash 사용)를 사용한 Cody의 성능을 프로덕션 버전과 비교했습니다. 이러한 직접적인 비교를 통해 확장된 맥락의 이점을 파악할 수 있었습니다. 대규모 코드베이스를 사용하는 개발자에게 중요한 작업인 기술적 질문에 답하는 데 중점을 두었습니다. 심층적인 코드 이해가 필요한 어려운 질문으로 구성된 데이터 세트를 사용했습니다.
결과는 놀라웠습니다. Sourcegraph의 세 가지 주요 벤치마크인 필수 회상, 필수 간결성, 유용성은 더 긴 컨텍스트를 사용할 때 상당히 개선된 것으로 나타났습니다.
필수 회상: 응답에서 중요한 사실의 비율이 크게 증가했습니다.
필수 요약: 응답 길이로 표준화된 필수 사실의 비율도 개선되어 더 간결하고 관련성 높은 답변을 제공합니다.
유용성: 응답 길이로 표준화된 전반적인 유용성 점수가 크게 증가하여 더 사용자 친화적인 환경을 나타냅니다.
또한 긴 문맥 모델을 사용하면 전반적인 환각 발생률 (사실이 아닌 정보 생성)이 크게 줄었습니다. 환각 발생률이 18.97% 에서 10.48%로 감소하여 정확성과 안정성이 크게 개선되었습니다.
장단점 및 향후 방향
긴 맥락의 이점은 상당하지만 장단점이 있습니다. 첫 번째 토큰까지의 시간은 컨텍스트 길이에 따라 선형적으로 증가합니다. 이를 완화하기 위해 Sourcegraph는 모델 실행 상태 캐싱을 위한 미리 가져오기 메커니즘과 계층화된 컨텍스트 모델 아키텍처를 구현했습니다. Gemini 1.5 Flash 및 Pro 긴 컨텍스트 모델을 사용하면 1MB 컨텍스트의 경우 첫 번째 토큰까지의 시간이 30~40초에서 약 5초로 최적화되었습니다. 이는 실시간 코드 생성 및 기술 지원을 상당히 개선한 것입니다.
이번 공동작업은 긴 컨텍스트 모델이 코드 이해 및 생성의 혁명을 일으키는 변혁적 잠재력을 보여줍니다. Google은 Sourcegraph와 같은 회사와 협력하여 대규모 컨텍스트 창을 통해 더욱 혁신적인 애플리케이션과 패러다임을 계속해서 제공할 수 있게 되어 기쁩니다.
Sourcegraph의 자세한 평가 방법론, 벤치마크, 분석을 비롯한 설명 예시를 자세히 알아보려면 심층 블로그 게시물을 확인하세요.