Chia sẻ

Ngày 7 tháng 11 năm 2024

Tăng cường hiệu suất của Trợ lý lập trình AI bằng ngữ cảnh dài của mô hình Gemini

Beyang Liu

Sourcegraph

Paige Bailey

Kỹ sư trải nghiệm dành cho nhà phát triển AI

Vishal Dharmadhikari

Kỹ sư giải pháp sản phẩm

Hình ảnh chính trong phần giới thiệu Sourcegraph

Một trong những lĩnh vực mới mẻ và thú vị nhất trong việc áp dụng cửa sổ ngữ cảnh dài là việc tạo và hiểu mã. Cơ sở mã lớn đòi hỏi phải hiểu rõ các mối quan hệ và phần phụ thuộc phức tạp, điều mà các mô hình AI truyền thống khó nắm bắt. Bằng cách mở rộng lượng mã bằng các cửa sổ ngữ cảnh lớn, chúng ta có thể đạt được một mức độ chính xác và hữu ích mới trong việc tạo và hiểu mã.

Chúng tôi đã hợp tác với Sourcegraph, nhà sáng tạo của trợ lý lập trình AI Cody hỗ trợ các LLM như Gemini 1.5 Pro và Flash, để khám phá tiềm năng của cửa sổ ngữ cảnh dài trong các tình huống lập trình thực tế. Việc Sourcegraph tập trung vào việc tích hợp tính năng tìm kiếm và thông tin chi tiết về mã vào quá trình tạo mã AI, cũng như việc triển khai thành công Cody cho các doanh nghiệp có cơ sở mã lớn và phức tạp như Palo Alto Networks và Leidos, đã giúp họ trở thành đối tác lý tưởng cho việc khám phá này.

Phương pháp và kết quả của Sourcegraph

Sourcegraph đã so sánh hiệu suất của Cody với cửa sổ ngữ cảnh 1 triệu mã thông báo (sử dụng Gemini 1.5 Flash của Google) với phiên bản chính thức. Việc so sánh trực tiếp này cho phép họ tách riêng các lợi ích của ngữ cảnh mở rộng. Họ tập trung vào việc trả lời câu hỏi kỹ thuật, một nhiệm vụ quan trọng đối với các nhà phát triển làm việc với cơ sở mã lớn. Họ đã sử dụng một tập dữ liệu gồm các câu hỏi khó đòi hỏi phải hiểu sâu về mã.

Kết quả thật ấn tượng. Ba trong số các điểm chuẩn chính của Sourcegraph – Khả năng gợi nhắc thiết yếu, Tính ngắn gọn thiết yếu và Tính hữu ích – đã cho thấy sự cải thiện đáng kể khi sử dụng ngữ cảnh dài hơn.



  • Khả năng ghi nhớ thông tin thiết yếu: Tỷ lệ các thông tin quan trọng trong câu trả lời tăng lên đáng kể.

  • Tính ngắn gọn cần thiết: Tỷ lệ các dữ kiện thiết yếu được chuẩn hoá theo độ dài câu trả lời cũng được cải thiện, cho thấy các câu trả lời ngắn gọn và phù hợp hơn.

  • Mức độ hữu ích: Điểm mức độ hữu ích tổng thể (được chuẩn hoá theo độ dài câu trả lời) đã tăng lên đáng kể, cho thấy trải nghiệm thân thiện hơn với người dùng.

Văn bản thay thế cho hình ảnh này: Biểu đồ dạng cột cho thấy sự cải thiện về chất lượng giữa Cơ sở mã và Cody với Gemini 1.5 Flash

Hơn nữa, việc sử dụng các mô hình ngữ cảnh dài đã làm giảm đáng kể tỷ lệ ảo giác tổng thể (tạo ra thông tin không chính xác về mặt thực tế). Tỷ lệ ảo giác giảm từ 18,97% xuống còn 10,48%, cải thiện đáng kể độ chính xác và độ tin cậy.

Biểu đồ thanh cho thấy sự khác biệt về tỷ lệ ảo giác giữa Code base và Cody với Gemini 1.5 Flash

Sự đánh đổi và hướng đi trong tương lai

Mặc dù lợi ích của ngữ cảnh dài là rất đáng kể, nhưng cũng có những điểm đánh đổi. Thời gian đến mã thông báo đầu tiên tăng tuyến tính theo độ dài của ngữ cảnh. Để giảm thiểu vấn đề này, Sourcegraph đã triển khai cơ chế tìm nạp trước và cấu trúc mô hình ngữ cảnh phân lớp để lưu trạng thái thực thi mô hình vào bộ nhớ đệm. Với các mô hình ngữ cảnh dài Gemini 1.5 Flash và Pro, thời gian tạo mã đầu tiên đã được tối ưu hoá từ 30 đến 40 giây xuống còn khoảng 5 giây đối với ngữ cảnh 1 MB – một sự cải thiện đáng kể đối với việc tạo mã theo thời gian thực và hỗ trợ kỹ thuật.

Dự án cộng tác này cho thấy tiềm năng biến đổi của các mô hình ngữ cảnh dài trong việc cách mạng hoá việc hiểu và tạo mã. Chúng tôi rất vui khi được hợp tác với các công ty như Sourcegraph để tiếp tục khai thác các ứng dụng và mô hình sáng tạo hơn nữa bằng cửa sổ ngữ cảnh lớn.

Để tìm hiểu sâu hơn về các phương pháp đánh giá, điểm chuẩn và phân tích chi tiết của Sourcegraph, bao gồm cả ví dụ minh hoạ, đừng bỏ lỡ bài đăng chi tiết trên blog của họ.