Nov 7, 2024
Meningkatkan Kemampuan Asisten Coding AI dengan Konteks Panjang Model Gemini
Salah satu batas yang paling menarik dalam penerapan jendela konteks panjang adalah pembuatan dan pemahaman kode. Codebase besar memerlukan pemahaman mendalam tentang hubungan dan dependensi yang kompleks, sesuatu yang sulit dipahami oleh model AI tradisional. Dengan memperluas jumlah kode dengan jendela konteks yang besar, kita dapat meningkatkan akurasi dan kegunaan dalam pembuatan dan pemahaman kode.
Kami berpartner dengan Sourcegraph, pembuat asisten coding Cody AI yang mendukung LLM seperti Gemini 1.5 Pro dan Flash, untuk mengeksplorasi potensi jendela konteks yang panjang dalam skenario coding di dunia nyata. Fokus Sourcegraph dalam mengintegrasikan penelusuran dan intelijen kode ke dalam pembuatan kode AI, serta keberhasilan deployment Cody ke perusahaan dengan codebase besar dan kompleks seperti Palo Alto Networks dan Leidos, menjadikannya partner yang ideal untuk eksplorasi ini.
Pendekatan dan Hasil Sourcegraph
Sourcegraph membandingkan performa Cody dengan jendela konteks token 1 juta (menggunakan Gemini 1.5 Flash Google) dengan versi produksinya. Perbandingan langsung ini memungkinkan mereka mengisolasi manfaat konteks yang diperluas. Mereka berfokus pada menjawab pertanyaan teknis, tugas penting bagi developer yang bekerja dengan codebase besar. Mereka menggunakan set data pertanyaan menantang yang memerlukan pemahaman kode yang mendalam.
Hasilnya sangat mencengangkan. Tiga tolok ukur utama Sourcegraph—Essential Recall, Essential Concision, dan Helpfulness—menunjukkan peningkatan yang signifikan saat menggunakan konteks yang lebih panjang.
Recall Penting: Proporsi fakta penting dalam respons meningkat secara substansial.
Ringkas dan Penting: Proporsi fakta penting yang dinormalisasi berdasarkan panjang respons juga meningkat, yang menunjukkan jawaban yang lebih ringkas dan relevan.
Kegunaan: Skor kegunaan secara keseluruhan, yang dinormalisasi berdasarkan panjang respons, meningkat secara signifikan, yang menunjukkan pengalaman yang lebih mudah digunakan.
Selain itu, penggunaan model konteks panjang secara drastis mengurangi tingkat halusinasi secara keseluruhan (pembuatan informasi yang salah secara faktual). Rasio halusinasi menurun dari 18,97% menjadi 10,48%, yang merupakan peningkatan akurasi dan keandalan yang signifikan.
Kompromi dan Arah Masa Depan
Meskipun manfaat konteks panjang sangat signifikan, ada konsekuensinya. Waktu untuk token pertama meningkat secara linear dengan panjang konteks. Untuk mengurangi hal ini, Sourcegraph menerapkan mekanisme pengambilan data sebelumnya dan arsitektur model konteks berlapis untuk penyimpanan dalam cache status eksekusi model. Dengan model konteks panjang Gemini 1.5 Flash dan Pro, hal ini mengoptimalkan waktu untuk token pertama dari 30-40 detik menjadi sekitar 5 detik untuk konteks 1 MB – peningkatan yang cukup besar untuk pembuatan kode real-time dan bantuan teknis.
Kolaborasi ini menunjukkan potensi transformatif model konteks panjang dalam merevolusi pemahaman dan pembuatan kode. Kami senang dapat berpartner dengan perusahaan seperti Sourcegraph untuk terus membuka aplikasi dan paradigma yang lebih inovatif dengan jendela konteks yang besar.
Untuk mempelajari metodologi, tolok ukur, dan analisis evaluasi Sourcegraph yang mendetail lebih lanjut, termasuk contoh ilustrasi, jangan lewatkan postingan blog mendalam mereka.