7 नवंबर, 2024
Gemini मॉडल के लंबे कॉन्टेक्स्ट की मदद से, एआई कोडिंग असिस्टेंट को बेहतर बनाना

लंबी कॉन्टेक्स्ट विंडो के इस्तेमाल में, कोड जनरेशन और उसे समझना सबसे दिलचस्प चीज़ों में से एक है. बड़े कोडबेस के लिए, जटिल रिलेशनशिप और डिपेंडेंसी को अच्छी तरह समझना ज़रूरी है. हालांकि, पारंपरिक एआई मॉडल को ऐसा करने में मुश्किल होती है. बड़ी कॉन्टेक्स्ट विंडो की मदद से कोड की संख्या बढ़ाकर, हम कोड जनरेशन और समझने में सटीक और काम के नतीजे पा सकते हैं.
हमने Sourcegraph के साथ साझेदारी की है. Sourcegraph ने Cody एआई कोडिंग असिस्टेंट को बनाया है. यह Gemini 1.5 Pro और Flash जैसे एलएलएम के साथ काम करता है. हमने यह साझेदारी, रीयल-वर्ल्ड कोडिंग के मामलों में लंबी कॉन्टेक्स्ट विंडो की संभावनाओं को एक्सप्लोर करने के लिए की है. Sourcegraph ने एआई कोड जनरेशन में कोड सर्च और इंटेलिजेंस को इंटिग्रेट करने पर फ़ोकस किया है. साथ ही, Palo Alto Networks और Leidos जैसे बड़े और जटिल कोडबेस वाले एंटरप्राइज़ में Cody को सफलतापूर्वक डिप्लॉय किया है. इन वजहों से, Sourcegraph को इस एक्सप्लोरेशन के लिए सबसे सही पार्टनर माना गया है.
Sourcegraph का तरीका और नतीजे
Sourcegraph ने Cody के प्रोडक्शन वर्शन की तुलना, 10 लाख टोकन वाली कॉन्टेक्स्ट विंडो (Google के Gemini 1.5 Flash का इस्तेमाल करके) के साथ की. इस सीधी तुलना से, उन्हें बड़े कॉन्टेक्स्ट के फ़ायदों को अलग से देखने में मदद मिली. उन्होंने टेक्निकल सवालों के जवाब देने पर फ़ोकस किया, जो बड़े कोडबेस के साथ काम करने वाले डेवलपर के लिए एक अहम काम है. उन्होंने मुश्किल सवालों के डेटासेट का इस्तेमाल किया, जिनके लिए कोड को अच्छी तरह समझना ज़रूरी था.
नतीजे काफ़ी अच्छे थे. ज़्यादा कॉन्टेक्स्ट का इस्तेमाल करने पर, Sourcegraph के तीन मुख्य मानदंडों—ज़रूरी जानकारी, कम शब्दों में जानकारी, और काम की जानकारी—में काफ़ी सुधार देखने को मिले.
ज़रूरी जानकारी: जवाब में अहम तथ्यों का अनुपात काफ़ी बढ़ गया.
ज़रूरी जानकारी कम शब्दों में: जवाब की लंबाई के हिसाब से, ज़रूरी तथ्यों का अनुपात भी बेहतर हुआ है. इससे पता चलता है कि जवाब ज़्यादा कम शब्दों में और काम के हैं.
मददगार होने की जानकारी: जवाब की लंबाई के हिसाब से, मददगार होने की जानकारी का कुल स्कोर काफ़ी बढ़ गया है. इससे पता चलता है कि उपयोगकर्ताओं को ज़्यादा आसानी से जवाब मिल रहा है.

इसके अलावा, लंबे कॉन्टेक्स्ट वाले मॉडल का इस्तेमाल करने से, गलत जानकारी जनरेट होने की दर (तथ्यों के हिसाब से गलत जानकारी) काफ़ी कम हो गई. मतिभ्रम की दर 18.97% से घटकर 10.48% हो गई. इससे, सटीक और भरोसेमंद नतीजों में काफ़ी सुधार हुआ है.

फ़ायदे और नुकसान और आने वाले समय में क्या होगा
लंबे कॉन्टेक्स्ट के फ़ायदे ज़रूर हैं, लेकिन इसके कुछ नुकसान भी हैं. कॉन्टेक्स्ट की लंबाई के साथ, पहले टोकन का समय रैखिक रूप से बढ़ता है. इस समस्या को कम करने के लिए, Sourcegraph ने मॉडल के स्टेटस को कैश मेमोरी में सेव करने के लिए, पहले से डेटा लोड करने की सुविधा और लेयर वाले कॉन्टेक्स्ट मॉडल आर्किटेक्चर को लागू किया है. Gemini 1.5 Flash और Pro के ज़्यादा कॉन्टेक्स्ट वाले मॉडल की मदद से, 1 एमबी कॉन्टेक्स्ट के लिए, पहले टोकन का समय 30 से 40 सेकंड से घटकर करीब पांच सेकंड हो गया. इससे रीयल-टाइम कोड जनरेशन और तकनीकी सहायता में काफ़ी सुधार हुआ है.
इस सहयोग से पता चलता है कि लंबे कॉन्टेक्स्ट वाले मॉडल, कोड को समझने और जनरेट करने के तरीके में क्रांतिकारी बदलाव कर सकते हैं. हमें Sourcegraph जैसी कंपनियों के साथ साझेदारी करके खुशी हो रही है. इससे हमें बड़ी कॉन्टेक्स्ट विंडो के साथ, ज़्यादा इनोवेटिव ऐप्लिकेशन और पैराडाइम उपलब्ध कराने में मदद मिलेगी.
Sourcegraph के आकलन के तरीकों, मानदंडों, और विश्लेषण के बारे में ज़्यादा जानने के लिए, उनकी ज़्यादा जानकारी वाली ब्लॉग पोस्ट पढ़ें. इसमें उदाहरण भी शामिल हैं.