7 نوامبر 2024
دستیارهای کدنویسی هوش مصنوعی با زمینه طولانی مدل های Gemini
یکی از مهیج ترین مرزها در کاربرد پنجره های با زمینه طولانی، تولید کد و درک آن است. پایگاههای کد بزرگ به درک عمیق روابط و وابستگیهای پیچیده نیاز دارند، چیزی که مدلهای هوش مصنوعی سنتی برای درک آن تلاش میکنند. با گسترش مقدار کد با پنجرههای زمینه بزرگ، میتوانیم سطح جدیدی از دقت و سودمندی را در تولید و درک کد باز کنیم.
ما با Sourcegraph، سازندگان دستیار کدنویسی Cody AI که از LLM هایی مانند Gemini 1.5 Pro و Flash پشتیبانی می کند، شریک شدیم تا پتانسیل پنجره های زمینه طولانی را در سناریوهای کدنویسی در دنیای واقعی بررسی کنیم. تمرکز Sourcegraph بر ادغام جستجوی کد و هوشمندی در تولید کد هوش مصنوعی، و استقرار موفق Cody در شرکتهایی با پایگاههای کد بزرگ و پیچیده مانند Palo Alto Networks و Leidos، آنها را به شریک ایدهآل برای این اکتشاف تبدیل کرد.
رویکرد و نتایج سورسگراف
Sourcegraph عملکرد Cody را با یک پنجره زمینه توکن 1M (با استفاده از Gemini 1.5 Flash Google) در مقابل نسخه تولیدی آن مقایسه کرد. این مقایسه مستقیم به آنها اجازه داد تا مزایای بافت گسترده را جدا کنند. آنها بر پاسخگویی به سوالات فنی تمرکز کردند، وظیفه ای حیاتی برای توسعه دهندگانی که با پایگاه های کد بزرگ کار می کنند. آنها از مجموعه داده ای از سوالات چالش برانگیز استفاده کردند که نیاز به درک عمیق کد داشت.
نتایج قابل توجه بود. سه مورد از معیارهای کلیدی Sourcegraph -Essential Recall، Essential Concision و Helpfulness- هنگام استفاده از زمینه طولانی تر، پیشرفت های قابل توجهی را نشان دادند.
یادآوری ضروری: نسبت حقایق حیاتی در پاسخ به طور قابل توجهی افزایش یافته است.
خلاصه اساسی: نسبت حقایق اساسی عادی شده با طول پاسخ نیز بهبود یافته است، که نشان دهنده پاسخ های مختصر و مرتبط تر است.
سودمندی: امتیاز کلی مفید بودن، که با طول پاسخ عادی شده است، به طور قابل توجهی افزایش یافته است، که نشان دهنده تجربه کاربر پسندتر است.
علاوه بر این، استفاده از مدلهای با زمینه طولانی به شدت میزان توهم کلی (تولید اطلاعات واقعی نادرست) را کاهش داد. میزان توهم از 18.97% به 10.48% کاهش یافت که بهبود قابل توجهی در دقت و قابلیت اطمینان بود.
معاملات و جهت گیری آینده
در حالی که مزایای زمینه طولانی قابل توجه است، معاوضه هایی نیز وجود دارد. زمان اولین نشانه به صورت خطی با طول زمینه افزایش می یابد. برای کاهش این موضوع، Sourcegraph یک مکانیسم پیش واکشی و یک معماری مدل بافت لایهای را برای ذخیرهسازی حالت اجرای مدل پیادهسازی کرد. با مدلهای متن طولانی Gemini 1.5 Flash و Pro، زمان برای اولین توکن از 30 تا 40 ثانیه به حدود 5 ثانیه برای زمینههای 1 مگابایتی بهینه میشود - یک پیشرفت قابل توجه برای تولید کد بلادرنگ و کمک فنی.
این همکاری پتانسیل تحولآفرین مدلهای زمینه طولانی را در ایجاد تحول در درک و تولید کد نشان میدهد. ما از شراکت با شرکتهایی مانند Sourcegraph برای ادامه باز کردن برنامهها و پارادایمهای نوآورانهتر با پنجرههای زمینه بزرگ هیجانزده هستیم.
برای غواصی عمیقتر در روشهای ارزیابی دقیق، معیارها و تحلیلهای Sourcegraph، از جمله نمونههای گویا، پست وبلاگ عمیق آنها را از دست ندهید.