بسیاری از مدلهای Gemini دارای پنجرههای زمینه بزرگ با 1 میلیون توکن یا بیشتر هستند. از لحاظ تاریخی، مدلهای زبان بزرگ (LLM) به میزان قابل توجهی توسط مقدار متن (یا نشانههایی) که میتوانستند در یک زمان به مدل منتقل شوند، محدود میشدند. پنجره زمینه طولانی Gemini بسیاری از موارد استفاده جدید و پارادایم های توسعه دهنده را باز می کند.
کدی که قبلاً برای مواردی مانند تولید متن یا ورودیهای چندوجهی استفاده میکنید بدون هیچ تغییری با زمینه طولانی کار میکند.
این سند یک نمای کلی از آنچه می توانید با استفاده از مدل هایی با پنجره های زمینه 1M و بیشتر به دست آورید به شما ارائه می دهد. این صفحه یک نمای کلی از یک پنجره زمینه ارائه میدهد و به بررسی این موضوع میپردازد که چگونه توسعهدهندگان باید در مورد زمینه طولانی، موارد مختلف استفاده از دنیای واقعی برای زمینه طولانی، و راههایی برای بهینهسازی استفاده از زمینه طولانی فکر کنند.
برای اندازههای پنجره زمینه مدلهای خاص، صفحه مدلها را ببینید.
پنجره زمینه چیست؟
روش اصلی استفاده از مدلهای Gemini، انتقال اطلاعات (زمینه) به مدل است که متعاقباً یک پاسخ ایجاد میکند. یک قیاس برای پنجره زمینه، حافظه کوتاه مدت است. اطلاعات محدودی وجود دارد که میتوان در حافظه کوتاهمدت شخص ذخیره کرد و همین امر در مورد مدلهای تولیدی نیز صادق است.
میتوانید در راهنمای مدلهای تولیدی ما درباره نحوه عملکرد مدلها در زیر کاپوت بیشتر بخوانید.
شروع با زمینه طولانی
نسخه های قبلی مدل های مولد تنها قادر به پردازش 8000 توکن در یک زمان بودند. مدل های جدیدتر با پذیرش 32000 یا حتی 128000 توکن این امر را بیشتر پیش بردند. Gemini اولین مدلی است که توانایی پذیرش 1 میلیون توکن را دارد.
در عمل، 1 میلیون توکن به صورت زیر است:
- 50000 خط کد (با 80 کاراکتر استاندارد در هر خط)
- تمام پیامک هایی که در 5 سال گذشته ارسال کرده اید
- 8 رمان انگلیسی متوسط
- رونوشت بیش از 200 قسمت پادکست با طول متوسط
پنجرههای زمینه محدودتر رایج در بسیاری از مدلهای دیگر اغلب به استراتژیهایی مانند حذف دلخواه پیامهای قدیمی، خلاصه کردن محتوا، استفاده از RAG با پایگاههای داده برداری، یا فیلتر کردن دستورات برای ذخیره توکنها نیاز دارند.
در حالی که این تکنیک ها در سناریوهای خاص ارزشمند باقی می مانند، پنجره زمینه گسترده Gemini رویکرد مستقیم تری را دعوت می کند: ارائه تمام اطلاعات مرتبط از قبل. از آنجایی که مدلهای Gemini با قابلیتهای زمینه عظیم ساخته شدهاند، یادگیری درون زمینهای قدرتمند را نشان میدهند. برای مثال، تنها با استفاده از مواد آموزشی درون متنی (یک دستور زبان مرجع 500 صفحه، یک فرهنگ لغت و 400 جمله موازی)، جمینی یاد گرفت که از انگلیسی به کالامنگ - یک زبان پاپوآیی با کمتر از 200 سخنران - با کیفیتی مشابه با یک زبان آموز انسانی با استفاده از مطالب مشابه، ترجمه کند . این تغییر پارادایم را نشان می دهد که توسط زمینه طولانی Gemini فعال شده است، و امکانات جدید را از طریق یادگیری درون زمینه ای قوی تقویت می کند.
موارد استفاده طولانی مدت
در حالی که مورد استفاده استاندارد برای اکثر مدلهای تولیدی همچنان ورودی متن است، خانواده مدل Gemini الگوی جدیدی از موارد استفاده چندوجهی را فعال میکند. این مدل ها می توانند متن، ویدئو، صدا و تصاویر را به صورت بومی درک کنند. آنها با Gemini API همراه هستند که انواع فایل های چندوجهی را برای راحتی می پذیرد .
متن فرم بلند
ثابت شده است که متن لایهای از هوش است که پشتوانه بسیاری از شتاب پیرامون LLM است. همانطور که قبلا ذکر شد، بسیاری از محدودیت های عملی LLM به دلیل نداشتن یک پنجره زمینه به اندازه کافی بزرگ برای انجام وظایف خاص بود. این منجر به پذیرش سریع تولید افزوده بازیابی (RAG) و سایر تکنیکهایی شد که به صورت پویا اطلاعات متنی مرتبط را به مدل ارائه میدهند. اکنون، با پنجرههای زمینه بزرگتر و بزرگتر، تکنیکهای جدیدی در دسترس هستند که موارد استفاده جدید را باز میکنند.
برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه طولانی مبتنی بر متن عبارتند از:
- خلاصه کردن مجموعه های بزرگ متن
- گزینههای خلاصهسازی قبلی با مدلهای زمینه کوچکتر به یک پنجره کشویی یا تکنیک دیگری برای حفظ وضعیت بخشهای قبلی با ارسال نشانههای جدید به مدل نیاز دارند.
- پرسش و پاسخ
- از نظر تاریخی، این تنها با RAG امکان پذیر بود، زیرا مقدار محدودی از زمینه و یادآوری واقعی مدل ها کم بود
- گردش کار نمایندگی
- متن زیربنای این است که چگونه عوامل وضعیت آنچه انجام داده اند و آنچه باید انجام دهند را حفظ می کنند. نداشتن اطلاعات کافی در مورد جهان و هدف عامل، محدودیت در قابلیت اطمینان عوامل است
یادگیری درون متنی چند شات یکی از منحصر به فردترین قابلیت هایی است که توسط مدل های زمینه طولانی باز شده است. تحقیقات نشان داده است که استفاده از پارادایم نمونه رایج «تک شات» یا «چند شات»، که در آن مدل با یک یا چند نمونه از یک کار ارائه میشود، و مقیاسبندی آن تا صدها، هزاران یا حتی صدها هزار نمونه، میتواند به قابلیتهای مدل جدید منجر شود. همچنین نشان داده شده است که این رویکرد چندین شات مشابه مدل هایی است که برای یک کار خاص تنظیم شده اند. برای موارد استفاده که عملکرد مدل جمینی هنوز برای عرضه کافی نیست، میتوانید رویکرد چند شات را امتحان کنید. همانطور که ممکن است بعداً در بخش بهینهسازی متن طولانی بررسی کنید، ذخیرهسازی متن باعث میشود که این نوع حجم کار توکن ورودی بالا از نظر اقتصادی امکانپذیرتر باشد و حتی در برخی موارد تاخیر کمتری داشته باشد.
ویدیوی طولانی
ابزار محتوای ویدیویی مدت هاست که به دلیل عدم دسترسی به خود رسانه محدود شده است. مرور محتوا سخت بود، رونوشتها اغلب نمیتوانستند جزئیات یک ویدیو را به تصویر بکشند، و اکثر ابزارها تصویر، متن و صدا را با هم پردازش نمیکنند. با Gemini، قابلیتهای متن طولانی به توانایی استدلال و پاسخ به سؤالات در مورد ورودیهای چندوجهی با عملکرد پایدار تبدیل میشود.
برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه طولانی ویدیو عبارتند از:
- پرسش و پاسخ تصویری
- حافظه ویدیویی، همانطور که با پروژه Astra گوگل نشان داده شده است
- زیرنویس ویدیو
- سیستمهای توصیه ویدیویی، با غنیسازی ابردادههای موجود با درک چندوجهی جدید
- سفارشیسازی ویدیو، با مشاهده مجموعهای از دادهها و فرادادههای ویدیویی مرتبط و سپس حذف بخشهایی از ویدیوها که به بیننده مربوط نیستند.
- تعدیل محتوای ویدیویی
- پردازش ویدئو در زمان واقعی
هنگام کار با ویدیوها، مهم است که نحوه پردازش ویدیوها به توکنها را در نظر بگیرید که بر روی صورتحساب و محدودیتهای استفاده تأثیر میگذارد. میتوانید درباره درخواست با فایلهای ویدیویی در راهنمای درخواست اطلاعات بیشتری کسب کنید.
صوت فرم بلند
مدلهای Gemini اولین مدلهای زبان بزرگ چندوجهی بومی بودند که میتوانستند صدا را بفهمند. از لحاظ تاریخی، گردش کار توسعهدهنده معمولی شامل رشتهبندی چندین مدل خاص دامنه، مانند مدل گفتار به متن و مدل متن به متن، به منظور پردازش صدا است. این منجر به تأخیر اضافی مورد نیاز با انجام چندین درخواست رفت و برگشت و کاهش عملکرد میشود که معمولاً به معماریهای جداشده از راهاندازی مدل چندگانه نسبت داده میشود.
برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه صوتی عبارتند از:
- رونویسی و ترجمه در زمان واقعی
- پرسش و پاسخ پادکست / ویدئویی
- رونویسی و جمع بندی جلسه
- دستیارهای صوتی
میتوانید درباره درخواست با فایلهای صوتی در راهنمای درخواست اطلاعات بیشتری کسب کنید.
بهینه سازی زمینه طولانی
بهینه سازی اولیه هنگام کار با زمینه طولانی و مدل های Gemini، استفاده از کش زمینه است. فراتر از عدم امکان قبلی پردازش تعداد زیادی توکن در یک درخواست، محدودیت اصلی دیگر هزینه بود. اگر یک برنامه «چت با دادههای خود» دارید که در آن کاربر 10 فایل PDF، یک ویدیو و برخی اسناد کاری را آپلود میکند، از لحاظ تاریخی باید با ابزار / چارچوب بازیابی پیچیدهتر (RAG) کار کنید تا این درخواستها را پردازش کنید و مبلغ قابلتوجهی برای توکنهای منتقل شده به پنجره زمینه بپردازید. اکنون میتوانید فایلهایی را که کاربر آپلود میکند، کش کنید و برای ذخیره آنها به صورت ساعتی هزینه پرداخت کنید. هزینه ورودی/خروجی به ازای هر درخواست برای مثال با Gemini Flash 4 برابر کمتر از هزینه ورودی/خروجی استاندارد است، بنابراین اگر کاربر به اندازه کافی با داده های خود چت کند، صرفه جویی زیادی در هزینه برای شما به عنوان توسعه دهنده خواهد شد.
محدودیت های زمینه طولانی
در بخشهای مختلف این راهنما، ما در مورد چگونگی دستیابی مدلهای Gemini به عملکرد بالا در ارزیابیهای مختلف بازیابی سوزن در انبار کاه صحبت کردیم. این تستها ابتداییترین راهاندازی را در نظر میگیرند، جایی که شما یک سوزن تنها دارید که به دنبال آن هستید. در مواردی که ممکن است چندین "سوزن" یا اطلاعات خاصی داشته باشید که به دنبال آن هستید، مدل با دقت یکسانی کار نمی کند. عملکرد می تواند تا حد زیادی بسته به زمینه متفاوت باشد. این مهم است که در نظر گرفته شود زیرا یک مبادله ذاتی بین بازیابی اطلاعات صحیح و هزینه وجود دارد. شما می توانید 99٪ در یک پرس و جو دریافت کنید، اما باید هزینه رمز ورودی را هر بار که آن درخواست را ارسال می کنید بپردازید. بنابراین برای بازیابی 100 قطعه اطلاعات، اگر به عملکرد 99 درصد نیاز داشتید، احتمالاً باید 100 درخواست ارسال کنید. این مثال خوبی از جایی است که ذخیرهسازی متن میتواند هزینههای مرتبط با استفاده از مدلهای Gemini را به میزان قابل توجهی کاهش دهد و در عین حال عملکرد بالا را حفظ کند.
سوالات متداول
بهترین مکان برای قرار دادن پرس و جو در پنجره زمینه کجاست؟
در بیشتر موارد، به خصوص اگر متن کل طولانی باشد، اگر پرس و جو/سوال خود را در انتهای اعلان قرار دهید (بعد از همه زمینه های دیگر) عملکرد مدل بهتر خواهد بود.
آیا وقتی توکن های بیشتری به یک کوئری اضافه می کنم عملکرد مدل را از دست می دهم؟
به طور کلی، اگر نیازی به ارسال توکن به مدل ندارید، بهتر است از ارسال آنها خودداری کنید. با این حال، اگر تعداد زیادی توکن با برخی اطلاعات دارید و می خواهید در مورد آن اطلاعات سؤال بپرسید، مدل توانایی بالایی در استخراج آن اطلاعات دارد (در بسیاری از موارد تا 99 درصد دقت).
چگونه می توانم هزینه خود را با پرس و جوهای طولانی مدت کاهش دهم؟
اگر مجموعه مشابهی از نشانهها / زمینه دارید که میخواهید بارها از آن استفاده کنید، ذخیرهسازی متن میتواند به کاهش هزینههای مربوط به پرسیدن سؤال در مورد آن اطلاعات کمک کند.
آیا طول زمینه بر تأخیر مدل تأثیر می گذارد؟
در هر درخواست معین، صرف نظر از اندازه، مقداری تاخیر ثابت وجود دارد، اما عموماً درخواستهای طولانیتر تأخیر بالاتری خواهند داشت (زمان تا اولین نشانه).