زمینه طولانی

بسیاری از مدل‌های Gemini دارای پنجره‌های زمینه بزرگ با 1 میلیون توکن یا بیشتر هستند. از لحاظ تاریخی، مدل‌های زبان بزرگ (LLM) به میزان قابل توجهی توسط مقدار متن (یا نشانه‌هایی) که می‌توانستند در یک زمان به مدل منتقل شوند، محدود می‌شدند. پنجره زمینه طولانی Gemini بسیاری از موارد استفاده جدید و پارادایم های توسعه دهنده را باز می کند.

کدی که قبلاً برای مواردی مانند تولید متن یا ورودی‌های چندوجهی استفاده می‌کنید بدون هیچ تغییری با زمینه طولانی کار می‌کند.

این سند یک نمای کلی از آنچه می توانید با استفاده از مدل هایی با پنجره های زمینه 1M و بیشتر به دست آورید به شما ارائه می دهد. این صفحه یک نمای کلی از یک پنجره زمینه ارائه می‌دهد و به بررسی این موضوع می‌پردازد که چگونه توسعه‌دهندگان باید در مورد زمینه طولانی، موارد مختلف استفاده از دنیای واقعی برای زمینه طولانی، و راه‌هایی برای بهینه‌سازی استفاده از زمینه طولانی فکر کنند.

برای اندازه‌های پنجره زمینه مدل‌های خاص، صفحه مدل‌ها را ببینید.

پنجره زمینه چیست؟

روش اصلی استفاده از مدل‌های Gemini، انتقال اطلاعات (زمینه) به مدل است که متعاقباً یک پاسخ ایجاد می‌کند. یک قیاس برای پنجره زمینه، حافظه کوتاه مدت است. اطلاعات محدودی وجود دارد که می‌توان در حافظه کوتاه‌مدت شخص ذخیره کرد و همین امر در مورد مدل‌های تولیدی نیز صادق است.

می‌توانید در راهنمای مدل‌های تولیدی ما درباره نحوه عملکرد مدل‌ها در زیر کاپوت بیشتر بخوانید.

شروع با زمینه طولانی

نسخه های قبلی مدل های مولد تنها قادر به پردازش 8000 توکن در یک زمان بودند. مدل های جدیدتر با پذیرش 32000 یا حتی 128000 توکن این امر را بیشتر پیش بردند. Gemini اولین مدلی است که توانایی پذیرش 1 میلیون توکن را دارد.

در عمل، 1 میلیون توکن به صورت زیر است:

  • 50000 خط کد (با 80 کاراکتر استاندارد در هر خط)
  • تمام پیامک هایی که در 5 سال گذشته ارسال کرده اید
  • 8 رمان انگلیسی متوسط
  • رونوشت بیش از 200 قسمت پادکست با طول متوسط

پنجره‌های زمینه محدودتر رایج در بسیاری از مدل‌های دیگر اغلب به استراتژی‌هایی مانند حذف دلخواه پیام‌های قدیمی، خلاصه کردن محتوا، استفاده از RAG با پایگاه‌های داده برداری، یا فیلتر کردن دستورات برای ذخیره توکن‌ها نیاز دارند.

در حالی که این تکنیک ها در سناریوهای خاص ارزشمند باقی می مانند، پنجره زمینه گسترده Gemini رویکرد مستقیم تری را دعوت می کند: ارائه تمام اطلاعات مرتبط از قبل. از آنجایی که مدل‌های Gemini با قابلیت‌های زمینه عظیم ساخته شده‌اند، یادگیری درون زمینه‌ای قدرتمند را نشان می‌دهند. برای مثال، تنها با استفاده از مواد آموزشی درون متنی (یک دستور زبان مرجع 500 صفحه، یک فرهنگ لغت و 400 جمله موازی)، جمینی یاد گرفت که از انگلیسی به کالامنگ - یک زبان پاپوآیی با کمتر از 200 سخنران - با کیفیتی مشابه با یک زبان آموز انسانی با استفاده از مطالب مشابه، ترجمه کند . این تغییر پارادایم را نشان می دهد که توسط زمینه طولانی Gemini فعال شده است، و امکانات جدید را از طریق یادگیری درون زمینه ای قوی تقویت می کند.

موارد استفاده طولانی مدت

در حالی که مورد استفاده استاندارد برای اکثر مدل‌های تولیدی همچنان ورودی متن است، خانواده مدل Gemini الگوی جدیدی از موارد استفاده چندوجهی را فعال می‌کند. این مدل ها می توانند متن، ویدئو، صدا و تصاویر را به صورت بومی درک کنند. آنها با Gemini API همراه هستند که انواع فایل های چندوجهی را برای راحتی می پذیرد .

متن فرم بلند

ثابت شده است که متن لایه‌ای از هوش است که پشتوانه بسیاری از شتاب پیرامون LLM است. همانطور که قبلا ذکر شد، بسیاری از محدودیت های عملی LLM به دلیل نداشتن یک پنجره زمینه به اندازه کافی بزرگ برای انجام وظایف خاص بود. این منجر به پذیرش سریع تولید افزوده بازیابی (RAG) و سایر تکنیک‌هایی شد که به صورت پویا اطلاعات متنی مرتبط را به مدل ارائه می‌دهند. اکنون، با پنجره‌های زمینه بزرگ‌تر و بزرگ‌تر، تکنیک‌های جدیدی در دسترس هستند که موارد استفاده جدید را باز می‌کنند.

برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه طولانی مبتنی بر متن عبارتند از:

  • خلاصه کردن مجموعه های بزرگ متن
    • گزینه‌های خلاصه‌سازی قبلی با مدل‌های زمینه کوچک‌تر به یک پنجره کشویی یا تکنیک دیگری برای حفظ وضعیت بخش‌های قبلی با ارسال نشانه‌های جدید به مدل نیاز دارند.
  • پرسش و پاسخ
    • از نظر تاریخی، این تنها با RAG امکان پذیر بود، زیرا مقدار محدودی از زمینه و یادآوری واقعی مدل ها کم بود
  • گردش کار نمایندگی
    • متن زیربنای این است که چگونه عوامل وضعیت آنچه انجام داده اند و آنچه باید انجام دهند را حفظ می کنند. نداشتن اطلاعات کافی در مورد جهان و هدف عامل، محدودیت در قابلیت اطمینان عوامل است

یادگیری درون متنی چند شات یکی از منحصر به فردترین قابلیت هایی است که توسط مدل های زمینه طولانی باز شده است. تحقیقات نشان داده است که استفاده از پارادایم نمونه رایج «تک شات» یا «چند شات»، که در آن مدل با یک یا چند نمونه از یک کار ارائه می‌شود، و مقیاس‌بندی آن تا صدها، هزاران یا حتی صدها هزار نمونه، می‌تواند به قابلیت‌های مدل جدید منجر شود. همچنین نشان داده شده است که این رویکرد چندین شات مشابه مدل هایی است که برای یک کار خاص تنظیم شده اند. برای موارد استفاده که عملکرد مدل جمینی هنوز برای عرضه کافی نیست، می‌توانید رویکرد چند شات را امتحان کنید. همانطور که ممکن است بعداً در بخش بهینه‌سازی متن طولانی بررسی کنید، ذخیره‌سازی متن باعث می‌شود که این نوع حجم کار توکن ورودی بالا از نظر اقتصادی امکان‌پذیرتر باشد و حتی در برخی موارد تاخیر کمتری داشته باشد.

ویدیوی طولانی

ابزار محتوای ویدیویی مدت هاست که به دلیل عدم دسترسی به خود رسانه محدود شده است. مرور محتوا سخت بود، رونوشت‌ها اغلب نمی‌توانستند جزئیات یک ویدیو را به تصویر بکشند، و اکثر ابزارها تصویر، متن و صدا را با هم پردازش نمی‌کنند. با Gemini، قابلیت‌های متن طولانی به توانایی استدلال و پاسخ به سؤالات در مورد ورودی‌های چندوجهی با عملکرد پایدار تبدیل می‌شود.

برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه طولانی ویدیو عبارتند از:

  • پرسش و پاسخ تصویری
  • حافظه ویدیویی، همانطور که با پروژه Astra گوگل نشان داده شده است
  • زیرنویس ویدیو
  • سیستم‌های توصیه ویدیویی، با غنی‌سازی ابرداده‌های موجود با درک چندوجهی جدید
  • سفارشی‌سازی ویدیو، با مشاهده مجموعه‌ای از داده‌ها و فراداده‌های ویدیویی مرتبط و سپس حذف بخش‌هایی از ویدیوها که به بیننده مربوط نیستند.
  • تعدیل محتوای ویدیویی
  • پردازش ویدئو در زمان واقعی

هنگام کار با ویدیوها، مهم است که نحوه پردازش ویدیوها به توکن‌ها را در نظر بگیرید که بر روی صورت‌حساب و محدودیت‌های استفاده تأثیر می‌گذارد. می‌توانید درباره درخواست با فایل‌های ویدیویی در راهنمای درخواست اطلاعات بیشتری کسب کنید.

صوت فرم بلند

مدل‌های Gemini اولین مدل‌های زبان بزرگ چندوجهی بومی بودند که می‌توانستند صدا را بفهمند. از لحاظ تاریخی، گردش کار توسعه‌دهنده معمولی شامل رشته‌بندی چندین مدل خاص دامنه، مانند مدل گفتار به متن و مدل متن به متن، به منظور پردازش صدا است. این منجر به تأخیر اضافی مورد نیاز با انجام چندین درخواست رفت و برگشت و کاهش عملکرد می‌شود که معمولاً به معماری‌های جداشده از راه‌اندازی مدل چندگانه نسبت داده می‌شود.

برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه صوتی عبارتند از:

  • رونویسی و ترجمه در زمان واقعی
  • پرسش و پاسخ پادکست / ویدئویی
  • رونویسی و جمع بندی جلسه
  • دستیارهای صوتی

می‌توانید درباره درخواست با فایل‌های صوتی در راهنمای درخواست اطلاعات بیشتری کسب کنید.

بهینه سازی زمینه طولانی

بهینه سازی اولیه هنگام کار با زمینه طولانی و مدل های Gemini، استفاده از کش زمینه است. فراتر از عدم امکان قبلی پردازش تعداد زیادی توکن در یک درخواست، محدودیت اصلی دیگر هزینه بود. اگر یک برنامه «چت با داده‌های خود» دارید که در آن کاربر 10 فایل PDF، یک ویدیو و برخی اسناد کاری را آپلود می‌کند، از لحاظ تاریخی باید با ابزار / چارچوب بازیابی پیچیده‌تر (RAG) کار کنید تا این درخواست‌ها را پردازش کنید و مبلغ قابل‌توجهی برای توکن‌های منتقل شده به پنجره زمینه بپردازید. اکنون می‌توانید فایل‌هایی را که کاربر آپلود می‌کند، کش کنید و برای ذخیره آن‌ها به صورت ساعتی هزینه پرداخت کنید. هزینه ورودی/خروجی به ازای هر درخواست برای مثال با Gemini Flash 4 برابر کمتر از هزینه ورودی/خروجی استاندارد است، بنابراین اگر کاربر به اندازه کافی با داده های خود چت کند، صرفه جویی زیادی در هزینه برای شما به عنوان توسعه دهنده خواهد شد.

محدودیت های زمینه طولانی

در بخش‌های مختلف این راهنما، ما در مورد چگونگی دستیابی مدل‌های Gemini به عملکرد بالا در ارزیابی‌های مختلف بازیابی سوزن در انبار کاه صحبت کردیم. این تست‌ها ابتدایی‌ترین راه‌اندازی را در نظر می‌گیرند، جایی که شما یک سوزن تنها دارید که به دنبال آن هستید. در مواردی که ممکن است چندین "سوزن" یا اطلاعات خاصی داشته باشید که به دنبال آن هستید، مدل با دقت یکسانی کار نمی کند. عملکرد می تواند تا حد زیادی بسته به زمینه متفاوت باشد. این مهم است که در نظر گرفته شود زیرا یک مبادله ذاتی بین بازیابی اطلاعات صحیح و هزینه وجود دارد. شما می توانید 99٪ در یک پرس و جو دریافت کنید، اما باید هزینه رمز ورودی را هر بار که آن درخواست را ارسال می کنید بپردازید. بنابراین برای بازیابی 100 قطعه اطلاعات، اگر به عملکرد 99 درصد نیاز داشتید، احتمالاً باید 100 درخواست ارسال کنید. این مثال خوبی از جایی است که ذخیره‌سازی متن می‌تواند هزینه‌های مرتبط با استفاده از مدل‌های Gemini را به میزان قابل توجهی کاهش دهد و در عین حال عملکرد بالا را حفظ کند.

سوالات متداول

بهترین مکان برای قرار دادن پرس و جو در پنجره زمینه کجاست؟

در بیشتر موارد، به خصوص اگر متن کل طولانی باشد، اگر پرس و جو/سوال خود را در انتهای اعلان قرار دهید (بعد از همه زمینه های دیگر) عملکرد مدل بهتر خواهد بود.

آیا وقتی توکن های بیشتری به یک کوئری اضافه می کنم عملکرد مدل را از دست می دهم؟

به طور کلی، اگر نیازی به ارسال توکن به مدل ندارید، بهتر است از ارسال آنها خودداری کنید. با این حال، اگر تعداد زیادی توکن با برخی اطلاعات دارید و می خواهید در مورد آن اطلاعات سؤال بپرسید، مدل توانایی بالایی در استخراج آن اطلاعات دارد (در بسیاری از موارد تا 99 درصد دقت).

چگونه می توانم هزینه خود را با پرس و جوهای طولانی مدت کاهش دهم؟

اگر مجموعه مشابهی از نشانه‌ها / زمینه دارید که می‌خواهید بارها از آن استفاده کنید، ذخیره‌سازی متن می‌تواند به کاهش هزینه‌های مربوط به پرسیدن سؤال در مورد آن اطلاعات کمک کند.

آیا طول زمینه بر تأخیر مدل تأثیر می گذارد؟

در هر درخواست معین، صرف نظر از اندازه، مقداری تاخیر ثابت وجود دارد، اما عموماً درخواست‌های طولانی‌تر تأخیر بالاتری خواهند داشت (زمان تا اولین نشانه).