بسیاری از مدلهای Gemini با پنجرههای متنی بزرگی با ۱ میلیون یا بیشتر توکن ارائه میشوند. از نظر تاریخی، مدلهای زبانی بزرگ (LLM) به طور قابل توجهی توسط مقدار متن (یا توکنهایی) که میتوانستند در یک زمان به مدل منتقل شوند، محدود میشدند. پنجره متنی طولانی Gemini بسیاری از موارد استفاده جدید و الگوهای توسعهدهنده را باز میکند.
کدی که قبلاً برای مواردی مانند تولید متن یا ورودیهای چندوجهی استفاده میکردید، بدون هیچ تغییری با متن طولانی کار خواهد کرد.
این سند به شما مروری کلی از آنچه میتوانید با استفاده از مدلهایی با پنجرههای زمینهای با ۱ میلیون توکن و بیشتر به دست آورید، ارائه میدهد. این صفحه، مروری مختصر بر یک پنجره زمینهای ارائه میدهد و بررسی میکند که توسعهدهندگان چگونه باید در مورد زمینه طولانی، موارد استفاده مختلف در دنیای واقعی برای زمینه طولانی و راههای بهینهسازی استفاده از زمینه طولانی فکر کنند.
برای اندازههای پنجره زمینه مدلهای خاص، به صفحه مدلها مراجعه کنید.
پنجره زمینه چیست؟
روش اصلی استفاده از مدلهای Gemini، ارسال اطلاعات (زمینه) به مدل است که متعاقباً پاسخی تولید میکند. میتوان پنجره زمینه را با حافظه کوتاه مدت مقایسه کرد. مقدار محدودی از اطلاعات میتواند در حافظه کوتاه مدت یک فرد ذخیره شود و همین امر در مورد مدلهای مولد نیز صادق است.
میتوانید اطلاعات بیشتری در مورد نحوهی عملکرد مدلها در زیر کاپوت را در راهنمای مدلهای مولد ما بخوانید.
شروع کار با متن طولانی
نسخههای اولیه مدلهای مولد تنها قادر به پردازش ۸۰۰۰ توکن در یک زمان بودند. مدلهای جدیدتر با پذیرش ۳۲۰۰۰ یا حتی ۱۲۸۰۰۰ توکن، این محدودیت را بیشتر کردهاند. Gemini اولین مدلی است که قادر به پذیرش ۱ میلیون توکن است.
در عمل، ۱ میلیون توکن به شکل زیر خواهد بود:
- ۵۰،۰۰۰ خط کد (با استاندارد ۸۰ کاراکتر در هر خط)
- تمام پیامکهایی که در ۵ سال گذشته ارسال کردهاید
- ۸ رمان انگلیسی با حجم متوسط
- متن بیش از ۲۰۰ قسمت پادکست با طول متوسط
پنجرههای زمینهای محدودتر که در بسیاری از مدلهای دیگر رایج هستند، اغلب به استراتژیهایی مانند حذف دلخواه پیامهای قدیمی، خلاصهسازی محتوا، استفاده از RAG با پایگاههای داده برداری یا فیلتر کردن اعلانها برای ذخیره توکنها نیاز دارند.
اگرچه این تکنیکها در سناریوهای خاص ارزشمند باقی میمانند، اما پنجره زمینه گسترده Gemini رویکرد مستقیمتری را میطلبد: ارائه تمام اطلاعات مرتبط از قبل. از آنجا که مدلهای Gemini با قابلیتهای زمینهای گسترده و هدفمند ساخته شدهاند، یادگیری قدرتمندی را در زمینه ارائه میدهند. به عنوان مثال، Gemini تنها با استفاده از مطالب آموزشی در زمینه (یک دستور زبان مرجع ۵۰۰ صفحهای، یک فرهنگ لغت و تقریباً ۴۰۰ جمله موازی)، یاد گرفت که از انگلیسی به Kalamang - یک زبان پاپوآیی با کمتر از ۲۰۰ گوینده - با کیفیتی مشابه یک زبانآموز انسانی با استفاده از همان مطالب ترجمه کند . این نشان دهنده تغییر الگو است که توسط زمینه طولانی Gemini امکانپذیر شده است و از طریق یادگیری قوی در زمینه، امکانات جدیدی را فراهم میکند.
موارد استفاده از متن طولانی
در حالی که مورد استفاده استاندارد برای اکثر مدلهای مولد هنوز ورودی متن است، خانواده مدل Gemini الگوی جدیدی از موارد استفاده چندوجهی را امکانپذیر میکند. این مدلها میتوانند متن، ویدیو، صدا و تصاویر را به صورت بومی درک کنند. آنها با API Gemini همراه هستند که انواع فایلهای چندوجهی را برای راحتی دریافت میکند .
متن طولانی
متن، لایهای از هوش است که زیربنای بخش زیادی از حرکت پیرامون LLMها را تشکیل میدهد. همانطور که قبلاً ذکر شد، بخش زیادی از محدودیتهای عملی LLMها به دلیل نداشتن پنجره زمینهای به اندازه کافی بزرگ برای انجام وظایف خاص بود. این امر منجر به پذیرش سریع تولید افزوده بازیابی (RAG) و سایر تکنیکهایی شد که به صورت پویا اطلاعات زمینهای مرتبط را در اختیار مدل قرار میدهند. اکنون، با پنجرههای زمینهای بزرگتر و بزرگتر، تکنیکهای جدیدی در دسترس قرار میگیرند که موارد استفاده جدیدی را آشکار میکنند.
برخی از موارد استفاده نوظهور و استاندارد برای متن طولانی مبتنی بر متن عبارتند از:
- خلاصهسازی حجم زیادی از متن
- گزینههای خلاصهسازی قبلی با مدلهای زمینهای کوچکتر، به یک پنجره کشویی یا تکنیک دیگری برای حفظ وضعیت بخشهای قبلی هنگام ارسال توکنهای جدید به مدل نیاز داشتند.
- پرسش و پاسخ
- از نظر تاریخی، این امر تنها با RAG امکانپذیر بود، با توجه به محدودیت زمینه و پایین بودن میزان بازیابی واقعی مدلها.
- گردشهای کاری عاملمحور
- متن زیربنای چگونگی حفظ وضعیت عاملها از آنچه انجام دادهاند و آنچه باید انجام دهند است؛ نداشتن اطلاعات کافی در مورد جهان و هدف عامل، محدودیتی در قابلیت اطمینان عاملها محسوب میشود.
یادگیری چندشارهای در متن، یکی از منحصر به فردترین قابلیتهایی است که توسط مدلهای متن طولانی ارائه میشود. تحقیقات نشان داده است که استفاده از الگوی رایج مثال «تکشارهای» یا «چندشارهای»، که در آن مدل با یک یا چند نمونه از یک کار ارائه میشود، و افزایش آن به صدها، هزاران یا حتی صدها هزار نمونه، میتواند به قابلیتهای جدید مدل منجر شود. همچنین نشان داده شده است که این رویکرد چندشارهای، عملکردی مشابه مدلهایی دارد که برای یک کار خاص تنظیم شدهاند. برای مواردی که عملکرد یک مدل Gemini هنوز برای عرضه در مرحله تولید کافی نیست، میتوانید رویکرد چندشارهای را امتحان کنید. همانطور که ممکن است بعداً در بخش بهینهسازی متن طولانی بررسی کنید، ذخیرهسازی متن، این نوع حجم کار توکن ورودی بالا را از نظر اقتصادی بسیار مقرون به صرفهتر و حتی در برخی موارد تأخیر را کاهش میدهد.
ویدیوی طولانی
مدتهاست که کاربرد محتوای ویدیویی به دلیل عدم دسترسی به خود رسانه محدود شده است. مرور سریع محتوا دشوار بود، متنها اغلب در ثبت ظرافتهای یک ویدیو ناموفق بودند و اکثر ابزارها تصویر، متن و صدا را با هم پردازش نمیکنند. با Gemini، قابلیتهای متن طولانی به توانایی استدلال و پاسخ به سؤالات مربوط به ورودیهای چندوجهی با عملکرد پایدار تبدیل میشود.
برخی از موارد استفاده نوظهور و استاندارد برای محتوای ویدیویی طولانی عبارتند از:
- پرسش و پاسخ تصویری
- حافظه ویدیویی، همانطور که در پروژه آسترا گوگل نشان داده شده است
- زیرنویس ویدیو
- سیستمهای توصیهگر ویدیویی، با غنیسازی فرادادههای موجود با درک چندوجهی جدید
- سفارشیسازی ویدیو، با بررسی مجموعهای از دادهها و فرادادههای ویدیویی مرتبط و سپس حذف بخشهایی از ویدیو که برای بیننده مرتبط نیستند
- نظارت بر محتوای ویدیو
- پردازش ویدئو در زمان واقعی
هنگام کار با ویدیوها، توجه به نحوه پردازش ویدیوها به توکنها که بر صورتحساب و محدودیتهای استفاده تأثیر میگذارد، مهم است. میتوانید در راهنمای Prompting درباره اعلان با فایلهای ویدیویی اطلاعات بیشتری کسب کنید.
فایل صوتی طولانی
مدلهای Gemini اولین مدلهای زبان بزرگ چندوجهی بومی بودند که میتوانستند صدا را درک کنند. از نظر تاریخی، گردش کار معمول توسعهدهندگان شامل اتصال چندین مدل خاص دامنه، مانند مدل تبدیل گفتار به متن و مدل تبدیل متن به متن، برای پردازش صدا بود. این امر منجر به تأخیر اضافی مورد نیاز با انجام چندین درخواست رفت و برگشت و کاهش عملکرد شد که معمولاً به معماریهای غیرمرتبط تنظیمات مدل چندگانه نسبت داده میشود.
برخی از موارد استفاده نوظهور و استاندارد برای زمینه صوتی عبارتند از:
- رونویسی و ترجمه همزمان
- پادکست/ویدیوی پرسش و پاسخ
- پیاده سازی و خلاصه سازی جلسات
- دستیارهای صوتی
میتوانید در راهنمای Prompting (راهنمای دستورالعمل) دربارهٔ راهنمایی با فایلهای صوتی بیشتر بیاموزید.
بهینهسازیهای متن طولانی
بهینهسازی اصلی هنگام کار با متن طولانی و مدلهای Gemini، استفاده از ذخیرهسازی متن است. گذشته از عدم امکان قبلی پردازش تعداد زیادی توکن در یک درخواست واحد، محدودیت اصلی دیگر هزینه بود. اگر یک برنامه "چت با دادههای خود" دارید که در آن کاربر 10 فایل PDF، یک ویدیو و برخی اسناد کاری را آپلود میکند، از نظر تاریخی باید با یک ابزار/چارچوب بازیابی پیچیدهتر (RAG) کار میکردید تا این درخواستها را پردازش کنید و مبلغ قابل توجهی را برای توکنهای منتقل شده به پنجره متن بپردازید. اکنون، میتوانید فایلهایی را که کاربر آپلود میکند، ذخیره کنید و برای ذخیره آنها به صورت ساعتی هزینه کنید. به عنوان مثال، هزینه ورودی/خروجی برای هر درخواست با Gemini Flash تقریباً 4 برابر کمتر از هزینه ورودی/خروجی استاندارد است، بنابراین اگر کاربر به اندازه کافی با دادههای خود چت کند، برای شما به عنوان توسعهدهنده صرفهجویی زیادی در هزینه میشود.
محدودیتهای متن طولانی
در بخشهای مختلف این راهنما، در مورد چگونگی دستیابی مدلهای Gemini به عملکرد بالا در ارزیابیهای مختلف بازیابی سوزن در انبار کاه صحبت کردیم. این آزمایشها اساسیترین تنظیمات را در نظر میگیرند، جایی که شما یک سوزن دارید که به دنبال آن هستید. در مواردی که ممکن است چندین "سوزن" یا قطعات خاصی از اطلاعات را که به دنبال آن هستید، داشته باشید، مدل با همان دقت عمل نمیکند. عملکرد میتواند بسته به زمینه تا حد زیادی متفاوت باشد. در نظر گرفتن این نکته مهم است زیرا یک بده بستان ذاتی بین دریافت اطلاعات صحیح بازیابی شده و هزینه وجود دارد. شما میتوانید تقریباً 99٪ را در یک پرسوجو دریافت کنید، اما باید هر بار که آن پرسوجو را ارسال میکنید، هزینه توکن ورودی را بپردازید. بنابراین برای بازیابی 100 قطعه اطلاعات، اگر به 99٪ عملکرد نیاز دارید، احتمالاً باید 100 درخواست ارسال کنید. این مثال خوبی است که نشان میدهد ذخیرهسازی زمینه میتواند هزینه مرتبط با استفاده از مدلهای Gemini را به میزان قابل توجهی کاهش دهد و در عین حال عملکرد را بالا نگه دارد.
سوالات متداول
بهترین مکان برای قرار دادن پرسوجو در پنجرهی زمینه کجاست؟
در بیشتر موارد، به خصوص اگر کل متن طولانی باشد، اگر پرس و جو/سوال خود را در انتهای اعلان (بعد از سایر متنها) قرار دهید، عملکرد مدل بهتر خواهد بود.
آیا وقتی توکنهای بیشتری به یک پرسوجو اضافه میکنم، عملکرد مدل را از دست میدهم؟
بهطورکلی، اگر نیازی به ارسال توکنها به مدل ندارید، بهتر است از ارسال آنها خودداری کنید. با این حال، اگر تعداد زیادی توکن با اطلاعات دارید و میخواهید در مورد آن اطلاعات سؤال بپرسید، مدل توانایی بالایی در استخراج آن اطلاعات دارد (در بسیاری از موارد تا ۹۹٪ دقت).
چگونه میتوانم هزینه خود را با پرسوجوهای طولانی مدت کاهش دهم؟
اگر مجموعه مشابهی از توکنها/زمینهها دارید که میخواهید بارها از آنها استفاده مجدد کنید، ذخیرهسازی زمینه میتواند به کاهش هزینههای مرتبط با پرسیدن سوالات در مورد آن اطلاعات کمک کند.
آیا طول متن بر تأخیر مدل تأثیر میگذارد؟
صرف نظر از اندازه، در هر درخواست مشخصی مقدار مشخصی تأخیر وجود دارد، اما عموماً درخواستهای طولانیتر تأخیر (زمان رسیدن به اولین توکن) بیشتری خواهند داشت.