Gemini 1.5 Flash به صورت استاندارد با یک پنجره زمینه 1 میلیون توکن و Gemini 1.5 Pro با یک پنجره زمینه 2 میلیون توکن عرضه می شود. از لحاظ تاریخی، مدلهای زبان بزرگ (LLM) به میزان قابل توجهی توسط مقدار متن (یا نشانههایی) که میتوانستند در یک زمان به مدل منتقل شوند، محدود میشدند. پنجره زمینه طولانی Gemini 1.5، با بازیابی تقریباً کامل (> 99٪) ، بسیاری از موارد استفاده جدید و پارادایم های توسعه دهنده را باز می کند.
کدی که قبلاً برای مواردی مانند تولید متن یا ورودیهای چندوجهی استفاده میکنید، با زمینه طولانی کار نمیکند.
در سراسر این راهنما، به طور خلاصه اصول پنجره زمینه، نحوه تفکر توسعه دهندگان در مورد زمینه طولانی، موارد مختلف استفاده از دنیای واقعی برای زمینه طولانی، و راه هایی برای بهینه سازی استفاده از زمینه طولانی را بررسی می کنید.
پنجره زمینه چیست؟
روش اصلی استفاده از مدلهای Gemini 1.5، انتقال اطلاعات (زمینه) به مدل است که متعاقباً یک پاسخ ایجاد میکند. یک قیاس برای پنجره زمینه، حافظه کوتاه مدت است. اطلاعات محدودی وجود دارد که میتوان در حافظه کوتاهمدت شخص ذخیره کرد و همین امر در مورد مدلهای تولیدی نیز صادق است.
میتوانید در راهنمای مدلهای تولیدی ما درباره نحوه عملکرد مدلها در زیر کاپوت بیشتر بخوانید.
شروع با زمینه طولانی
اکثر مدلهای مولد ایجاد شده در چند سال گذشته تنها قادر به پردازش 8000 توکن در یک زمان بودند. مدل های جدیدتر با پذیرش 32000 توکن یا 128000 توکن این امر را بیشتر پیش بردند. Gemini 1.5 اولین مدلی است که قادر به پذیرش 1 میلیون توکن است و اکنون 2 میلیون توکن با Gemini 1.5 Pro است .
در عمل، 1 میلیون توکن به صورت زیر است:
- 50000 خط کد (با 80 کاراکتر استاندارد در هر خط)
- تمام پیامک هایی که در 5 سال گذشته ارسال کرده اید
- 8 رمان انگلیسی متوسط
- رونوشت بیش از 200 قسمت پادکست با طول متوسط
اگرچه مدلها میتوانند در زمینههای بیشتر و بیشتری قرار بگیرند، بسیاری از خرد متعارف در مورد استفاده از مدلهای زبانی بزرگ، این محدودیت ذاتی را در مدل فرض میکند، که از سال 2024، دیگر چنین نیست.
برخی از استراتژی های رایج برای مدیریت محدودیت پنجره های زمینه کوچک عبارتند از:
- حذف خودسرانه پیام ها / متن های قدیمی از پنجره زمینه با ورود متن جدید
- خلاصه کردن مطالب قبلی و جایگزینی آن با خلاصه زمانی که پنجره زمینه به پر شدن نزدیک می شود
- استفاده از RAG با جستجوی معنایی برای انتقال داده ها از پنجره زمینه و به یک پایگاه داده برداری
- استفاده از فیلترهای قطعی یا مولد برای حذف متن / کاراکترهای خاص از دستورات برای ذخیره نشانه ها
در حالی که بسیاری از این موارد هنوز در موارد خاص مرتبط هستند، مکان پیشفرض برای شروع اکنون فقط قرار دادن همه نشانهها در پنجره زمینه است. از آنجایی که مدلهای Gemini 1.5 با یک پنجره زمینه طولانی ساخته شدهاند، توانایی یادگیری درون متنی بسیار بیشتری دارند. به عنوان مثال، تنها با مواد آموزشی (یک دستور زبان مرجع 500 صفحه، یک فرهنگ لغت، و ≈ 400 جمله موازی اضافی) که همه در متن ارائه شده است، Gemini 1.5 Pro و Gemini 1.5 Flash قادر به یادگیری ترجمه از انگلیسی به کالامنگ - یک پاپوآیی هستند. زبانی با کمتر از 200 سخنران و در نتیجه تقریباً بدون حضور آنلاین - با کیفیتی مشابه افرادی که از مطالب مشابه یاد گرفته اند.
این مثال نشان میدهد که چگونه میتوانید در مورد آنچه که با زمینه طولانی و قابلیتهای یادگیری درون متنی Gemini 1.5 ممکن است فکر کنید.
موارد استفاده طولانی مدت
در حالی که مورد استفاده استاندارد برای اکثر مدلهای تولیدی همچنان ورودی متن است، خانواده مدل Gemini 1.5 الگوی جدیدی از موارد استفاده چندوجهی را امکانپذیر میسازد. این مدل ها می توانند متن، ویدئو، صدا و تصاویر را به صورت بومی درک کنند. آنها با Gemini API همراه هستند که انواع فایل های چندوجهی را برای راحتی می پذیرد .
متن فرم بلند
ثابت شده است که متن لایهای از هوش است که پشتوانه بسیاری از شتاب پیرامون LLM است. همانطور که قبلا ذکر شد، بسیاری از محدودیت های عملی LLM به دلیل نداشتن یک پنجره زمینه به اندازه کافی بزرگ برای انجام وظایف خاص بود. این منجر به پذیرش سریع تولید افزوده بازیابی (RAG) و سایر تکنیکهایی شد که به صورت پویا اطلاعات متنی مرتبط را به مدل ارائه میدهند. اکنون، با پنجرههای زمینه بزرگتر و بزرگتر (در حال حاضر تا 2 میلیون در Gemini 1.5 Pro)، تکنیکهای جدیدی در دسترس هستند که موارد استفاده جدید را باز میکنند.
برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه طولانی مبتنی بر متن عبارتند از:
- خلاصه کردن مجموعه های بزرگ متن
- گزینههای خلاصهسازی قبلی با مدلهای زمینه کوچکتر به یک پنجره کشویی یا تکنیک دیگری برای حفظ وضعیت بخشهای قبلی با ارسال نشانههای جدید به مدل نیاز دارند.
- پرسش و پاسخ
- از نظر تاریخی، این تنها با RAG امکان پذیر بود، زیرا مقدار محدودی از زمینه و یادآوری واقعی مدل ها کم بود
- گردش کار نمایندگی
- متن زیربنای این است که چگونه عوامل وضعیت آنچه انجام داده اند و آنچه باید انجام دهند را حفظ می کنند. نداشتن اطلاعات کافی در مورد جهان و هدف عامل، محدودیت در قابلیت اطمینان عوامل است
یادگیری درون متنی چند شات یکی از منحصر به فردترین قابلیت هایی است که توسط مدل های زمینه طولانی باز شده است. تحقیقات نشان داده است که استفاده از الگوی رایج «تک شات» یا «چند شات»، که در آن مدل با یک یا چند نمونه از یک کار ارائه میشود، و مقیاس آن تا صدها، هزاران یا حتی صدها هزار نمونه ها، می توانند به قابلیت های مدل جدید منجر شوند. همچنین نشان داده شده است که این رویکرد چندین شات مشابه مدل هایی است که برای یک کار خاص تنظیم شده اند. برای موارد استفاده که عملکرد مدل جمینی هنوز برای عرضه کافی نیست، میتوانید رویکرد چند شات را امتحان کنید. همانطور که ممکن است بعداً در بخش بهینهسازی متن طولانی بررسی کنید، ذخیرهسازی متن باعث میشود که این نوع حجم کار توکن ورودی بالا از نظر اقتصادی امکانپذیرتر باشد و حتی در برخی موارد تاخیر کمتری داشته باشد.
ویدیوی طولانی
ابزار محتوای ویدیویی مدت هاست که به دلیل عدم دسترسی به خود رسانه محدود شده است. مرور محتوا سخت بود، رونوشتها اغلب نمیتوانستند جزئیات یک ویدیو را به تصویر بکشند، و اکثر ابزارها تصویر، متن و صدا را با هم پردازش نمیکنند. با Gemini 1.5، قابلیتهای متن طولانی به توانایی استدلال و پاسخ به سؤالات در مورد ورودیهای چندوجهی با عملکرد پایدار تبدیل میشود. فلش Gemini 1.5، هنگامی که در یک مشکل انبار کاه ویدیویی با توکن های 1M روی سوزن آزمایش شد، بیش از 99.8% از ویدیو را در پنجره زمینه به خاطر آورد و 1.5 Pro به بهترین عملکرد در معیار Video-MME رسید.
برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه طولانی ویدیو عبارتند از:
- پرسش و پاسخ تصویری
- حافظه ویدیویی، همانطور که با پروژه Astra گوگل نشان داده شده است
- زیرنویس ویدیو
- سیستمهای توصیه ویدیویی، با غنیسازی ابردادههای موجود با درک چندوجهی جدید
- سفارشیسازی ویدیو، با مشاهده مجموعهای از دادهها و فرادادههای ویدیویی مرتبط و سپس حذف بخشهایی از ویدیوها که به بیننده مربوط نیستند.
- تعدیل محتوای ویدیویی
- پردازش ویدئو در زمان واقعی
هنگام کار با ویدیوها، مهم است که نحوه پردازش ویدیوها به توکنها را در نظر بگیرید که بر روی صورتحساب و محدودیتهای استفاده تأثیر میگذارد. میتوانید درباره درخواست با فایلهای ویدیویی در راهنمای درخواست اطلاعات بیشتری کسب کنید.
صوت فرم بلند
مدلهای Gemini 1.5 اولین مدلهای زبان بزرگ چندوجهی بومی بودند که میتوانستند صدا را بفهمند. از لحاظ تاریخی، گردش کار توسعهدهنده معمولی شامل رشتهبندی چندین مدل خاص دامنه، مانند مدل گفتار به متن و مدل متن به متن، به منظور پردازش صدا است. این منجر به تأخیر اضافی مورد نیاز با انجام چندین درخواست رفت و برگشت و کاهش عملکرد میشود که معمولاً به معماریهای جداشده از راهاندازی مدل چندگانه نسبت داده میشود.
در ارزیابیهای استاندارد صوت کاه، Gemini 1.5 Pro قادر است صدای مخفی را در 100٪ تستها پیدا کند و Gemini 1.5 Flash میتواند آن را در 98.7٪ از تستها پیدا کند. فلش Gemini 1.5 حداکثر 9.5 ساعت صدا را در یک درخواست می پذیرد و Gemini 1.5 Pro می تواند تا 19 ساعت صدا را با استفاده از پنجره زمینه 2 میلیون توکن بپذیرد. علاوه بر این، در یک مجموعه آزمایشی از کلیپهای صوتی 15 دقیقهای، Gemini 1.5 Pro نرخ خطای کلمه (WER) ~5.5% را بایگانی میکند، بسیار کمتر از حتی مدلهای تخصصی گفتار به نوشتار، بدون پیچیدگی اضافی تقسیمبندی ورودی و اضافی. پیش پردازش
برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه صوتی عبارتند از:
- رونویسی و ترجمه در زمان واقعی
- پرسش و پاسخ پادکست / ویدئویی
- رونویسی و جمع بندی جلسه
- دستیارهای صوتی
میتوانید درباره درخواست با فایلهای صوتی در راهنمای درخواست اطلاعات بیشتری کسب کنید.
بهینه سازی زمینه طولانی
بهینه سازی اولیه هنگام کار با زمینه طولانی و مدل های Gemini 1.5 استفاده از کش زمینه است. فراتر از عدم امکان قبلی پردازش تعداد زیادی توکن در یک درخواست، محدودیت اصلی دیگر هزینه بود. اگر یک برنامه «چت با دادههای خود» دارید که در آن کاربر 10 فایل PDF، یک ویدیو و برخی اسناد کاری را آپلود میکند، از نظر تاریخی باید با یک ابزار / چارچوب بازیابی پیچیدهتر نسل افزوده (RAG) کار کنید تا این موارد را پردازش کنید. درخواست می کند و مبلغ قابل توجهی را برای توکن های منتقل شده به پنجره زمینه پرداخت می کند. اکنون میتوانید فایلهایی را که کاربر آپلود میکند، کش کنید و برای ذخیره آنها به صورت ساعتی هزینه پرداخت کنید. هزینه ورودی/خروجی هر درخواست برای مثال با Gemini 1.5 Flash 4 برابر کمتر از هزینه ورودی/خروجی استاندارد است، بنابراین اگر کاربر به اندازه کافی با داده های خود چت کند، صرفه جویی زیادی در هزینه برای شما به عنوان توسعه دهنده خواهد شد.
محدودیت های زمینه طولانی
در بخشهای مختلف این راهنما، ما در مورد چگونگی دستیابی مدلهای Gemini 1.5 به عملکرد بالا در ارزیابیهای مختلف بازیابی سوزن در انبار کاه صحبت کردیم. این تستها ابتداییترین راهاندازی را در نظر میگیرند، جایی که شما یک سوزن تنها دارید که به دنبال آن هستید. در مواردی که ممکن است چندین "سوزن" یا اطلاعات خاصی داشته باشید که به دنبال آن هستید، مدل با دقت یکسانی کار نمی کند. عملکرد می تواند تا حد زیادی بسته به زمینه متفاوت باشد. این مهم است که در نظر گرفته شود زیرا یک مبادله ذاتی بین بازیابی اطلاعات صحیح و هزینه وجود دارد. شما می توانید 99٪ در یک پرس و جو دریافت کنید، اما هر بار که آن درخواست را ارسال می کنید باید هزینه رمز ورودی را بپردازید. بنابراین برای بازیابی 100 قطعه اطلاعات، اگر به عملکرد 99 درصد نیاز داشتید، احتمالاً باید 100 درخواست ارسال کنید. این مثال خوبی از جایی است که ذخیرهسازی متن میتواند هزینههای مرتبط با استفاده از مدلهای Gemini را به میزان قابل توجهی کاهش دهد و در عین حال عملکرد بالا را حفظ کند.
سوالات متداول
آیا وقتی توکن های بیشتری به یک کوئری اضافه می کنم، عملکرد مدل را از دست می دهم؟
به طور کلی، اگر نیازی به ارسال توکن به مدل ندارید، بهتر است از ارسال آنها خودداری کنید. با این حال، اگر تعداد زیادی توکن با برخی اطلاعات دارید و می خواهید در مورد آن اطلاعات سؤال بپرسید، مدل توانایی بالایی در استخراج آن اطلاعات دارد (در بسیاری از موارد تا 99 درصد دقت).
Gemini 1.5 Pro در تست استاندارد سوزن در انبار کاه چگونه عمل می کند؟
Gemini 1.5 Pro به 100٪ فراخوانی تا 530 هزار توکن و بیش از 99.7٪ فراخوانی تا 1 میلیون توکن دست می یابد.
چگونه می توانم هزینه خود را با پرس و جوهای طولانی مدت کاهش دهم؟
اگر مجموعه مشابهی از نشانهها / زمینه دارید که میخواهید بارها از آن استفاده کنید، ذخیرهسازی متن میتواند به کاهش هزینههای مربوط به پرسیدن سؤال در مورد آن اطلاعات کمک کند.
چگونه می توانم به پنجره زمینه 2 میلیون توکن دسترسی پیدا کنم؟
همه توسعه دهندگان اکنون با Gemini 1.5 Pro به پنجره زمینه 2 میلیون توکن دسترسی دارند.
آیا طول زمینه بر تأخیر مدل تأثیر می گذارد؟
در هر درخواست معین، صرف نظر از اندازه، مقداری تاخیر ثابت وجود دارد، اما عموماً درخواستهای طولانیتر تأخیر بالاتری خواهند داشت (زمان تا اولین نشانه).
آیا قابلیتهای زمینه طولانی بین Gemini 1.5 Flash و Gemini 1.5 Pro متفاوت است؟
بله، برخی از اعداد در بخش های مختلف این راهنما ذکر شده است، اما به طور کلی Gemini 1.5 Pro در اکثر موارد استفاده طولانی مدت عملکرد بیشتری دارد.