Gemini Deep Research اکنون به صورت پیش‌نمایش با برنامه‌ریزی مشارکتی، تجسم، پشتیبانی MCP و موارد دیگر در دسترس است.

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

زمینه طولانی

بسیاری از مدل‌های Gemini با پنجره‌های متنی بزرگی با ۱ میلیون یا بیشتر توکن ارائه می‌شوند. از نظر تاریخی، مدل‌های زبانی بزرگ (LLM) به طور قابل توجهی توسط مقدار متن (یا توکن‌هایی) که می‌توانستند در یک زمان به مدل منتقل شوند، محدود می‌شدند. پنجره متنی طولانی Gemini بسیاری از موارد استفاده جدید و الگوهای توسعه‌دهنده را باز می‌کند.

کدی که قبلاً برای مواردی مانند تولید متن یا ورودی‌های چندوجهی استفاده می‌کردید، بدون هیچ تغییری با متن طولانی کار خواهد کرد.

این سند به شما مروری کلی از آنچه می‌توانید با استفاده از مدل‌هایی با پنجره‌های زمینه‌ای با ۱ میلیون توکن و بیشتر به دست آورید، ارائه می‌دهد. این صفحه، مروری مختصر بر یک پنجره زمینه‌ای ارائه می‌دهد و بررسی می‌کند که توسعه‌دهندگان چگونه باید در مورد زمینه طولانی، موارد استفاده مختلف در دنیای واقعی برای زمینه طولانی و راه‌های بهینه‌سازی استفاده از زمینه طولانی فکر کنند.

برای اندازه‌های پنجره زمینه مدل‌های خاص، به صفحه مدل‌ها مراجعه کنید.

پنجره زمینه چیست؟

روش اصلی استفاده از مدل‌های Gemini، ارسال اطلاعات (زمینه) به مدل است که متعاقباً پاسخی تولید می‌کند. می‌توان پنجره زمینه را با حافظه کوتاه مدت مقایسه کرد. مقدار محدودی از اطلاعات می‌تواند در حافظه کوتاه مدت یک فرد ذخیره شود و همین امر در مورد مدل‌های مولد نیز صادق است.

می‌توانید اطلاعات بیشتری در مورد نحوه‌ی عملکرد مدل‌ها در زیر کاپوت را در راهنمای مدل‌های مولد ما بخوانید.

شروع کار با متن طولانی

نسخه‌های اولیه مدل‌های مولد تنها قادر به پردازش ۸۰۰۰ توکن در یک زمان بودند. مدل‌های جدیدتر با پذیرش ۳۲۰۰۰ یا حتی ۱۲۸۰۰۰ توکن، این محدودیت را بیشتر کرده‌اند. Gemini اولین مدلی است که قادر به پذیرش ۱ میلیون توکن است.

در عمل، ۱ میلیون توکن به شکل زیر خواهد بود:

۵۰،۰۰۰ خط کد (با استاندارد ۸۰ کاراکتر در هر خط)
تمام پیامک‌هایی که در ۵ سال گذشته ارسال کرده‌اید
۸ رمان انگلیسی با حجم متوسط
متن بیش از ۲۰۰ قسمت پادکست با طول متوسط

پنجره‌های زمینه‌ای محدودتر که در بسیاری از مدل‌های دیگر رایج هستند، اغلب به استراتژی‌هایی مانند حذف دلخواه پیام‌های قدیمی، خلاصه‌سازی محتوا، استفاده از RAG با پایگاه‌های داده برداری یا فیلتر کردن اعلان‌ها برای ذخیره توکن‌ها نیاز دارند.

اگرچه این تکنیک‌ها در سناریوهای خاص ارزشمند باقی می‌مانند، اما پنجره زمینه گسترده Gemini رویکرد مستقیم‌تری را می‌طلبد: ارائه تمام اطلاعات مرتبط از قبل. از آنجا که مدل‌های Gemini با قابلیت‌های زمینه‌ای گسترده و هدفمند ساخته شده‌اند، یادگیری قدرتمندی را در زمینه ارائه می‌دهند. به عنوان مثال، Gemini تنها با استفاده از مطالب آموزشی در زمینه (یک دستور زبان مرجع ۵۰۰ صفحه‌ای، یک فرهنگ لغت و تقریباً ۴۰۰ جمله موازی)، یاد گرفت که از انگلیسی به Kalamang - یک زبان پاپوآیی با کمتر از ۲۰۰ گوینده - با کیفیتی مشابه یک زبان‌آموز انسانی با استفاده از همان مطالب ترجمه کند . این نشان دهنده تغییر الگو است که توسط زمینه طولانی Gemini امکان‌پذیر شده است و از طریق یادگیری قوی در زمینه، امکانات جدیدی را فراهم می‌کند.

موارد استفاده از متن طولانی

در حالی که مورد استفاده استاندارد برای اکثر مدل‌های مولد هنوز ورودی متن است، خانواده مدل Gemini الگوی جدیدی از موارد استفاده چندوجهی را امکان‌پذیر می‌کند. این مدل‌ها می‌توانند متن، ویدیو، صدا و تصاویر را به صورت بومی درک کنند. آن‌ها با API Gemini همراه هستند که انواع فایل‌های چندوجهی را برای راحتی دریافت می‌کند .

متن طولانی

متن، لایه‌ای از هوش است که زیربنای بخش زیادی از حرکت پیرامون LLMها را تشکیل می‌دهد. همانطور که قبلاً ذکر شد، بخش زیادی از محدودیت‌های عملی LLMها به دلیل نداشتن پنجره زمینه‌ای به اندازه کافی بزرگ برای انجام وظایف خاص بود. این امر منجر به پذیرش سریع تولید افزوده بازیابی (RAG) و سایر تکنیک‌هایی شد که به صورت پویا اطلاعات زمینه‌ای مرتبط را در اختیار مدل قرار می‌دهند. اکنون، با پنجره‌های زمینه‌ای بزرگتر و بزرگتر، تکنیک‌های جدیدی در دسترس قرار می‌گیرند که موارد استفاده جدیدی را آشکار می‌کنند.

برخی از موارد استفاده نوظهور و استاندارد برای متن طولانی مبتنی بر متن عبارتند از:

خلاصه‌سازی حجم زیادی از متن
- گزینه‌های خلاصه‌سازی قبلی با مدل‌های زمینه‌ای کوچک‌تر، به یک پنجره کشویی یا تکنیک دیگری برای حفظ وضعیت بخش‌های قبلی هنگام ارسال توکن‌های جدید به مدل نیاز داشتند.
پرسش و پاسخ
- از نظر تاریخی، این امر تنها با RAG امکان‌پذیر بود، با توجه به محدودیت زمینه و پایین بودن میزان بازیابی واقعی مدل‌ها.
گردش‌های کاری عامل‌محور
- متن زیربنای چگونگی حفظ وضعیت عامل‌ها از آنچه انجام داده‌اند و آنچه باید انجام دهند است؛ نداشتن اطلاعات کافی در مورد جهان و هدف عامل، محدودیتی در قابلیت اطمینان عامل‌ها محسوب می‌شود.

یادگیری چندشاره‌ای در متن، یکی از منحصر به فردترین قابلیت‌هایی است که توسط مدل‌های متن طولانی ارائه می‌شود. تحقیقات نشان داده است که استفاده از الگوی رایج مثال «تک‌شاره‌ای» یا «چندشاره‌ای»، که در آن مدل با یک یا چند نمونه از یک کار ارائه می‌شود، و افزایش آن به صدها، هزاران یا حتی صدها هزار نمونه، می‌تواند به قابلیت‌های جدید مدل منجر شود. همچنین نشان داده شده است که این رویکرد چندشاره‌ای، عملکردی مشابه مدل‌هایی دارد که برای یک کار خاص تنظیم شده‌اند. برای مواردی که عملکرد یک مدل Gemini هنوز برای عرضه در مرحله تولید کافی نیست، می‌توانید رویکرد چندشاره‌ای را امتحان کنید. همانطور که ممکن است بعداً در بخش بهینه‌سازی متن طولانی بررسی کنید، ذخیره‌سازی متن، این نوع حجم کار توکن ورودی بالا را از نظر اقتصادی بسیار مقرون به صرفه‌تر و حتی در برخی موارد تأخیر را کاهش می‌دهد.

ویدیوی طولانی

مدت‌هاست که کاربرد محتوای ویدیویی به دلیل عدم دسترسی به خود رسانه محدود شده است. مرور سریع محتوا دشوار بود، متن‌ها اغلب در ثبت ظرافت‌های یک ویدیو ناموفق بودند و اکثر ابزارها تصویر، متن و صدا را با هم پردازش نمی‌کنند. با Gemini، قابلیت‌های متن طولانی به توانایی استدلال و پاسخ به سؤالات مربوط به ورودی‌های چندوجهی با عملکرد پایدار تبدیل می‌شود.

برخی از موارد استفاده نوظهور و استاندارد برای محتوای ویدیویی طولانی عبارتند از:

پرسش و پاسخ تصویری
حافظه ویدیویی، همانطور که در پروژه آسترا گوگل نشان داده شده است
زیرنویس ویدیو
سیستم‌های توصیه‌گر ویدیویی، با غنی‌سازی فراداده‌های موجود با درک چندوجهی جدید
سفارشی‌سازی ویدیو، با بررسی مجموعه‌ای از داده‌ها و فراداده‌های ویدیویی مرتبط و سپس حذف بخش‌هایی از ویدیو که برای بیننده مرتبط نیستند
نظارت بر محتوای ویدیو
پردازش ویدئو در زمان واقعی

هنگام کار با ویدیوها، توجه به نحوه پردازش ویدیوها به توکن‌ها که بر صورتحساب و محدودیت‌های استفاده تأثیر می‌گذارد، مهم است. می‌توانید در راهنمای Prompting درباره اعلان با فایل‌های ویدیویی اطلاعات بیشتری کسب کنید.

فایل صوتی طولانی

مدل‌های Gemini اولین مدل‌های زبان بزرگ چندوجهی بومی بودند که می‌توانستند صدا را درک کنند. از نظر تاریخی، گردش کار معمول توسعه‌دهندگان شامل اتصال چندین مدل خاص دامنه، مانند مدل تبدیل گفتار به متن و مدل تبدیل متن به متن، برای پردازش صدا بود. این امر منجر به تأخیر اضافی مورد نیاز با انجام چندین درخواست رفت و برگشت و کاهش عملکرد شد که معمولاً به معماری‌های غیرمرتبط تنظیمات مدل چندگانه نسبت داده می‌شود.

برخی از موارد استفاده نوظهور و استاندارد برای زمینه صوتی عبارتند از:

رونویسی و ترجمه همزمان
پادکست/ویدیوی پرسش و پاسخ
پیاده سازی و خلاصه سازی جلسات
دستیارهای صوتی

می‌توانید در راهنمای Prompting (راهنمای دستورالعمل) دربارهٔ راهنمایی با فایل‌های صوتی بیشتر بیاموزید.

بهینه‌سازی‌های متن طولانی

بهینه‌سازی اصلی هنگام کار با متن طولانی و مدل‌های Gemini، استفاده از ذخیره‌سازی متن است. گذشته از عدم امکان قبلی پردازش تعداد زیادی توکن در یک درخواست واحد، محدودیت اصلی دیگر هزینه بود. اگر یک برنامه "چت با داده‌های خود" دارید که در آن کاربر 10 فایل PDF، یک ویدیو و برخی اسناد کاری را آپلود می‌کند، از نظر تاریخی باید با یک ابزار/چارچوب بازیابی پیچیده‌تر (RAG) کار می‌کردید تا این درخواست‌ها را پردازش کنید و مبلغ قابل توجهی را برای توکن‌های منتقل شده به پنجره متن بپردازید. اکنون، می‌توانید فایل‌هایی را که کاربر آپلود می‌کند، ذخیره کنید و برای ذخیره آنها به صورت ساعتی هزینه کنید. به عنوان مثال، هزینه ورودی/خروجی برای هر درخواست با Gemini Flash تقریباً 4 برابر کمتر از هزینه ورودی/خروجی استاندارد است، بنابراین اگر کاربر به اندازه کافی با داده‌های خود چت کند، برای شما به عنوان توسعه‌دهنده صرفه‌جویی زیادی در هزینه می‌شود.

محدودیت‌های متن طولانی

در بخش‌های مختلف این راهنما، در مورد چگونگی دستیابی مدل‌های Gemini به عملکرد بالا در ارزیابی‌های مختلف بازیابی سوزن در انبار کاه صحبت کردیم. این آزمایش‌ها اساسی‌ترین تنظیمات را در نظر می‌گیرند، جایی که شما یک سوزن دارید که به دنبال آن هستید. در مواردی که ممکن است چندین "سوزن" یا قطعات خاصی از اطلاعات را که به دنبال آن هستید، داشته باشید، مدل با همان دقت عمل نمی‌کند. عملکرد می‌تواند بسته به زمینه تا حد زیادی متفاوت باشد. در نظر گرفتن این نکته مهم است زیرا یک بده بستان ذاتی بین دریافت اطلاعات صحیح بازیابی شده و هزینه وجود دارد. شما می‌توانید تقریباً 99٪ را در یک پرس‌وجو دریافت کنید، اما باید هر بار که آن پرس‌وجو را ارسال می‌کنید، هزینه توکن ورودی را بپردازید. بنابراین برای بازیابی 100 قطعه اطلاعات، اگر به 99٪ عملکرد نیاز دارید، احتمالاً باید 100 درخواست ارسال کنید. این مثال خوبی است که نشان می‌دهد ذخیره‌سازی زمینه می‌تواند هزینه مرتبط با استفاده از مدل‌های Gemini را به میزان قابل توجهی کاهش دهد و در عین حال عملکرد را بالا نگه دارد.

سوالات متداول

بهترین مکان برای قرار دادن پرس‌وجو در پنجره‌ی زمینه کجاست؟

در بیشتر موارد، به خصوص اگر کل متن طولانی باشد، اگر پرس و جو/سوال خود را در انتهای اعلان (بعد از سایر متن‌ها) قرار دهید، عملکرد مدل بهتر خواهد بود.

آیا وقتی توکن‌های بیشتری به یک پرس‌وجو اضافه می‌کنم، عملکرد مدل را از دست می‌دهم؟

به‌طورکلی، اگر نیازی به ارسال توکن‌ها به مدل ندارید، بهتر است از ارسال آن‌ها خودداری کنید. با این حال، اگر تعداد زیادی توکن با اطلاعات دارید و می‌خواهید در مورد آن اطلاعات سؤال بپرسید، مدل توانایی بالایی در استخراج آن اطلاعات دارد (در بسیاری از موارد تا ۹۹٪ دقت).

چگونه می‌توانم هزینه خود را با پرس‌وجوهای طولانی مدت کاهش دهم؟

اگر مجموعه مشابهی از توکن‌ها/زمینه‌ها دارید که می‌خواهید بارها از آنها استفاده مجدد کنید، ذخیره‌سازی زمینه می‌تواند به کاهش هزینه‌های مرتبط با پرسیدن سوالات در مورد آن اطلاعات کمک کند.

آیا طول متن بر تأخیر مدل تأثیر می‌گذارد؟

صرف نظر از اندازه، در هر درخواست مشخصی مقدار مشخصی تأخیر وجود دارد، اما عموماً درخواست‌های طولانی‌تر تأخیر (زمان رسیدن به اولین توکن) بیشتری خواهند داشت.