زمینه طولانی

Gemini 1.5 Flash به صورت استاندارد با یک پنجره زمینه 1 میلیون توکن و Gemini 1.5 Pro با یک پنجره زمینه 2 میلیون توکن عرضه می شود. از لحاظ تاریخی، مدل‌های زبان بزرگ (LLM) به میزان قابل توجهی توسط مقدار متن (یا نشانه‌هایی) که می‌توانستند در یک زمان به مدل منتقل شوند، محدود می‌شدند. پنجره زمینه طولانی Gemini 1.5، با بازیابی تقریباً کامل (> 99٪) ، بسیاری از موارد استفاده جدید و پارادایم های توسعه دهنده را باز می کند.

کدی که قبلاً برای مواردی مانند تولید متن یا ورودی‌های چندوجهی استفاده می‌کنید، با زمینه طولانی کار نمی‌کند.

در سراسر این راهنما، به طور خلاصه اصول پنجره زمینه، نحوه تفکر توسعه دهندگان در مورد زمینه طولانی، موارد مختلف استفاده از دنیای واقعی برای زمینه طولانی، و راه هایی برای بهینه سازی استفاده از زمینه طولانی را بررسی می کنید.

پنجره زمینه چیست؟

روش اصلی استفاده از مدل‌های Gemini 1.5، انتقال اطلاعات (زمینه) به مدل است که متعاقباً یک پاسخ ایجاد می‌کند. یک قیاس برای پنجره زمینه، حافظه کوتاه مدت است. اطلاعات محدودی وجود دارد که می‌توان در حافظه کوتاه‌مدت شخص ذخیره کرد و همین امر در مورد مدل‌های تولیدی نیز صادق است.

می‌توانید در راهنمای مدل‌های تولیدی ما درباره نحوه عملکرد مدل‌ها در زیر کاپوت بیشتر بخوانید.

شروع با زمینه طولانی

اکثر مدل‌های مولد ایجاد شده در چند سال گذشته تنها قادر به پردازش 8000 توکن در یک زمان بودند. مدل های جدیدتر با پذیرش 32000 توکن یا 128000 توکن این امر را بیشتر پیش بردند. Gemini 1.5 اولین مدلی است که قادر به پذیرش 1 میلیون توکن است و اکنون 2 میلیون توکن با Gemini 1.5 Pro است .

در عمل، 1 میلیون توکن به صورت زیر است:

  • 50000 خط کد (با 80 کاراکتر استاندارد در هر خط)
  • تمام پیامک هایی که در 5 سال گذشته ارسال کرده اید
  • 8 رمان انگلیسی متوسط
  • رونوشت بیش از 200 قسمت پادکست با طول متوسط

اگرچه مدل‌ها می‌توانند در زمینه‌های بیشتر و بیشتری قرار بگیرند، بسیاری از خرد متعارف در مورد استفاده از مدل‌های زبانی بزرگ، این محدودیت ذاتی را در مدل فرض می‌کند، که از سال 2024، دیگر چنین نیست.

برخی از استراتژی های رایج برای مدیریت محدودیت پنجره های زمینه کوچک عبارتند از:

  • حذف خودسرانه پیام ها / متن های قدیمی از پنجره زمینه با ورود متن جدید
  • خلاصه کردن مطالب قبلی و جایگزینی آن با خلاصه زمانی که پنجره زمینه به پر شدن نزدیک می شود
  • استفاده از RAG با جستجوی معنایی برای انتقال داده ها از پنجره زمینه و به یک پایگاه داده برداری
  • استفاده از فیلترهای قطعی یا مولد برای حذف متن / کاراکترهای خاص از دستورات برای ذخیره نشانه ها

در حالی که بسیاری از این موارد هنوز در موارد خاص مرتبط هستند، مکان پیش‌فرض برای شروع اکنون فقط قرار دادن همه نشانه‌ها در پنجره زمینه است. از آنجایی که مدل‌های Gemini 1.5 با یک پنجره زمینه طولانی ساخته شده‌اند، توانایی یادگیری درون متنی بسیار بیشتری دارند. به عنوان مثال، تنها با مواد آموزشی (یک دستور زبان مرجع 500 صفحه، یک فرهنگ لغت، و ≈ 400 جمله موازی اضافی) که همه در متن ارائه شده است، Gemini 1.5 Pro و Gemini 1.5 Flash قادر به یادگیری ترجمه از انگلیسی به کالامنگ - یک پاپوآیی هستند. زبانی با کمتر از 200 سخنران و در نتیجه تقریباً بدون حضور آنلاین - با کیفیتی مشابه افرادی که از مطالب مشابه یاد گرفته اند.

این مثال نشان می‌دهد که چگونه می‌توانید در مورد آنچه که با زمینه طولانی و قابلیت‌های یادگیری درون متنی Gemini 1.5 ممکن است فکر کنید.

موارد استفاده طولانی مدت

در حالی که مورد استفاده استاندارد برای اکثر مدل‌های تولیدی همچنان ورودی متن است، خانواده مدل Gemini 1.5 الگوی جدیدی از موارد استفاده چندوجهی را امکان‌پذیر می‌سازد. این مدل ها می توانند متن، ویدئو، صدا و تصاویر را به صورت بومی درک کنند. آنها با Gemini API همراه هستند که انواع فایل های چندوجهی را برای راحتی می پذیرد .

متن فرم بلند

ثابت شده است که متن لایه‌ای از هوش است که پشتوانه بسیاری از شتاب پیرامون LLM است. همانطور که قبلا ذکر شد، بسیاری از محدودیت های عملی LLM به دلیل نداشتن یک پنجره زمینه به اندازه کافی بزرگ برای انجام وظایف خاص بود. این منجر به پذیرش سریع تولید افزوده بازیابی (RAG) و سایر تکنیک‌هایی شد که به صورت پویا اطلاعات متنی مرتبط را به مدل ارائه می‌دهند. اکنون، با پنجره‌های زمینه بزرگ‌تر و بزرگ‌تر (در حال حاضر تا 2 میلیون در Gemini 1.5 Pro)، تکنیک‌های جدیدی در دسترس هستند که موارد استفاده جدید را باز می‌کنند.

برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه طولانی مبتنی بر متن عبارتند از:

  • خلاصه کردن مجموعه های بزرگ متن
    • گزینه‌های خلاصه‌سازی قبلی با مدل‌های زمینه کوچک‌تر به یک پنجره کشویی یا تکنیک دیگری برای حفظ وضعیت بخش‌های قبلی با ارسال نشانه‌های جدید به مدل نیاز دارند.
  • پرسش و پاسخ
    • از نظر تاریخی، این تنها با RAG امکان پذیر بود، زیرا مقدار محدودی از زمینه و یادآوری واقعی مدل ها کم بود
  • گردش کار نمایندگی
    • متن زیربنای این است که چگونه عوامل وضعیت آنچه انجام داده اند و آنچه باید انجام دهند را حفظ می کنند. نداشتن اطلاعات کافی در مورد جهان و هدف عامل، محدودیت در قابلیت اطمینان عوامل است

یادگیری درون متنی چند شات یکی از منحصر به فردترین قابلیت هایی است که توسط مدل های زمینه طولانی باز شده است. تحقیقات نشان داده است که استفاده از الگوی رایج «تک شات» یا «چند شات»، که در آن مدل با یک یا چند نمونه از یک کار ارائه می‌شود، و مقیاس آن تا صدها، هزاران یا حتی صدها هزار نمونه ها، می توانند به قابلیت های مدل جدید منجر شوند. همچنین نشان داده شده است که این رویکرد چندین شات مشابه مدل هایی است که برای یک کار خاص تنظیم شده اند. برای موارد استفاده که عملکرد مدل جمینی هنوز برای عرضه کافی نیست، می‌توانید رویکرد چند شات را امتحان کنید. همانطور که ممکن است بعداً در بخش بهینه‌سازی متن طولانی بررسی کنید، ذخیره‌سازی متن باعث می‌شود که این نوع حجم کار توکن ورودی بالا از نظر اقتصادی امکان‌پذیرتر باشد و حتی در برخی موارد تاخیر کمتری داشته باشد.

ویدیوی طولانی

ابزار محتوای ویدیویی مدت هاست که به دلیل عدم دسترسی به خود رسانه محدود شده است. مرور محتوا سخت بود، رونوشت‌ها اغلب نمی‌توانستند جزئیات یک ویدیو را به تصویر بکشند، و اکثر ابزارها تصویر، متن و صدا را با هم پردازش نمی‌کنند. با Gemini 1.5، قابلیت‌های متن طولانی به توانایی استدلال و پاسخ به سؤالات در مورد ورودی‌های چندوجهی با عملکرد پایدار تبدیل می‌شود. فلش Gemini 1.5، هنگامی که در یک مشکل انبار کاه ویدیویی با توکن های 1M روی سوزن آزمایش شد، بیش از 99.8% از ویدیو را در پنجره زمینه به خاطر آورد و 1.5 Pro به بهترین عملکرد در معیار Video-MME رسید.

برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه طولانی ویدیو عبارتند از:

  • پرسش و پاسخ تصویری
  • حافظه ویدیویی، همانطور که با پروژه Astra گوگل نشان داده شده است
  • زیرنویس ویدیو
  • سیستم‌های توصیه ویدیویی، با غنی‌سازی ابرداده‌های موجود با درک چندوجهی جدید
  • سفارشی‌سازی ویدیو، با مشاهده مجموعه‌ای از داده‌ها و فراداده‌های ویدیویی مرتبط و سپس حذف بخش‌هایی از ویدیوها که به بیننده مربوط نیستند.
  • تعدیل محتوای ویدیویی
  • پردازش ویدئو در زمان واقعی

هنگام کار با ویدیوها، مهم است که نحوه پردازش ویدیوها به توکن‌ها را در نظر بگیرید که بر روی صورت‌حساب و محدودیت‌های استفاده تأثیر می‌گذارد. می‌توانید درباره درخواست با فایل‌های ویدیویی در راهنمای درخواست اطلاعات بیشتری کسب کنید.

صوت فرم بلند

مدل‌های Gemini 1.5 اولین مدل‌های زبان بزرگ چندوجهی بومی بودند که می‌توانستند صدا را بفهمند. از لحاظ تاریخی، گردش کار توسعه‌دهنده معمولی شامل رشته‌بندی چندین مدل خاص دامنه، مانند مدل گفتار به متن و مدل متن به متن، به منظور پردازش صدا است. این منجر به تأخیر اضافی مورد نیاز با انجام چندین درخواست رفت و برگشت و کاهش عملکرد می‌شود که معمولاً به معماری‌های جداشده از راه‌اندازی مدل چندگانه نسبت داده می‌شود.

در ارزیابی‌های استاندارد صوت کاه، Gemini 1.5 Pro قادر است صدای مخفی را در 100٪ تست‌ها پیدا کند و Gemini 1.5 Flash می‌تواند آن را در 98.7٪ از تست‌ها پیدا کند. فلش Gemini 1.5 حداکثر 9.5 ساعت صدا را در یک درخواست می پذیرد و Gemini 1.5 Pro می تواند تا 19 ساعت صدا را با استفاده از پنجره زمینه 2 میلیون توکن بپذیرد. علاوه بر این، در یک مجموعه آزمایشی از کلیپ‌های صوتی 15 دقیقه‌ای، Gemini 1.5 Pro نرخ خطای کلمه (WER) ~5.5% را بایگانی می‌کند، بسیار کمتر از حتی مدل‌های تخصصی گفتار به نوشتار، بدون پیچیدگی اضافی تقسیم‌بندی ورودی و اضافی. پیش پردازش

برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه صوتی عبارتند از:

  • رونویسی و ترجمه در زمان واقعی
  • پرسش و پاسخ پادکست / ویدئویی
  • رونویسی و جمع بندی جلسه
  • دستیارهای صوتی

می‌توانید درباره درخواست با فایل‌های صوتی در راهنمای درخواست اطلاعات بیشتری کسب کنید.

بهینه سازی زمینه طولانی

بهینه سازی اولیه هنگام کار با زمینه طولانی و مدل های Gemini 1.5 استفاده از کش زمینه است. فراتر از عدم امکان قبلی پردازش تعداد زیادی توکن در یک درخواست، محدودیت اصلی دیگر هزینه بود. اگر یک برنامه «چت با داده‌های خود» دارید که در آن کاربر 10 فایل PDF، یک ویدیو و برخی اسناد کاری را آپلود می‌کند، از نظر تاریخی باید با یک ابزار / چارچوب بازیابی پیچیده‌تر نسل افزوده (RAG) کار کنید تا این موارد را پردازش کنید. درخواست می کند و مبلغ قابل توجهی را برای توکن های منتقل شده به پنجره زمینه پرداخت می کند. اکنون می‌توانید فایل‌هایی را که کاربر آپلود می‌کند، کش کنید و برای ذخیره آن‌ها به صورت ساعتی هزینه پرداخت کنید. هزینه ورودی/خروجی هر درخواست برای مثال با Gemini 1.5 Flash 4 برابر کمتر از هزینه ورودی/خروجی استاندارد است، بنابراین اگر کاربر به اندازه کافی با داده های خود چت کند، صرفه جویی زیادی در هزینه برای شما به عنوان توسعه دهنده خواهد شد.

محدودیت های زمینه طولانی

در بخش‌های مختلف این راهنما، ما در مورد چگونگی دستیابی مدل‌های Gemini 1.5 به عملکرد بالا در ارزیابی‌های مختلف بازیابی سوزن در انبار کاه صحبت کردیم. این تست‌ها ابتدایی‌ترین راه‌اندازی را در نظر می‌گیرند، جایی که شما یک سوزن تنها دارید که به دنبال آن هستید. در مواردی که ممکن است چندین "سوزن" یا اطلاعات خاصی داشته باشید که به دنبال آن هستید، مدل با دقت یکسانی کار نمی کند. عملکرد می تواند تا حد زیادی بسته به زمینه متفاوت باشد. این مهم است که در نظر گرفته شود زیرا یک مبادله ذاتی بین بازیابی اطلاعات صحیح و هزینه وجود دارد. شما می توانید 99٪ در یک پرس و جو دریافت کنید، اما هر بار که آن درخواست را ارسال می کنید باید هزینه رمز ورودی را بپردازید. بنابراین برای بازیابی 100 قطعه اطلاعات، اگر به عملکرد 99 درصد نیاز داشتید، احتمالاً باید 100 درخواست ارسال کنید. این مثال خوبی از جایی است که ذخیره‌سازی متن می‌تواند هزینه‌های مرتبط با استفاده از مدل‌های Gemini را به میزان قابل توجهی کاهش دهد و در عین حال عملکرد بالا را حفظ کند.

سوالات متداول

آیا وقتی توکن های بیشتری به یک کوئری اضافه می کنم عملکرد مدل را از دست می دهم؟

به طور کلی، اگر نیازی به ارسال توکن به مدل ندارید، بهتر است از ارسال آنها خودداری کنید. با این حال، اگر تعداد زیادی توکن با برخی اطلاعات دارید و می خواهید در مورد آن اطلاعات سؤال بپرسید، مدل توانایی بالایی در استخراج آن اطلاعات دارد (در بسیاری از موارد تا 99 درصد دقت).

Gemini 1.5 Pro در تست استاندارد سوزن در انبار کاه چگونه عمل می کند؟

Gemini 1.5 Pro به 100٪ فراخوانی تا 530 هزار توکن و بیش از 99.7٪ فراخوانی تا 1 میلیون توکن دست می یابد.

چگونه می توانم هزینه خود را با پرس و جوهای طولانی مدت کاهش دهم؟

اگر مجموعه مشابهی از نشانه‌ها / زمینه دارید که می‌خواهید بارها از آن استفاده کنید، ذخیره‌سازی متن می‌تواند به کاهش هزینه‌های مربوط به پرسیدن سؤال در مورد آن اطلاعات کمک کند.

چگونه می توانم به پنجره زمینه 2 میلیون توکن دسترسی پیدا کنم؟

همه توسعه دهندگان اکنون با Gemini 1.5 Pro به پنجره زمینه 2 میلیون توکن دسترسی دارند.

آیا طول زمینه بر تأخیر مدل تأثیر می گذارد؟

در هر درخواست معین، صرف نظر از اندازه، مقداری تاخیر ثابت وجود دارد، اما عموماً درخواست‌های طولانی‌تر تأخیر بالاتری خواهند داشت (زمان تا اولین نشانه).

آیا قابلیت‌های زمینه طولانی بین Gemini 1.5 Flash و Gemini 1.5 Pro متفاوت است؟

بله، برخی از اعداد در بخش های مختلف این راهنما ذکر شده است، اما به طور کلی Gemini 1.5 Pro در اکثر موارد استفاده طولانی مدت عملکرد بیشتری دارد.

،

Gemini 1.5 Flash به صورت استاندارد با یک پنجره زمینه 1 میلیون توکن و Gemini 1.5 Pro با یک پنجره زمینه 2 میلیون توکن عرضه می شود. از لحاظ تاریخی، مدل‌های زبان بزرگ (LLM) به میزان قابل توجهی توسط مقدار متن (یا نشانه‌هایی) که می‌توانستند در یک زمان به مدل منتقل شوند، محدود می‌شدند. پنجره زمینه طولانی Gemini 1.5، با بازیابی تقریباً کامل (> 99٪) ، بسیاری از موارد استفاده جدید و پارادایم های توسعه دهنده را باز می کند.

کدی که قبلاً برای مواردی مانند تولید متن یا ورودی‌های چندوجهی استفاده می‌کنید، با زمینه طولانی کار نمی‌کند.

در سراسر این راهنما، به طور خلاصه اصول پنجره زمینه، نحوه تفکر توسعه دهندگان در مورد زمینه طولانی، موارد مختلف استفاده از دنیای واقعی برای زمینه طولانی، و راه هایی برای بهینه سازی استفاده از زمینه طولانی را بررسی می کنید.

پنجره زمینه چیست؟

روش اصلی استفاده از مدل‌های Gemini 1.5، انتقال اطلاعات (زمینه) به مدل است که متعاقباً یک پاسخ ایجاد می‌کند. یک قیاس برای پنجره زمینه، حافظه کوتاه مدت است. اطلاعات محدودی وجود دارد که می‌توان در حافظه کوتاه‌مدت شخص ذخیره کرد و همین امر در مورد مدل‌های تولیدی نیز صادق است.

می‌توانید در راهنمای مدل‌های تولیدی ما درباره نحوه عملکرد مدل‌ها در زیر کاپوت بیشتر بخوانید.

شروع با زمینه طولانی

اکثر مدل‌های مولد ایجاد شده در چند سال گذشته تنها قادر به پردازش 8000 توکن در یک زمان بودند. مدل های جدیدتر با پذیرش 32000 توکن یا 128000 توکن این امر را بیشتر پیش بردند. Gemini 1.5 اولین مدلی است که قادر به پذیرش 1 میلیون توکن است و اکنون 2 میلیون توکن با Gemini 1.5 Pro است .

در عمل، 1 میلیون توکن به صورت زیر است:

  • 50000 خط کد (با 80 کاراکتر استاندارد در هر خط)
  • تمام پیامک هایی که در 5 سال گذشته ارسال کرده اید
  • 8 رمان انگلیسی متوسط
  • رونوشت بیش از 200 قسمت پادکست با طول متوسط

اگرچه مدل‌ها می‌توانند در زمینه‌های بیشتر و بیشتری قرار بگیرند، بسیاری از خرد متعارف در مورد استفاده از مدل‌های زبانی بزرگ، این محدودیت ذاتی را در مدل فرض می‌کند، که از سال 2024، دیگر چنین نیست.

برخی از استراتژی های رایج برای مدیریت محدودیت پنجره های زمینه کوچک عبارتند از:

  • حذف خودسرانه پیام ها / متن های قدیمی از پنجره زمینه با ورود متن جدید
  • خلاصه کردن مطالب قبلی و جایگزینی آن با خلاصه زمانی که پنجره زمینه به پر شدن نزدیک می شود
  • استفاده از RAG با جستجوی معنایی برای انتقال داده ها از پنجره زمینه و به یک پایگاه داده برداری
  • استفاده از فیلترهای قطعی یا مولد برای حذف متن / کاراکترهای خاص از دستورات برای ذخیره نشانه ها

در حالی که بسیاری از این موارد هنوز در موارد خاص مرتبط هستند، مکان پیش‌فرض برای شروع اکنون فقط قرار دادن تمام نشانه‌ها در پنجره زمینه است. از آنجایی که مدل‌های Gemini 1.5 با یک پنجره زمینه طولانی ساخته شده‌اند، توانایی یادگیری درون متنی بسیار بیشتری دارند. به عنوان مثال، تنها با مواد آموزشی (یک دستور زبان مرجع 500 صفحه، یک فرهنگ لغت، و ≈ 400 جمله موازی اضافی) که همه در متن ارائه شده است، Gemini 1.5 Pro و Gemini 1.5 Flash قادر به یادگیری ترجمه از انگلیسی به کالامنگ - یک پاپوآیی هستند. زبانی با کمتر از 200 سخنران و در نتیجه تقریباً بدون حضور آنلاین - با کیفیتی مشابه افرادی که از مطالب مشابه یاد گرفته اند.

این مثال نشان می‌دهد که چگونه می‌توانید در مورد آنچه که با زمینه طولانی و قابلیت‌های یادگیری درون متنی Gemini 1.5 ممکن است فکر کنید.

موارد استفاده طولانی مدت

در حالی که مورد استفاده استاندارد برای اکثر مدل‌های تولیدی همچنان ورودی متن است، خانواده مدل Gemini 1.5 الگوی جدیدی از موارد استفاده چندوجهی را امکان‌پذیر می‌سازد. این مدل ها می توانند متن، ویدئو، صدا و تصاویر را به صورت بومی درک کنند. آنها با Gemini API همراه هستند که انواع فایل های چندوجهی را برای راحتی می پذیرد .

متن فرم بلند

ثابت شده است که متن لایه‌ای از هوش است که پشتوانه بسیاری از شتاب پیرامون LLM است. همانطور که قبلا ذکر شد، بسیاری از محدودیت های عملی LLM به دلیل نداشتن یک پنجره زمینه به اندازه کافی بزرگ برای انجام وظایف خاص بود. این منجر به پذیرش سریع تولید افزوده بازیابی (RAG) و سایر تکنیک‌هایی شد که به صورت پویا اطلاعات متنی مرتبط را به مدل ارائه می‌دهند. اکنون، با پنجره‌های زمینه بزرگ‌تر و بزرگ‌تر (در حال حاضر تا 2 میلیون در Gemini 1.5 Pro)، تکنیک‌های جدیدی در دسترس هستند که موارد استفاده جدید را باز می‌کنند.

برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه طولانی مبتنی بر متن عبارتند از:

  • خلاصه کردن مجموعه های بزرگ متن
    • گزینه‌های خلاصه‌سازی قبلی با مدل‌های زمینه کوچک‌تر به یک پنجره کشویی یا تکنیک دیگری برای حفظ وضعیت بخش‌های قبلی با ارسال نشانه‌های جدید به مدل نیاز دارند.
  • پرسش و پاسخ
    • از نظر تاریخی، این تنها با RAG امکان پذیر بود، زیرا مقدار محدودی از زمینه و یادآوری واقعی مدل ها کم بود
  • گردش کار نمایندگی
    • متن زیربنای این است که چگونه عوامل وضعیت آنچه انجام داده اند و آنچه باید انجام دهند را حفظ می کنند. نداشتن اطلاعات کافی در مورد جهان و هدف عامل، محدودیت در قابلیت اطمینان عوامل است

یادگیری درون متنی چند شات یکی از منحصر به فردترین قابلیت هایی است که توسط مدل های زمینه طولانی باز شده است. تحقیقات نشان داده است که استفاده از الگوی رایج «تک شات» یا «چند شات»، که در آن مدل با یک یا چند نمونه از یک کار ارائه می‌شود، و مقیاس آن تا صدها، هزاران یا حتی صدها هزار نمونه ها، می توانند به قابلیت های مدل جدید منجر شوند. همچنین نشان داده شده است که این رویکرد چندین شات مشابه مدل هایی است که برای یک کار خاص تنظیم شده اند. برای موارد استفاده که عملکرد مدل جمینی هنوز برای عرضه کافی نیست، می‌توانید رویکرد چند شات را امتحان کنید. همانطور که ممکن است بعداً در بخش بهینه‌سازی متن طولانی بررسی کنید، ذخیره‌سازی متن باعث می‌شود که این نوع حجم کار توکن ورودی بالا از نظر اقتصادی امکان‌پذیرتر باشد و حتی در برخی موارد تاخیر کمتری داشته باشد.

ویدیوی طولانی

ابزار محتوای ویدیویی مدت هاست که به دلیل عدم دسترسی به خود رسانه محدود شده است. مرور محتوا سخت بود، رونوشت‌ها اغلب نمی‌توانستند جزئیات یک ویدیو را به تصویر بکشند، و اکثر ابزارها تصویر، متن و صدا را با هم پردازش نمی‌کنند. با Gemini 1.5، قابلیت‌های متن طولانی به توانایی استدلال و پاسخ به سؤالات در مورد ورودی‌های چندوجهی با عملکرد پایدار تبدیل می‌شود. فلش Gemini 1.5، هنگامی که در یک مشکل انبار کاه ویدیویی با توکن های 1M روی سوزن آزمایش شد، بیش از 99.8% از ویدیو را در پنجره زمینه به خاطر آورد و 1.5 Pro به بهترین عملکرد در معیار Video-MME رسید.

برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه طولانی ویدیو عبارتند از:

  • پرسش و پاسخ تصویری
  • حافظه ویدیویی، همانطور که با پروژه Astra گوگل نشان داده شده است
  • زیرنویس ویدیو
  • سیستم‌های توصیه ویدیویی، با غنی‌سازی ابرداده‌های موجود با درک چندوجهی جدید
  • سفارشی‌سازی ویدیو، با مشاهده مجموعه‌ای از داده‌ها و فراداده‌های ویدیویی مرتبط و سپس حذف بخش‌هایی از ویدیوها که به بیننده مربوط نیستند.
  • تعدیل محتوای ویدیویی
  • پردازش ویدئو در زمان واقعی

هنگام کار با ویدیوها، مهم است که نحوه پردازش ویدیوها به توکن‌ها را در نظر بگیرید که بر روی صورت‌حساب و محدودیت‌های استفاده تأثیر می‌گذارد. می‌توانید درباره درخواست با فایل‌های ویدیویی در راهنمای درخواست اطلاعات بیشتری کسب کنید.

صوت فرم بلند

مدل‌های Gemini 1.5 اولین مدل‌های زبان بزرگ چندوجهی بومی بودند که می‌توانستند صدا را بفهمند. از لحاظ تاریخی، گردش کار توسعه‌دهنده معمولی شامل رشته‌بندی چندین مدل خاص دامنه، مانند مدل گفتار به متن و مدل متن به متن، به منظور پردازش صدا است. این منجر به تأخیر اضافی مورد نیاز با انجام چندین درخواست رفت و برگشت و کاهش عملکرد می‌شود که معمولاً به معماری‌های جداشده از راه‌اندازی مدل چندگانه نسبت داده می‌شود.

در ارزیابی‌های استاندارد صوت کاه، Gemini 1.5 Pro قادر است صدای مخفی را در 100٪ تست‌ها پیدا کند و Gemini 1.5 Flash می‌تواند آن را در 98.7٪ از تست‌ها پیدا کند. فلش Gemini 1.5 حداکثر 9.5 ساعت صدا را در یک درخواست می پذیرد و Gemini 1.5 Pro می تواند تا 19 ساعت صدا را با استفاده از پنجره زمینه 2 میلیون توکن بپذیرد. علاوه بر این، در یک مجموعه آزمایشی از کلیپ‌های صوتی 15 دقیقه‌ای، Gemini 1.5 Pro نرخ خطای کلمه (WER) ~5.5% را بایگانی می‌کند، بسیار کمتر از حتی مدل‌های تخصصی گفتار به نوشتار، بدون پیچیدگی اضافی تقسیم‌بندی ورودی و اضافی. پیش پردازش

برخی از موارد استفاده در حال ظهور و استاندارد برای زمینه صوتی عبارتند از:

  • رونویسی و ترجمه در زمان واقعی
  • پرسش و پاسخ پادکست / ویدئویی
  • رونویسی و جمع بندی جلسه
  • دستیارهای صوتی

می‌توانید درباره درخواست با فایل‌های صوتی در راهنمای درخواست اطلاعات بیشتری کسب کنید.

بهینه سازی زمینه طولانی

بهینه سازی اولیه هنگام کار با زمینه طولانی و مدل های Gemini 1.5 استفاده از کش زمینه است. فراتر از عدم امکان قبلی پردازش تعداد زیادی توکن در یک درخواست، محدودیت اصلی دیگر هزینه بود. اگر یک برنامه «چت با داده‌های خود» دارید که در آن کاربر 10 فایل PDF، یک ویدیو و برخی اسناد کاری را آپلود می‌کند، از نظر تاریخی باید با یک ابزار / چارچوب بازیابی پیچیده‌تر نسل افزوده (RAG) کار کنید تا این موارد را پردازش کنید. درخواست می کند و مبلغ قابل توجهی را برای توکن های منتقل شده به پنجره زمینه پرداخت می کند. اکنون می‌توانید فایل‌هایی را که کاربر آپلود می‌کند، کش کنید و برای ذخیره آن‌ها به صورت ساعتی هزینه پرداخت کنید. هزینه ورودی/خروجی هر درخواست برای مثال با Gemini 1.5 Flash 4 برابر کمتر از هزینه ورودی/خروجی استاندارد است، بنابراین اگر کاربر به اندازه کافی با داده های خود چت کند، صرفه جویی زیادی در هزینه برای شما به عنوان توسعه دهنده خواهد شد.

محدودیت های زمینه طولانی

در بخش‌های مختلف این راهنما، ما در مورد چگونگی دستیابی مدل‌های Gemini 1.5 به عملکرد بالا در ارزیابی‌های مختلف بازیابی سوزن در انبار کاه صحبت کردیم. این تست‌ها ابتدایی‌ترین راه‌اندازی را در نظر می‌گیرند، جایی که شما یک سوزن تنها دارید که به دنبال آن هستید. در مواردی که ممکن است چندین "سوزن" یا اطلاعات خاصی داشته باشید که به دنبال آن هستید، مدل با دقت یکسانی کار نمی کند. عملکرد می تواند تا حد زیادی بسته به زمینه متفاوت باشد. این مهم است که در نظر گرفته شود زیرا یک مبادله ذاتی بین بازیابی اطلاعات صحیح و هزینه وجود دارد. شما می توانید 99٪ در یک پرس و جو دریافت کنید، اما باید هزینه رمز ورودی را هر بار که آن درخواست را ارسال می کنید بپردازید. بنابراین برای بازیابی 100 قطعه اطلاعات، اگر به عملکرد 99 درصد نیاز داشتید، احتمالاً باید 100 درخواست ارسال کنید. این یک مثال خوب از جایی است که ذخیره‌سازی متن می‌تواند هزینه‌های مرتبط با استفاده از مدل‌های Gemini را به میزان قابل توجهی کاهش دهد و در عین حال عملکرد بالا را حفظ کند.

سوالات متداول

آیا وقتی توکن های بیشتری به یک کوئری اضافه می کنم عملکرد مدل را از دست می دهم؟

به طور کلی، اگر نیازی به ارسال توکن به مدل ندارید، بهتر است از ارسال آنها خودداری کنید. با این حال، اگر تعداد زیادی توکن با برخی اطلاعات دارید و می خواهید در مورد آن اطلاعات سؤال بپرسید، مدل توانایی بالایی در استخراج آن اطلاعات دارد (در بسیاری از موارد تا 99 درصد دقت).

Gemini 1.5 Pro در تست استاندارد سوزن در انبار کاه چگونه عمل می کند؟

Gemini 1.5 Pro به 100٪ فراخوانی تا 530 هزار توکن و بیش از 99.7٪ فراخوانی تا 1 میلیون توکن دست می یابد.

چگونه می توانم هزینه خود را با پرس و جوهای طولانی مدت کاهش دهم؟

اگر مجموعه مشابهی از نشانه‌ها / زمینه دارید که می‌خواهید بارها از آن استفاده کنید، ذخیره‌سازی متن می‌تواند به کاهش هزینه‌های مربوط به پرسیدن سؤال در مورد آن اطلاعات کمک کند.

چگونه می توانم به پنجره زمینه 2 میلیون توکن دسترسی پیدا کنم؟

همه توسعه دهندگان اکنون با Gemini 1.5 Pro به پنجره زمینه 2 میلیون توکن دسترسی دارند.

آیا طول زمینه بر تأخیر مدل تأثیر می گذارد؟

در هر درخواستی، صرف نظر از اندازه، مقداری تاخیر ثابت وجود دارد، اما عموماً پرس‌و‌جوهای طولانی‌تر تاخیر بیشتری خواهند داشت (زمان تا اولین نشانه).

آیا قابلیت‌های زمینه طولانی بین Gemini 1.5 Flash و Gemini 1.5 Pro متفاوت است؟

بله، برخی از اعداد در بخش های مختلف این راهنما ذکر شده است، اما به طور کلی Gemini 1.5 Pro در اکثر موارد استفاده طولانی مدت عملکرد بیشتری دارد.