سياق طويل

يتضمّن Gemini 2.0 Flash وGemini 1.5 Flash ميزة "مَعلمة السياق" التي تستوعب مليون رمز مميّز، بينما يتضمّن Gemini 1.5 Pro ميزة "مَعلمة السياق" التي تستوعب مليونَي رمز مميّز. في السابق، كانت النماذج اللغوية الكبيرة (LLM) محدودة بشكل كبير بسبب كمية النص (أو الرموز) التي يمكن تمريرها إلى النموذج في المرة الواحدة. توفّر فترة السياق الطويلة في Gemini 1.5، التي تتميز باسترداد شبه كامل (>‎99%)، العديد من حالات الاستخدام الجديدة والنماذج الجديدة للمطوّرين.

إنّ الرمز الذي تستخدمه حاليًا في حالات مثل توليد النصوص أو مدخلات متعددة الوسائط سيعمل بشكلٍ تلقائي مع السياق الطويل.

خلال هذا الدليل، ستستكشف بشكلٍ موجز أساسيات نافذة السياق، وكيفية تفكير المطوّرين في السياق الطويل، وحالات الاستخدام المختلفة في العالم الواقعي للسياق الطويل، وطرق تحسين استخدام السياق الطويل.

ما هي قدرة الاستيعاب؟

تتمثّل الطريقة الأساسية لاستخدام نماذج Gemini في تمرير المعلومات (السياق) إلى النموذج، ما يؤدي إلى إنشاء ردّ لاحقًا. يمكن تشبيه نافذة السياق بالذاكرة قصيرة المدى. هناك مقدار محدود من المعلومات التي يمكن تخزينها في الذاكرة قصيرة المدى لدى الشخص، وينطبق الأمر نفسه على النماذج التوليدية.

يمكنك الاطّلاع على مزيد من المعلومات حول آلية عمل النماذج في دليل النماذج التوليدية.

بدء استخدام السياق الطويل

لم تكن معظم النماذج التوليدية التي تم إنشاؤها في السنوات القليلة الماضية قادرة إلا على معالجة 8,000 رمز في المرة الواحدة. وتطوّرت الطُرز الأحدث من خلال قبول 32,000 رمز أو 128,000 رمز. ‫Gemini 1.5 هو أول نموذج قادر على قبول مليون رمز مميّز، وأصبح الآن بإمكانه قبول مليونَي رمز مميّز باستخدام Gemini 1.5 Pro.

في الممارسة العملية، سيظهر مليون رمز على النحو التالي:

  • 50,000 سطر من التعليمات البرمجية (باستخدام 80 حرفًا في كل سطر كحدٍّ أقصى)
  • جميع الرسائل النصية التي أرسلتها في آخر 5 سنوات
  • 8 روايات إنجليزية متوسطة الطول
  • نصوص لأكثر من 200 حلقة بودكاست متوسطة الطول

على الرغم من أنّ النماذج يمكنها أخذ المزيد من السياق، إلا أنّ الكثير من الأفكار التقليدية حول استخدام النماذج اللغوية الكبيرة تفترض أنّ هذا القيد المُضمّن في النموذج لا يزال ساريًا، ولكن هذا ليس صحيحًا اعتبارًا من عام 2024.

في ما يلي بعض الاستراتيجيات الشائعة للتعامل مع قيود نوافذ السياق الصغيرة:

  • إسقاط الرسائل أو النصوص القديمة بشكل عشوائي من نافذة السياق عند ورود نص جديد
  • تلخيص المحتوى السابق واستبداله بالخلاصة عندما تقترب نافذة السياق من الامتلاء
  • استخدام RAG مع البحث الدلالي لنقل البيانات خارج نافذة السياق ونقلها إلى قاعدة بيانات متّجه
  • استخدام فلاتر حتمية أو إبداعية لإزالة نص أو أحرف معيّنة من الطلبات لحفظ الرموز المميّزة

على الرغم من أنّ العديد من هذه الإعدادات لا تزال ذات صلة في حالات معيّنة، فإنّ الإعداد التلقائي لبدء عملية التحليل هو الآن وضع كل الرموز في نافذة السياق. بما أنّ نماذج Gemini مُصمّمة لأغراض معيّنة مع فترة سياق طويلة، فهي قادرة على التعرّف على السياق بشكلٍ أفضل. على سبيل المثال، باستخدام مواد تعليمية فقط (قواعد مرجعية للغة تبلغ 500 صفحة وقاموس ونحو 400 جملة متوازية إضافية) يتم تقديمها في سياق، يمكن لـ Gemini 1.5 Pro وGemini 1.5 Flash تعلم الترجمة من الإنجليزية إلى Kalamang، وهي لغة بابوا يتحدثها أقل من 200 شخص وبالتالي ليس لها أي حضور على الإنترنت تقريبًا، وذلك بجودة مشابهة لجودة الشخص الذي تعلّم من المواد نفسها.

يوضّح هذا المثال كيف يمكنك البدء في التفكير في الإجراءات الممكنة باستخدام السياق الطويل وإمكانات التعلّم في السياق لنموذجَي Gemini.

حالات استخدام السياق الطويل

على الرغم من أنّ حالة الاستخدام العادية لمعظم النماذج التوليدية لا تزال هي إدخال النصوص، تتيح مجموعة نماذج Gemini 1.5 نموذجًا جديدًا لحالات الاستخدام المتعدّدة الوسائط. ويمكن لهذه التصاميم فهم النصوص والفيديوهات والصوت والصور بشكلٍ تلقائي. ويتم استخدام Gemini API التي تتعامل مع ملفّات منأنواع متعدّدة الوسائط لتوفير مزيد من الراحة.

نص طويل

أثبت النص أنّه طبقة الذكاء التي تستند إليها معظم الزخم حول النماذج اللغوية الكبيرة. كما ذكرنا سابقًا، كان الكثير من القيود العملية المفروضة على النماذج اللغوية الكبيرة يرجع إلى عدم توفّر نافذة سياق كبيرة بما يكفي لتنفيذ مهام معيّنة. وقد أدّى ذلك إلى الاعتماد السريع على تقنية "الإنشاء المعزّز لاسترداد المعلومات" (RAG) وغيرها من التقنيات التي توفّر للنموذج ديناميكيًا معلومات سياقية مفيدة. والآن، مع توسيع نطاق نوافذ السياق (التي تبلغ حاليًا مليونَي رمز مميّز في Gemini 1.5 Pro)، أصبحت تقنيات جديدة متاحة تتيح حالات استخدام جديدة.

تشمل بعض حالات الاستخدام الناشئة والعادية للسياق الطويل المستنِد إلى النصوص ما يلي:

  • تلخيص مجموعات كبيرة من النصوص
    • تتطلّب خيارات التلخيص السابقة باستخدام نماذج السياق الأصغر حجمًا استخدام نافذة متحركة أو أسلوب آخر للحفاظ على حالة الأقسام السابقة أثناء تمرير الرموز الجديدة إلى النموذج.
  • طرح الأسئلة والإجابة عنها
    • في السابق، لم يكن هذا ممكنًا إلا باستخدام نموذج RAG نظرًا للكمية المحدودة للسياق وانخفاض مستوى استرجاع النماذج للحقائق.
  • عمليات سير العمل في الوكالة
    • يشكّل النص أساسًا لكيفية احتفاظ موظّفي الدعم بحالة ما تم فعله وما عليهم فعله. إنّ عدم توفّر معلومات كافية عن العالم وهدف موظّف الدعم يحدّ من موثوقية موظّفي الدعم.

التعلُّم في سياق متعدد اللقطات هو أحد الإمكانات الأكثر رواجًا التي توفّرها نماذج السياق الطويل. أظهرت الأبحاث أنّ استخدام نموذج "اللقطة الواحدة" أو "اللقطات المتعددة" الشائع، حيث يتم تقديم مثال واحد أو عدد قليل من الأمثلة على مهمة ما للنموذج، وتوسيع نطاقه إلى مئات أو آلاف أو حتى مئات الآلاف من الأمثلة، يمكن أن يؤدي إلى قدرات جديدة للنموذج. وقد تبيّن أيضًا أنّ أسلوب اللقطات المتعددة هذا يحقّق أداءً مماثلاً للأداء الذي حقّقته النماذج التي تم تحسينها لمهمة معيّنة. بالنسبة إلى حالات الاستخدام التي لا يكون فيها أداء نموذج Gemini كافيًا بعد لطرحه في مرحلة الإنتاج، يمكنك تجربة نهج اللقطات المتعددة. كما يمكنك استكشافه لاحقًا في قسم تحسين السياق الطويل، تجعل ميزة التخزين المؤقت للسياق هذا النوع من حمولة رمز التماثل ذات الإدخال المكثّف أكثر جدوى من الناحية الاقتصادية، بل وتُقلّل من وقت الاستجابة في بعض الحالات.

فيديو طويل

لطالما كانت فائدة محتوى الفيديو محدودة بسبب عدم توفّر إمكانية الوصول إلى الوسيط نفسه. كان من الصعب تصفُّح المحتوى، وغالبًا ما فشلت النصوص في نقل المعنى الدقيق للفيديو، ولا تعالج معظم الأدوات الصور والنص والملف الصوتي معًا. من خلال الإصدار 1.5 من Gemini، تؤدي إمكانات النصوص ذات السياق الطويل إلى القدرة على الاستنتاج والإجابة عن الأسئلة حول الإدخالات المتعددة الوسائط مع أداء مستدام. عند اختبار Gemini 1.5 Flash في مشكلة "إبرة في كومة قش" في فيديو يضم مليون رمز مميّز، حقّق الإصدار نسبة استرجاع تزيد عن% 99.8 للفيديو في نافذة السياق، وحقّق الإصدار 1.5 Pro أفضل أداء ممكن في مقياس أداء MME للفيديو.

في ما يلي بعض حالات الاستخدام الشائعة والناشئة للسياق الطويل في الفيديو:

  • طرح الأسئلة والإجابة عنها في الفيديوهات
  • ذاكرة الفيديو، كما هو موضّح في Project Astra من Google
  • ترجمة وشرح الفيديو
  • أنظمة اقتراح الفيديوهات، من خلال إثراء البيانات الوصفية الحالية بفهم جديد للوسائط المتعددة
  • تخصيص الفيديوهات من خلال مراجعة مجموعة من البيانات والبيانات الوصفية المرتبطة بالفيديو ثم إزالة أجزاء من الفيديوهات التي لا تهم المشاهد
  • الإشراف على محتوى الفيديوهات
  • معالجة الفيديو في الوقت الفعلي

عند العمل مع الفيديوهات، من المهم مراعاة كيفية معالجة الفيديوهات لتحويلها إلى رموز مميّزة، ما يؤثر في حدود الفوترة والاستخدام. يمكنك الاطّلاع على مزيد من المعلومات حول طلب الترجمة باستخدام ملفات الفيديو في دليل طلب الترجمة.

المحتوى الصوتي الطويل

كانت نماذج Gemini 1.5 هي أوّل نماذج لغوية كبيرة متعددة الوسائط بإمكانها فهم المحتوى الصوتي. في السابق، كان سير عمل المطوّرين المعتاد يتضمن ربط نماذج متعددة خاصة بنطاق معيّن، مثل نموذج تحويل الكلام إلى نص ونموذج تحويل النص إلى نص، لمعالجة الصوت. أدّى ذلك إلى وقت استجابة إضافي مطلوب من خلال تنفيذ طلبات متعدّدة للذهاب والعودة وانخفاض الأداء الذي يُعزى عادةً إلى التصاميم غير المتّصلة لإعداد النماذج المتعدّدة.

في تقييمات "مكدس الصوت" العادية، يمكن لـ Gemini 1.5 Pro العثور على المحتوى الصوتي المخفي في ‎100% من الاختبارات، ويمكن لـ Gemini 1.5 Flash العثور عليه في ‎98.7% من الاختبارات. يقبل Gemini 1.5 Flash ما يصل إلى 9.5 ساعة من الصوت في طلب واحد، ويمكن لتطبيق Gemini 1.5 Pro قبول ما يصل إلى 19 ساعة من الصوت باستخدام ميزة "السياق" التي تتضمّن مليونَي رمز مميّز. بالإضافة إلى ذلك، في مجموعة اختبارية من المقاطع الصوتية التي تبلغ مدتها 15 دقيقة، يُسجِّل Gemini 1.5 Pro معدل خطأ في الكلمات (WER) يبلغ %5.5 تقريبًا، وهو أقل بكثير من نماذج تحويل الكلام إلى نص المخصّصة، بدون التعقيد الإضافي الناتج عن تقسيم الإدخال الإضافي والمعالجة المسبقة.

تشمل بعض حالات الاستخدام الناشئة والعادية لسياق الصوت ما يلي:

  • الترجمة وتحويل الصوت إلى نص في الوقت الفعلي
  • البودكاست أو الفيديوهات التي تتضمّن أسئلة وإجابات
  • تحويل صوت الاجتماع إلى نص وإنشاء ملخّص له
  • أدوات المساعدة الصوتية

يمكنك الاطّلاع على مزيد من المعلومات حول استخدام الملفات الصوتية لطلب المعلومات في دليل الطلبات.

تحسينات السياق الطويل

إنّ التحسين الأساسي عند العمل مع السياق الطويل وتخزين السياق في نماذج Gemini 1.5 هو استخدام بالإضافة إلى الصعوبة السابقة في معالجة الكثير من الرموز المميّزة في طلب واحد، كانت التكلفة هي القيود الرئيسية الأخرى. إذا كان لديك تطبيق "الدردشة مع بياناتك" الذي يحمّل فيه المستخدم 10 ملفات بتنسيق PDF وفيديو وبعض مستندات العمل، كان عليك في السابق العمل مع أداة أو إطار عمل أكثر تعقيدًا لإنشاء محتوى إضافي لاسترداد المعلومات (RAG) من أجل معالجة هذه الطلبات ودفع مبلغ كبير مقابل الرموز المميّزة التي تم نقلها إلى نافذة السياق. يمكنك الآن الاحتفاظ بنسخة مؤقتة من الملفات التي يحمّلها المستخدمين والدفع مقابل تخزينها على أساس كل ساعة. على سبيل المثال، تكون تكلفة الإدخال / الإخراج لكل طلب باستخدام Gemini 1.5 Flash أقل بنحو 4 أضعاف من التكلفة العادية للإدخال / الإخراج، لذا إذا كان العميل يتحدث مع بياناته بشكل كافٍ، سيؤدي ذلك إلى توفير تكلفة كبيرة لك بصفتك المطوّر.

قيود السياق الطويل

في أقسام مختلفة من هذا الدليل، تحدثنا عن كيفية تحقيق نماذج Gemini 1.5 لأداءٍ عالٍ في مختلف تقييمات استرداد المعلومات. تأخذ هذه الاختباران في الاعتبار الإعداد الأساسي، حيث يكون لديك إبرة واحدة تبحث عنها. في الحالات التي قد يكون لديك فيها عدّة "إبر" أو أجزاء محدّدة من المعلومات التي تبحث عنها، لا يحقّق النموذج الدقة نفسها. يمكن أن يختلف الأداء إلى حد كبير حسب السياق. من المهم مراعاة ذلك، لأنّ هناك مفاضلة أساسية بين الحصول على المعلومات الصحيحة التي يتم استرجاعها والتكلفة. يمكنك الحصول على نسبة% 99 تقريبًا في طلب بحث واحد، ولكن عليك دفع تكلفة رمز الإدخال في كل مرة تُرسل فيها هذا الطلب. وبالتالي، لاسترداد 100 قطعة من المعلومات، إذا كنت بحاجة إلى أداء بنسبة% 99، قد تحتاج على الأرجح إلى إرسال 100 طلب. هذا مثال جيد على الحالات التي يمكن فيها لميزة "تخزين السياق" خفض التكلفة المرتبطة باستخدام نماذج Gemini بشكل كبير مع الحفاظ على الأداء العالي.

الأسئلة الشائعة

هل أفقد أداء النموذج عند إضافة المزيد من الرموز إلى طلب بحث؟

بشكل عام، إذا لم تكن بحاجة إلى تمرير الرموز إلى النموذج، من الأفضل تجنُّب تمريرها. ومع ذلك، إذا كان لديك مجموعة كبيرة من الرموز التي تحتوي على بعض المعلومات وأردت طرح أسئلة حول هذه المعلومات، يكون النموذج قادرًا على استخراج هذه المعلومات بدرجة عالية (بدقة تصل إلى ‎99% في العديد من الحالات).

ما هو مستوى أداء Gemini 1.5 Pro في اختبار البحث عن إبرة في كومة قش؟

يحقّق Gemini 1.5 Pro نسبة استرجاع تبلغ% 100 لما يصل إلى 530 ألف رمز مميز ونسبة استرجاع تزيد عن% 99.7 لما يصل إلى مليون رمز مميز.

كيف يمكنني خفض التكلفة باستخدام طلبات البحث ذات السياق الطويل؟

إذا كانت لديك مجموعة مماثلة من الرموز المميّزة أو السياق تريد إعادة استخدامها عدة مرات، يمكن أن تساعد ميزة تخزين السياق في ذاكرة التخزين المؤقت في تقليل التكاليف المرتبطة بطرح أسئلة حول هذه المعلومات.

كيف يمكنني الاستفادة من ميزة "مليونَا رمز مميّز يستنِد إلى السياق"؟

يمكن الآن لجميع المطوّرين الاستفادة من ميزة "السياق المستنِد إلى مليونَي رمز مميّز" باستخدام الإصدار Gemini 1.5 Pro.

هل تؤثر مدة السياق في وقت استجابة النموذج؟

هناك مقدار ثابت من وقت الاستجابة في أي طلب معيّن، بغض النظر عن حجمه، ولكن بشكل عام، سيكون وقت استجابة طلبات البحث الأطول أعلى (وقت الحصول على أول رمز).

هل تختلف إمكانات السياق الطويل بين Gemini 1.5 Flash وGemini 1.5 Pro؟

نعم، تم ذكر بعض الأرقام في أقسام مختلفة من هذا الدليل، ولكن بشكل عام، يحقّق Gemini 1.5 Pro أداءً أفضل في معظم حالات استخدام السياق الطويل.