توفّر العديد من نماذج Gemini قدرات استيعاب كبيرة تبلغ مليون رمز مميّز أو أكثر. في السابق، كانت النماذج اللغوية الكبيرة (LLM) محدودة بشكل كبير بسبب كمية النص (أو الرموز) التي يمكن تمريرها إلى النموذج في وقت واحد. توفّر ميزة "استيعاب الكثير من المعلومات" في Gemini العديد من حالات الاستخدام الجديدة ونظريات المطوّرين الجديدة.
سيعمل الرمز الذي تستخدمه حاليًا في حالات مثل توليد النصوص أو مدخلات متعددة الوسائط بدون أي تغييرات في السياق الطويل.
يمنحك هذا المستند نظرة عامة على ما يمكنك تحقيقه باستخدام النماذج التي تحتوي على نوافذ سياق تتضمّن مليون رمز مميّز أو أكثر. تقدّم الصفحة نظرة عامة موجزة على نافذة السياق، وتوضّح كيفية تفكير المطوّرين في السياق الطويل، وحالات الاستخدام المختلفة في العالم الواقعي للسياق الطويل، وطرق تحسين استخدام السياق الطويل.
لمعرفة أحجام نوافذ السياق لطُرز معيّنة، يُرجى الاطّلاع على صفحة النماذج.
ما هي قدرة الاستيعاب؟
تتمثّل الطريقة الأساسية لاستخدام نماذج Gemini في تمرير المعلومات (السياق) إلى النموذج، ما يؤدي إلى إنشاء ردّ لاحقًا. يمكن تشبيه نافذة السياق بالذاكرة قصيرة المدى. هناك مقدار محدود من المعلومات التي يمكن تخزينها في الذاكرة قصيرة المدى لدى الشخص، وينطبق الأمر نفسه على النماذج التوليدية.
يمكنك الاطّلاع على مزيد من المعلومات حول آلية عمل النماذج في دليل النماذج التوليدية.
بدء استخدام ميزة "السياق الطويل"
لم تكن الإصدارات السابقة من النماذج التوليدية قادرة على معالجة سوى 8,000 رمز في المرة الواحدة. وتطوّرت الطُرز الأحدث من خلال قبول 32,000 رمز مميز أو حتى 128,000 رمز مميز. Gemini هو أول نموذج يمكنه قبول مليون رمز مميّز.
في الممارسة العملية، سيظهر مليون رمز على النحو التالي:
- 50,000 سطر من التعليمات البرمجية (باستخدام 80 حرفًا في كل سطر كحدٍّ أقصى)
- جميع الرسائل النصية التي أرسلتها في آخر 5 سنوات
- 8 روايات إنجليزية متوسطة الطول
- نصوص لأكثر من 200 حلقة بودكاست متوسطة الطول
إنّ نوافذ السياق الأكثر محدودية الشائعة في العديد من النماذج الأخرى غالبًا ما تتطلّب استراتيجيات مثل إسقاط الرسائل القديمة بشكل عشوائي أو تلخيص المحتوى أو استخدام RAG مع قواعد بيانات المتجهات أو فلترة الطلبات لحفظ الرموز المميّزة.
على الرغم من أنّ هذه الأساليب لا تزال مفيدة في سيناريوهات معيّنة، فإنّ ميزة "창(نافذة)" الموسّعة في Gemini تدعو إلى اتّباع نهج أكثر مباشرةً: تقديم كل المعلومات ذات الصلة في البداية. بما أنّ نماذج Gemini مصمّمة لأغراض معيّنة وتتمتع بقدرات ضخمة تتعلّق بالسياق، فهي تُظهر قدرة فعّالة على التعلّم في السياق. على سبيل المثال، باستخدام مواد تعليمية في السياق فقط (نحو مرجعي مكوّن من 500 صفحة، وقاموس، ونحو 400 جملة متوازية)، تمكّنت تقنية Gemini من الترجمة من الإنجليزية إلى Kalamang، وهي لغة بابوا يتحدث بها أقل من 200 شخص، بجودة مشابهة لجودة المترجم البشري الذي يستخدم المواد التعليمية نفسها. يوضّح ذلك التحول النموذجي الذي يتيحه السياق الطويل في Gemini، ويمنح إمكانيات جديدة من خلال التعلّم القوي في السياق.
حالات استخدام السياق الطويل
على الرغم من أنّ حالة الاستخدام العادية لمعظم النماذج التوليدية لا تزال هي إدخال النصوص، تتيح مجموعة نماذج Gemini نموذجًا جديدًا لحالات الاستخدام المتعدّدة الوسائط. ويمكن لهذه التصاميم فهم النصوص والفيديوهات والصوت والصور بشكلٍ تلقائي. ويتم استخدام Gemini API التي تتعامل مع أنواع الملفات المتعدّدة الوسائط لتوفير مزيد من الراحة.
نص طويل
لقد تبيّن أنّ النصوص هي الطبقة الذكية التي تستند إليها معظم الزخم حول النماذج اللغوية الكبيرة. كما ذكرنا سابقًا، كان الكثير من القيود العملية المفروضة على النماذج اللغوية الكبيرة يرجع إلى عدم توفّر نافذة سياق كبيرة بما يكفي لتنفيذ مهام معيّنة. وقد أدّى ذلك إلى الاعتماد السريع على تقنية "الإنشاء المعزّز لاسترداد المعلومات" (RAG) وغيرها من التقنيات التي توفّر للنموذج ديناميكيًا معلومات سياقية مفيدة. والآن، مع توفّر نوافذ سياق أكبر، أصبحت هناك تقنيات جديدة تتيح حالات استخدام جديدة.
تشمل بعض حالات الاستخدام الناشئة والعادية للسياق الطويل المستنِد إلى النصوص ما يلي:
- تلخيص مجموعات كبيرة من النصوص
- تتطلّب خيارات التلخيص السابقة باستخدام نماذج السياق الأصغر حجمًا استخدام نافذة متحركة أو أسلوب آخر للحفاظ على حالة الأقسام السابقة أثناء تمرير الرموز الجديدة إلى النموذج.
- طرح الأسئلة والإجابة عنها
- في السابق، لم يكن هذا ممكنًا إلا باستخدام نموذج RAG نظرًا للكمية المحدودة للسياق وانخفاض مستوى استرجاع النماذج للحقائق.
- عمليات سير العمل في الوكالة
- يشكّل النص أساسًا لكيفية احتفاظ موظّفي الدعم بحالة ما تم فعله وما عليهم فعله. إنّ عدم توفّر معلومات كافية عن العالم وهدف موظّف الدعم يحدّ من موثوقية موظّفي الدعم.
التعلّم في سياق متعدد اللقطات هو أحد الإمكانات الأكثر رواجًا التي توفّرها نماذج السياق الطويل. أظهرت الأبحاث أنّ استخدام نموذج "اللقطة الواحدة" أو "اللقطات المتعددة" الشائع، حيث يتم تقديم مثال واحد أو عدد قليل من الأمثلة على مهمة ما للنموذج، وتوسيع نطاقه ليشمل المئات أو الآلاف أو حتى مئات الآلاف من الأمثلة، يمكن أن يؤدي إلى تعزيز قدرات النموذج. وقد تبيّن أيضًا أنّ أسلوب استخدام لقطات متعددة يؤدي إلى نتائج مماثلة لتلك التي تحقّقها النماذج التي تم تحسينها لمهمة معيّنة. بالنسبة إلى حالات الاستخدام التي لا يكون فيها أداء نموذج Gemini كافيًا بعد لطرحه في مرحلة الإنتاج، يمكنك تجربة نهج "اللقطات المتعددة". كما يمكنك الاطّلاع عليه لاحقًا في القسم المخصص لتحسين السياق الطويل، تجعل ميزة التخزين المؤقت للسياق هذا النوع من عبء العمل المتعلّق بالرموز المميّزة ذات الإدخال المكثّف أكثر جدوى من الناحية الاقتصادية، بل وتؤدي إلى تقليل وقت الاستجابة في بعض الحالات.
فيديو طويل
لطالما كانت فائدة محتوى الفيديو محدودة بسبب عدم توفّر إمكانية الوصول إلى الوسيط نفسه. كان من الصعب تصفُّح المحتوى، وغالبًا ما فشلت النصوص في نقل المعنى الدقيق للفيديو، ولا تعالج معظم الأدوات الصور والنصوص والصوت معًا. من خلال Gemini، تؤدي إمكانات النصوص ذات السياق الطويل إلى القدرة على الاستدلال والإجابة عن الأسئلة حول الإدخالات المتعددة الوسائط مع أداء مستدام.
في ما يلي بعض حالات الاستخدام الشائعة والناشئة للسياق الطويل في الفيديو:
- طرح الأسئلة والإجابة عنها في الفيديوهات
- ذاكرة الفيديو، كما هو موضّح في Project Astra من Google
- ترجمة وشرح الفيديو
- أنظمة اقتراح الفيديوهات، من خلال إثراء البيانات الوصفية الحالية بفهم جديد للوسائط المتعددة
- تخصيص الفيديوهات من خلال مراجعة مجموعة من البيانات والبيانات الوصفية المرتبطة بالفيديو ثم إزالة أجزاء من الفيديوهات غير ذات الصلة بالمشاهد
- الإشراف على محتوى الفيديو
- معالجة الفيديو في الوقت الفعلي
عند العمل مع الفيديوهات، من المهم مراعاة كيفية معالجة الفيديوهات لتحويلها إلى رموز مميّزة، ما يؤثر بدوره في حدود الفوترة والاستخدام. يمكنك الاطّلاع على مزيد من المعلومات حول طلب الترجمة باستخدام ملفات الفيديو في دليل طلب الترجمة.
المحتوى الصوتي الطويل
كانت نماذج Gemini أوّل نماذج لغوية كبيرة متعددة الوسائط بإمكانها فهم المحتوى الصوتي. في السابق، كان سير عمل المطوّرين المعتاد يتضمن ربط نماذج متعددة خاصة بنطاق معيّن، مثل نموذج تحويل الكلام إلى نص ونموذج تحويل النص إلى نص، لمعالجة الصوت. أدّى ذلك إلى وقت استجابة إضافي مطلوب من خلال تنفيذ طلبات متعدّدة للذهاب والعودة وانخفاض الأداء الذي يُعزى عادةً إلى التصاميم غير المتّصلة لإعداد النماذج المتعدّدة.
تشمل بعض حالات الاستخدام الناشئة والعادية لسياق الصوت ما يلي:
- الترجمة وتحويل الصوت إلى نص في الوقت الفعلي
- البودكاست أو الفيديوهات التي تتضمّن أسئلة وإجابات
- تحويل صوت الاجتماع إلى نص وإنشاء ملخّص له
- أدوات المساعدة الصوتية
يمكنك الاطّلاع على مزيد من المعلومات حول استخدام الملفات الصوتية لطلب المعلومات في دليل الطلبات.
تحسينات السياق الطويل
إنّ التحسين الأساسي عند العمل مع السياق الطويل ونماذج Gemini هو استخدام تخزين السياق. بالإضافة إلى الصعوبة السابقة في معالجة الكثير من الرموز المميّزة في طلب واحد، كانت التكلفة هي القيود الرئيسية الأخرى. إذا كان لديك تطبيق "الدردشة مع بياناتك" الذي يحمّل فيه المستخدم 10 ملفات بتنسيق PDF وفيديو وبعض مستندات العمل، كان عليك في السابق العمل مع أداة أو إطار عمل أكثر تعقيدًا لإنشاء محتوى إضافي لاسترداد المعلومات (RAG) من أجل معالجة هذه الطلبات ودفع مبلغ كبير مقابل الرموز المميّزة التي تم نقلها إلى نافذة السياق. يمكنك الآن الاحتفاظ بنسخة مؤقتة من الملفات التي يحمّلها المستخدمين والدفع مقابل تخزينها على أساس كل ساعة. على سبيل المثال، تكون تكلفة الإدخال / الإخراج لكل طلب باستخدام Gemini Flash أقل بنحو 4 أضعاف من تكلفة الإدخال / الإخراج العادية، لذا إذا كان العميل يتحدث مع بياناته بشكل كافٍ، سيؤدي ذلك إلى توفير تكلفة كبيرة لك بصفتك المطوّر.
قيود السياق الطويل
في أقسام مختلفة من هذا الدليل، تحدثنا عن كيفية تحقيق نماذج Gemini لأداءٍ مرتفع في تقييمات مختلفة لاسترداد المعلومات. تأخذ هذه الاختباران في الاعتبار الإعداد الأساسي، حيث يكون لديك إبرة واحدة تبحث عنها. في الحالات التي قد يكون لديك فيها عدّة "إبر" أو أجزاء محدّدة من المعلومات التي تبحث عنها، لا يحقّق النموذج الدقة نفسها. يمكن أن يختلف الأداء على نطاق واسع حسب السياق. من المهم مراعاة ذلك، لأنّ هناك مفاضلة أساسية بين الحصول على المعلومات الصحيحة التي يتم استرجاعها والتكلفة. يمكنك الحصول على نسبة% 99 تقريبًا في طلب بحث واحد، ولكن عليك دفع تكلفة رمز الإدخال في كل مرة تُرسل فيها هذا الطلب. وبالتالي، لاسترداد 100 قطعة من المعلومات، إذا كنت بحاجة إلى أداء بنسبة% 99، قد تحتاج على الأرجح إلى إرسال 100 طلب. هذا مثال جيد على الحالات التي يمكن فيها لميزة "تخزين سياق الإعلانات مؤقتًا" خفض التكلفة المرتبطة باستخدام نماذج Gemini بشكل كبير، مع الحفاظ على الأداء العالي.
الأسئلة الشائعة
ما هو أفضل مكان لوضع طلب البحث في نافذة السياق؟
في معظم الحالات، خاصةً إذا كان إجمالي السياق طويلاً، سيكون أداء النموذج أفضل إذا وضعت طلب البحث أو السؤال في نهاية العبارة (بعد كل السياق الآخر).
هل أفقد أداء النموذج عند إضافة المزيد من الرموز إلى طلب بحث؟
بشكل عام، إذا لم تكن بحاجة إلى تمرير الرموز إلى النموذج، من الأفضل تجنُّب تمريرها. ومع ذلك، إذا كان لديك مجموعة كبيرة من الرموز التي تحتوي على بعض المعلومات وأردت طرح أسئلة حول هذه المعلومات، يكون النموذج قادرًا على استخراج هذه المعلومات بدرجة عالية (بدقة تصل إلى 99% في العديد من الحالات).
كيف يمكنني خفض التكلفة باستخدام طلبات البحث ذات السياق الطويل؟
إذا كانت لديك مجموعة مماثلة من الرموز المميّزة أو السياق تريد إعادة استخدامها عدة مرات، يمكن أن تساعد ميزة تخزين السياق في ذاكرة التخزين المؤقت في تقليل التكاليف المرتبطة بطرح أسئلة حول هذه المعلومات.
هل تؤثر طول السياق في وقت استجابة النموذج؟
هناك مقدار ثابت من وقت الاستجابة في أي طلب معيّن، بغض النظر عن حجمه، ولكن بشكل عام، سيكون وقت استجابة طلبات البحث الأطول أعلى (وقت الحصول على أول رمز).