يأتي Gemini 1.5 Flash تلقائيًا مع نافذة سياق تحتوي على مليون رمز مميّز يوفّر Gemini 1.5 Pro نافذة تتضمّن مليونَي رمز مميّز يستند إلى السياق. تاريخيًا، تم إنشاء النماذج اللغوية (LLM) محدودة بشكل كبير من خلال مقدار النصوص (أو ) التي يمكن تمريرها إلى النموذج في وقت ما. نموذج Gemini الطويل 1.5 نافذة سياقية ذات استرجاع شبه مثالي (>99%)، تكشف العديد من حالات الاستخدام ونماذج جديدة للمطوّرين.
الرمز الذي تستخدمه حاليًا لحالات مثل text (نص) الأجيال أو المتعددة الوسائط والمدخلات خارج الصندوق ذات السياق الطويل.
في هذا الدليل، يمكنك الاطّلاع بإيجاز على أساسيات نافذة السياق وكيفية ينبغي أن يفكر المطورون في السياق الطويل، وحالات الاستخدام المختلفة في العالم الحقيقي والسياق الطويل وطرق تحسين استخدام السياق الطويل.
ما هي نافذة السياق؟
الطريقة الأساسية لاستخدام نماذج Gemini 1.5 هي تمرير المعلومات (السياق) مع النموذج، الأمر الذي ينتج عنه استجابة بعد ذلك. تشبيهًا نافذة السياق هي ذاكرة قصيرة المدى. هناك كمية محدودة من المعلومات التي يمكن تخزينها في ذاكرة شخص ما قصيرة المدى، وينطبق الشيء نفسه على النماذج التوليدية
يمكنك الاطّلاع على مزيد من المعلومات عن آلية عمل النماذج وغيرها في النماذج التوليدية. الدليل.
بدء استخدام السياق الطويل
معظم النماذج التوليدية التي تم إنشاؤها في السنوات القليلة الماضية قادرة فقط على معالجة 8000 رمز مميز في وقت واحد. دفعت النماذج الأحدث إلى ذلك إلى الأمام من خلال قبول 32,000 رمز مميز أو 128,000 رمز مميز Gemini 1.5 هو أول نموذج قادر على قبول مليون رمز مميز، والآن 2 مليون رمز مميز بـ Gemini 1.5 Pro
من الناحية العملية، يتم عرض مليون رمز مميز على النحو التالي:
- 50,000 سطر من الرموز (بعدد الأحرف العادي هو 80 حرفًا لكل سطر)
- جميع الرسائل النصية التي أرسلتَها في آخر 5 سنوات
- 8 روايات إنجليزية متوسطة الطول
- نُسخ من أكثر من 200 حلقة بودكاست بمتوسط مدة
وعلى الرغم من أن النماذج يمكن أن تأخذ سياقًا أكثر فأكثر، فإن الكثير من وتفترض الحكمة التقليدية حول استخدام النماذج اللغوية الكبيرة أن هذه الذي تم تطبيقه اعتبارًا من عام 2024.
بعض الاستراتيجيات الشائعة للتعامل مع قيود نوافذ السياق الصغيرة مضمّنة:
- إسقاط الرسائل أو النص القديم عشوائيًا من نافذة السياق كنص جديد يدخل
- وتلخيص المحتوى السابق واستبداله بالملخص عند اقتربت نافذة السياق من الامتلاء
- استخدام طريقة RAG مع البحث الدلالي لنقل البيانات من نافذة السياق في قاعدة بيانات متجهة
- استخدام الفلاتر الحتمية أو التوليدية لإزالة نص معيّن / أحرف من الطلبات لحفظ الرموز المميزة
وفي حين أن العديد منها لا يزال ذا صلة في بعض الحالات، فإن المكان الافتراضي تبدأ الآن هي مجرد وضع كل الرموز المميزة في نافذة السياق. لأنّ صُمِّمت نماذج Gemini 1.5 لغرض محدّد وتتضمّن نافذة سياق طويلة أكثر قدرة على التعلم ضمن السياق. على سبيل المثال، مع الإرشادات (قاعدة مرجعية مكونة من 500 صفحة وقاموس و≈ 400 علامة موازية إضافية نفسها في سياقها، فكلّ من Gemini 1.5 Pro وGemini 1.5 Flash عبارة عن قادرين على تعلُّم الترجمة من الإنجليزية إلى كالامانغ - وهي لغة بابوية تضم أقل من 200 متحدث وبالتالي لا يوجد تقريبًا على الإنترنت - بجودة مشابهة لشخص تعلم من نفس المواد.
يؤكد هذا المثال كيف يمكنك البدء في التفكير فيما هو ممكن باستخدام سياق طويل وإمكانات التعلّم ضمن السياق في Gemini 1.5
حالات استخدام السياق الطويل
في حين أن حالة الاستخدام القياسية لمعظم النماذج التوليدية لا تزال إدخال النص، فإن توفِّر مجموعة نماذج Gemini 1.5 نموذجًا جديدًا من حالات الاستخدام المتعدّدة الوسائط. هذه تتمكن من فهم النصوص والفيديو والصوت والصور في الأصل. وهي مصحوبة بواجهة برمجة تطبيقات Gemini التي تتعامل مع الملفات المتعدّدة الوسائط الأنواع لـ والراحة.
نص طويل
وقد أثبت أنّ النص طبقة من الذكاء الاصطناعي الذي يرتكز عليه الكثير من الزخم حول النماذج اللغوية الكبيرة. وكما ذكرنا سابقًا، فإن الكثير من القيود العملية تعود النماذج اللغوية الكبيرة إلى عدم توفّر نافذة سياق كبيرة كافية لتنفيذ إجراءات معيّنة المهام. وأدى ذلك إلى الاستخدام السريع لتقنية الجيل المعزز للاسترجاع (RAG). وغيرها من التقنيات التي تقدم ديناميكيًا النموذج السياقية فقط. والآن، مع نوافذ سياق أكبر وأكبر (حاليًا ما يصل إلى مليونَي على الإصدار 1.5 Pro من Gemini)، تتوفّر أساليب جديدة والتي تتيح لك حالات استخدام جديدة.
تشمل بعض حالات الاستخدام الناشئة والعادية للسياق الطويل المستند إلى النص ما يلي:
- تلخيص مجموعات كبيرة من النصوص
- ستتطلب خيارات التلخيص السابقة ذات نماذج السياق الأصغر حجمًا نافذة منزلقة أو تقنية أخرى للحفاظ على حالة الأقسام السابقة حيث يتم تمرير رموز مميزة جديدة إلى النموذج
- السؤال والجواب
- تاريخيًا، كان هذا ممكنًا فقط مع RAG نظرًا للمقدار المحدود من والسياق والنماذج التذكر الواقعي منخفض
- مهام سير العمل لدى موظفي الدعم
- النص هو الأساس الذي يرتكز عليه موظّفو الدعم على إبلاغهم بما أنجزوه وما يجب عليهم فعله عدم وجود معلومات كافية حول العالم وأن هدف الوكيل يتمثل في تقييد موثوقية
التعلّم ضمن السياق الذي يتضمن لقطات متعددة هو أحد الإمكانات الفريدة التي تتيحها نماذج السياقات الطويلة. أظهرت الأبحاث أن أخذ "لقطة واحدة" أو "اللقطات المتعددة" كمثال للنموذج، حيث مع نموذج واحد أو بضعة أمثلة لمهمة ما، وتوسيع نطاق ذلك بما يصل إلى يمكن أن يؤدي المئات أو الآلاف أو حتى مئات الآلاف من الأمثلة إلى إمكانات جديدة للنماذج. وقد تبيّن أنّ أسلوب اللقطات المتعددة هذا يحقق بشكل مشابه للنماذج التي تم تحسينها لمهمة محددة. لحالات الاستخدام عندما يكون أداء نموذج Gemini غير كافٍ بعد لعملية إنتاج يمكنك تجربة نهج اللقطات المتعددة. كما يمكنك استكشافه لاحقًا في قسم تحسين السياق الطويل، فإن التخزين المؤقت للسياق يجعل هذا النوع من المدخلات أعباء عمل للرمز المميز تكون أكثر جدوى من الناحية الاقتصادية وحتى وقت استجابة أقل في بعض الحالات.
فيديو طويل
كانت فائدة محتوى الفيديو مقيّدة منذ فترة طويلة بسبب نقص إمكانية الوصول إليها. الوسيط نفسه. كان من الصعب تصفُّح المحتوى بسرعة، وكانت نصوصه تفشل في أغلب الأحيان لتسجيل الفروق الدقيقة في الفيديو، ولا تعالج معظم الأدوات الصور والنصوص الصوت معًا. مع Gemini 1.5، تتم ترجمة إمكانات النصوص الطويلة السياق إلى القدرة على الاستنتاج والإجابة عن الأسئلة المتعلقة بالمدخلات متعددة الوسائط أداء مستدام. استخدام Gemini 1.5 Flash عند اختبار إبرة في فيديو مليون رمز مميز، تم الحصول على أكثر من% 99.8 من بيانات الفيديو في و1.5 Pro وبلغت أحدث تطوراتها في مقياس أداء MME للفيديو:
تشمل بعض حالات الاستخدام الناشئة والعادية للسياق الطويل للفيديو ما يلي:
- فيديو يعرض سؤالًا وجوابًا
- ذاكرة الفيديو، كما هو موضح مع مشروع Astra من Google
- ترجمة الفيديو
- أنظمة لاقتراح الفيديوهات، من خلال إثراء البيانات الوصفية الحالية باستخدام فهم متعدد الوسائط
- تخصيص الفيديو من خلال الاطّلاع على مجموعة من البيانات والفيديوهات المرتبطة بها البيانات الوصفية ثم إزالة أجزاء من مقاطع الفيديو التي لا علاقة لها مُشاهد
- الإشراف على محتوى الفيديو
- معالجة الفيديوهات في الوقت الفعلي
عند التعامل مع الفيديوهات، من المهم التفكير في كيفية ترتيب الفيديوهات تتم معالجتها إلى رموز مميزة، مما يؤثر الفوترة وحدود الاستخدام. يمكنك معرفة المزيد من المعلومات حول الطلبات من خلال ملفات الفيديو في فإن المطالبة الدليل.
الفيديوهات الطويلة
كان Gemini 1.5 أول نموذج لغوي كبير متعدد الوسائط في الأصل يمكنه فهم الصوت سابقًا، كان سير عمل المطور النموذجي ربط عدة نماذج محددة في المجال معًا، مثل نموذج تحويل الكلام إلى نص ونموذج تحويل النص إلى نص لمعالجة الصوت. هذا النمط أدى إلى وقت استجابة إضافي مطلوب من خلال تنفيذ طلبات متعددة ذهابًا وإيابًا وانخفاض مستوى الأداء يعود عادةً إلى البُنى غير المترابطة إعداد النماذج المتعددة.
في التقييمات العادية لـ Audio-haystack، يتمكّن Gemini 1.5 Pro من العثور على الصوت المخفي في 100% من الاختبارات وبإمكان Gemini 1.5 Flash العثور عليه 98.7% من الاختبارات. يقبل Gemini 1.5 Flash ما يصل إلى 9.5 ساعات من الصوت في آنٍ واحد الطلب يمكن أن يقبل Gemini 1.5 Pro ما يصل إلى 19 ساعة من المحتوى الصوتي باستخدام مليون رمز مميّز نافذة السياق. علاوة على ذلك، استخدم Gemini 1.5 Pro لمجموعة اختبارية مؤلفة من مقاطع صوتية مدتها 15 دقيقة يصل معدل أخطاء الكلمات (WER) إلى 5.5% تقريبًا، أي أقل بكثير من المعدل المتخصص نماذج تحويل الكلام إلى نص، بدون أي تعقيدات إضافية للتقسيم الإضافي للمدخلات والمعالجة المسبقة.
تشمل بعض حالات الاستخدام الناشئة والعادية للسياق الصوتي ما يلي:
- تحويل الصوت إلى نص والترجمة في الوقت الفعلي
- سؤال حول البودكاست أو الفيديو وإجابته
- تحويل الصوت إلى نص في الاجتماع والتلخيص
- المساعدون الصوتيون
يمكنك معرفة المزيد من المعلومات حول تقديم الطلب باستخدام الملفات الصوتية في صفحة الطلب الدليل.
تحسينات السياق الطويل
التحسين الأساسي عند العمل مع سياق طويل ونموذج Gemini 1.5 هو استخدام السياق التخزين المؤقت. أحداث أبعد من السابق عدم إمكانية معالجة الكثير من الرموز المميزة في طلب واحد، القيد هو التكلفة. إذا كان لديك "محادثة مع بياناتك" تطبيق حيث يكون المستخدم بتحميل 10 ملفات PDF وفيديو وبعض مستندات العمل، وكنت للعمل مع أداة أكثر تعقيدًا للاسترجاع المعزز (RAG) / من أجل معالجة هذه الطلبات ودفع مبلغ كبير الرموز المميزة التي تم نقلها إلى نافذة السياق. الآن، يمكنك تخزين الملفات التي قام المستخدم التحميل والدفع لتخزينها على أساس كل ساعة. تكلفة المدخلات / المخرجات لكل طلب من خلال Gemini 1.5 Flash، على سبيل المثال، أقل بمقدار 4 أضعاف تقريبًا من تكلفة الإدخال / الإخراج القياسية، لذلك إذا عند الدردشة مع المستخدم بشكل كافٍ، يصبح هذا توفيرًا كبيرًا في التكلفة بالنسبة لك للمطور.
قيود السياق الطويل
تحدّثنا في أقسام مختلفة من هذا الدليل عن الطريقة التي تحقّق بها نماذج Gemini 1.5 الأداء العالي عبر تقييمات مختلفة لاسترجاع تكديس إبرة القش. هذه تضع الاختبارات في الاعتبار الإعداد الأساسي، حيث تستخدم إبرة واحدة التي نبحث عنها. في الحالات التي قد يكون لديك فيها "إبر" متعددة أو أجزاء معينة التي تبحث عنها، فإن النموذج لا يعمل بنفس ودقتها. يمكن أن يختلف الأداء بدرجة واسعة حسب السياق. هذا النمط ينبغي مراعاته نظرًا لوجود مفاضلة كامنة بين الحصول على استرداد المعلومات الصحيحة والتكلفة. يمكنك الحصول على حوالي 99% على طلب بحث واحد، ولكن عليك دفع تكلفة الرمز المميز للإدخال في كل مرة ترسل فيها هذا الاستعلام. لذلك بالنسبة إلى 100 مستخدم من المعلومات لاسترجاعها، فإذا أردت الحصول على أداء بنسبة% 99، يمكنك ربما يحتاجون إلى إرسال 100 طلب. هذا مثال جيد على المكان الذي يمكن أن يؤدي التخزين المؤقت إلى خفض التكلفة المرتبطة باستخدام نماذج Gemini مع الحفاظ على الأداء مرتفعًا.
الأسئلة الشائعة
هل أفقد أداء النموذج عند إضافة المزيد من الرموز المميزة إلى طلب بحث؟
وبشكل عام، إذا لم تكن بحاجة إلى تمرير الرموز المميزة إلى النموذج، فمن الأفضل وتجنب تمريرها. ومع ذلك، إذا كان لديك مجموعة كبيرة من الرموز المميزة مع المعلومات ويريدون طرح أسئلة حول هذه المعلومات، فإن النموذج قدرة عالية على استخراج تلك المعلومات (دقة تصل إلى 99% في العديد من الحالات).
ما هو أداء Gemini 1.5 Pro في اختبار "الإبرة في كومة القش" العادية؟
نجاح Gemini 1.5 Pro في تذكُّر نسبة 100% إلى ما يصل إلى 530 ألف رمز مميز وتذكُّر بنسبة أكثر من% 99.7 ما يصل إلى 1 مليون الرموز المميزة.
كيف يمكنني تقليل التكلفة باستخدام طلبات البحث ذات السياق الطويل؟
إذا كان لديك مجموعة متشابهة من الرموز أو السياق وأردت إعادة استخدام العديد منها يمكن أن يساعد التخزين المؤقت للسياق في تقليل التكاليف المرتبطة بطرح أسئلة حول تلك المعلومات.
كيف يمكنني الوصول إلى نافذة السياق التي تتضمّن مليونَي رمز مميّز؟
يمكن لجميع المطوّرين الآن الوصول إلى مليونَي رمز مميّز يستند إلى السياق 1.5 Pro.
هل يؤثر طول السياق في وقت استجابة النموذج؟
هناك مقدار ثابت من وقت الاستجابة في أي طلب، بغض النظر عن ولكن عادةً ما يكون للاستعلامات الأطول وقت استجابة أعلى (من ).
هل تختلف إمكانات السياق الطويل بين Gemini 1.5 Flash وGemini 1.5 Pro؟
نعم، تم ذكر بعض الأرقام في أقسام مختلفة من هذا الدليل، ولكن بشكل عام، يكون Gemini 1.5 Pro أكثر فعالية في معظم حالات استخدام السياق الطويل.