دليل تضمين النص

تتيح لك مهمة MediaPipe Text inlineer إنشاء تمثيل رقمي للبيانات النصية لالتقاط معناها الدلالي. تُستخدم هذه الوظيفة بشكل متكرر لمقارنة التشابه الدلالي لجزأين من النص باستخدام أساليب المقارنة الرياضية مثل تشابه جيب التمام. تعمل هذه المهمة على البيانات النصية باستخدام نموذج التعلم الآلي (ML)، وتُخرج تمثيلاً رقميًا للبيانات النصية كقائمة من متجهات الخصائص عالية الأبعاد، والمعروفة أيضًا باسم متجهات التضمين، إما في شكل نقطة عائمة أو شكل كمي.

تجربة الميزة

البدء

ابدأ في استخدام هذه المهمة باتباع أحد أدلة التنفيذ هذه للنظام الأساسي المستهدف. ترشدك هذه الأدلة الخاصة بالنظام الأساسي إلى التنفيذ الأساسي لهذه المهمة، بما في ذلك النموذج المقترح ومثال الرمز البرمجي مع خيارات التهيئة المقترحة:

تفاصيل المهمة

يصف هذا القسم الإمكانات والمدخلات والمخرجات وخيارات الضبط لهذه المهمة.

الميزات

  • معالجة إدخال النصوص: تتيح إنشاء رموز مميّزة خارج الرسم البياني للنماذج بدون إنشاء رموز مميّزة في الرسم البياني.
  • تضمين طريقة حساب التشابه: هي دالة مساعدة مدمجة لحساب تشابه جيب التمام بين متّجهَين للخصائص.
  • تحديد الكمية - يدعم تحديد الكمية العددية لمتجهات الخصائص.
إدخالات المهام نتائج المهام
تقبل أداة تضمين النص نوع بيانات الإدخال التالي:
  • سلسلة
تعرض أداة تضمين النص قائمة من عمليات التضمين تتألّف من:
  • التضمين: هو الخط المتجه للميزة نفسه، سواء كان في شكل نقطة عائمة أو كمية قياسية.
  • مؤشر الرأس: فهرس الرأس الذي أدى إلى تضمين هذا التضمين.
  • اسم الرأس (اختياري): اسم الرأس الذي أدى إلى تضمين هذا التضمين.

خيارات الإعدادات

تتضمن هذه المهمة خيارات الإعداد التالية:

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
l2_normalize ما إذا كان سيتم تسوية الخط المتجه للميزة الذي تم إرجاعه باستخدام معيار L2. لا تستخدم هذا الخيار إلا إذا لم يكن النموذج يحتوي على L2_NORMALIZATION TFLite Op أصلي. في معظم الحالات، يتم تسوية L2 من خلال استنتاج TFLite بدون الحاجة إلى هذا الخيار. Boolean False
quantize ما إذا كان يجب تحديد قيمة التضمين التي تم إرجاعها إلى وحدات البايت من خلال تحديد كمّية عددية ومن المفترض ضمنيًا أن تكون عمليات التضمين عبارة عن معيار وحدة، وبالتالي يمكن أن يكون لأي سمة قيمة في [ -1.0, 1.0]. واستخدِم الخيار l2_normalize إذا لم يكن الأمر كذلك. Boolean False

النماذج

ونحن نقدّم نموذجًا تلقائيًا مقترحًا عند بدء التطوير باستخدام هذه المهمة.

يستخدم هذا النموذج بنية برنامج ترميز ثنائي وتم تدريبه على مجموعات بيانات مختلفة من الأسئلة والأجوبة.

ضع في اعتبارك أزواج الجمل التالية:

  • ("انها رحلة ساحرة وغالبًا ما تؤثر" ، "يا لها من رحلة رائعة ورائعة")
  • ("أحب هاتفي"، "أكره هاتفي")
  • ("يتميز هذا المطعم بأسلوب رائع"، "نحتاج إلى التحقق مرة أخرى من تفاصيل خطتنا")

سيكون لعمليات تضمين النص في أول زوجين نسبة تشابه أعلى مع جيب التمام من التضمينات في الزوج الثالث لأن أول زوجين من الجُمل يتشاركان موضوعًا مشتركًا، وهو "التعبير عن الرأي" و "الرأي الهاتفي" على التوالي بينما لا يتشارك الزوج الثالث من الجمل موضوعًا مشتركًا.

لاحظ أنه على الرغم من أن الجملتين في الزوج الثاني لهما مشاعر متعارضة، إلا أن درجة التشابه بينهما عالية لأنهما تشتركان في موضوع مشترك.

اسم النموذج إدخال الشكل نوع الكمية الإصدارات
برنامج ترميز الجملة العام سلسلة، سلسلة، سلسلة لا شيء (float32) الأحدث

مقاييس أداء المهام

إليك مقاييس أداء المهمة لمسار العملية بأكمله بناءً على النماذج المدربة مسبقًا أعلاه. وتكون نتيجة وقت الاستجابة هي متوسط وقت الاستجابة على هاتف Pixel 6 باستخدام وحدة المعالجة المركزية (CPU)/وحدة معالجة الرسومات.

اسم النموذج وقت استجابة وحدة المعالجة المركزية (CPU) وقت استجابة وحدة معالجة الرسومات
برنامج ترميز الجمل الشاملة 18.21 ملي ثانية -