دليل التعرّف على اللغة

تتيح لك مهمة MediaPipe Language Detector التعرّف على لغة النص. تعتمد هذه المهمّة على بيانات نصية تستخدم نموذج تعلُّم الآلة (ML)، وتنتج قائمة من التوقّعات تتألف كل عملية توقّع من رمز لغة وفق معيار ISO 639-1 واحتمالية.

تجربة الميزة

البدء

ابدأ في استخدام هذه المهمة باتباع أحد أدلة التنفيذ هذه للنظام الأساسي المستهدف. ترشدك هذه الأدلة الخاصة بالنظام الأساسي إلى التنفيذ الأساسي لهذه المهمة، بما في ذلك النموذج المقترح ومثال الرمز البرمجي مع خيارات التهيئة المقترحة:

تفاصيل المهمة

يصف هذا القسم الإمكانات والمدخلات والمخرجات وخيارات الضبط لهذه المهمة.

الميزات

  • الحد الأدنى للنتيجة - فلترة النتائج استنادًا إلى نتائج التوقعات
  • قائمة التصنيفات المسموح بها وقائمة الحظر: تحديد الفئات التي تم رصدها
إدخالات المهام نتائج المهام
تقبل أداة رصد اللغة نوع بيانات الإدخال التالي:
  • سلسلة
توفِّر أداة رصد اللغة قائمة بعبارات البحث المقترحة تحتوي على:
    • رمز اللغة: رمز اللغة: رمز اللغة / اللغة وفقًا لمعيار ISO 639-1 (https://en.wikipedia.org/wiki / List_of_ISO_639-1_codes) (مثل "en" للإنجليزية و"uz" للأوزبكية و"ja-Latn" للغة اليابانية (روماجي)) كسلسلة.
    • الاحتمالية: نتيجة الثقة لهذا التوقّع، ويتم التعبير عنها على أنّها احتمالية بين صفر وواحد كقيمة النقطة العائمة.

خيارات الإعدادات

تتضمن هذه المهمة خيارات الإعداد التالية:

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
max_results لضبط الحد الأقصى الاختياري لتوقعات اللغة ذات التقييم الأعلى للعرض. وإذا كانت هذه القيمة أقل من صفر، يتم عرض جميع النتائج المتاحة. أي أرقام موجبة -1
score_threshold لتعيين الحد الأدنى لدرجة التنبؤ الذي يتجاوز الحد المقدم في البيانات الوصفية للنموذج (إن يتوفر). يتم رفض النتائج التي تقلّ عن هذه القيمة. أي عائم لم يتم الضبط.
category_allowlist تحدِّد هذه السياسة القائمة الاختيارية لرموز اللغات المسموح بها. وإذا لم تكن هذه البيانات فارغة، فستتم فلترة عبارات البحث المقترَحة التي لا يكون رمز اللغة فيها ضمن هذه المجموعة. لا يمكن استخدام هذا الخيار مع category_denylist، ويؤدي استخدام كلا الخيارين إلى حدوث خطأ. أي سلاسل لم يتم الضبط.
category_denylist تحدِّد هذه السياسة القائمة الاختيارية لرموز اللغات غير المسموح بها. وإذا لم تكن هذه التوقعات فارغة، فستتم فلترة عبارات البحث المقترَحة التي تتضمن رمز اللغة في هذه المجموعة. لا يمكن استخدام هذا الخيار مع category_allowlist، ويؤدي استخدام كلا الخيارين إلى حدوث خطأ. أي سلاسل لم يتم الضبط.

النماذج

ونحن نقدّم نموذجًا تلقائيًا مقترحًا عند بدء التطوير باستخدام هذه المهمة.

تم تصميم هذا النموذج ليكون خفيفًا (315 كيلوبايت) ويستخدم بنية تصنيف الشبكة العصبونية القائمة على التضمين. يحدّد النموذج اللغة باستخدام رمز اللغة ISO 639-1، ويمكنه تحديد 110 لغة. للحصول على قائمة باللغات التي يتيحها النموذج، راجِع ملف التصنيف الذي يسرد اللغات حسب رمز ISO 639-1.

اسم النموذج إدخال الشكل نوع الكمية بطاقة الطراز الإصدارات
أداة رصد اللغة سلسلة UTF-8 لا شيء (عدد عائم 32) معلومات الأحدث

مقاييس أداء المهام

إليك مقاييس أداء المهمة لمسار العملية بأكمله بناءً على النماذج المدربة مسبقًا أعلاه. وتكون نتيجة وقت الاستجابة هي متوسط وقت الاستجابة على هاتف Pixel 6 باستخدام وحدة المعالجة المركزية (CPU)/وحدة معالجة الرسومات.

اسم النموذج وقت استجابة وحدة المعالجة المركزية (CPU) وقت استجابة وحدة معالجة الرسومات
أداة التعرّف على اللغة 0.31 ملي ثانية -