راهنمای تشخیص زبان

وظیفه MediaPipe Language Detector به شما امکان می دهد زبان یک متن را شناسایی کنید. این کار بر روی داده های متنی با یک مدل یادگیری ماشین (ML) عمل می کند و لیستی از پیش بینی ها را خروجی می دهد، که در آن هر پیش بینی شامل یک کد زبان ISO 639-1 و یک احتمال است.

آن را امتحان کنید!

شروع کنید

استفاده از این کار را با دنبال کردن یکی از این راهنماهای پیاده سازی برای پلتفرم هدف خود شروع کنید. این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده، و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند:

جزئیات کار

این بخش قابلیت ها، ورودی ها، خروجی ها و گزینه های پیکربندی این کار را شرح می دهد.

امکانات

  • آستانه امتیاز - نتایج را بر اساس نمرات پیش بینی فیلتر کنید
  • برچسب لیست مجاز و رد لیست - دسته های شناسایی شده را مشخص کنید
ورودی های وظیفه خروجی های وظیفه
ردیاب زبان نوع داده ورودی زیر را می پذیرد:
  • رشته
آشکارساز زبان لیستی از پیش‌بینی‌های حاوی:
    • کد زبان: کد زبان / محلی ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) (به عنوان مثال "en" برای انگلیسی، "uz" برای ازبکی، "ja-Latn" برای ژاپنی (روماجی)) به صورت رشته.
    • احتمال: امتیاز اطمینان برای این پیش بینی که به صورت احتمال بین صفر و یک به عنوان مقدار ممیز شناور بیان می شود.

گزینه های پیکربندی

این کار دارای گزینه های پیکربندی زیر است:

نام گزینه شرح محدوده ارزش مقدار پیش فرض
max_results حداکثر تعداد اختیاری پیش‌بینی‌های زبان با امتیاز بالا را برای بازگشت تنظیم می‌کند. اگر این مقدار کمتر از صفر باشد، تمام نتایج موجود برگردانده می شوند. هر عدد مثبت -1
score_threshold آستانه امتیاز پیش‌بینی را تنظیم می‌کند که بر آستانه ارائه‌شده در فراداده مدل (در صورت وجود) لغو می‌شود. نتایج زیر این مقدار رد می شوند. هر شناور تنظیم نشده
category_allowlist لیست اختیاری کدهای زبان مجاز را تنظیم می کند. اگر خالی نباشد، پیش‌بینی‌های زبانی که کد زبان آنها در این مجموعه نیست فیلتر می‌شوند. این گزینه با category_denylist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. هر رشته تنظیم نشده
category_denylist لیست اختیاری کدهای زبانی را که مجاز نیستند را تنظیم می کند. اگر خالی نباشد، پیش‌بینی‌های زبانی که کد زبان آنها در این مجموعه است فیلتر می‌شوند. این گزینه با category_allowlist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. هر رشته تنظیم نشده

مدل ها

هنگامی که شما شروع به توسعه با این کار می کنید، یک مدل پیش فرض و توصیه شده را ارائه می دهیم.

این مدل برای سبک وزن (315 کیلوبایت) ساخته شده است و از معماری طبقه بندی شبکه عصبی مبتنی بر تعبیه استفاده می کند. این مدل زبان را با استفاده از کد زبان ISO 639-1 شناسایی می کند و می تواند 110 زبان را شناسایی کند. برای فهرست زبان‌هایی که مدل پشتیبانی می‌کند، به فایل برچسب مراجعه کنید که زبان‌ها را بر اساس کد ISO 639-1 فهرست می‌کند.

نام مدل شکل ورودی نوع کوانتیزاسیون کارت مدل نسخه ها
آشکارساز زبان رشته UTF-8 هیچ (float32) اطلاعات آخرین

معیارهای وظیفه

در اینجا معیارهای کار برای کل خط لوله بر اساس مدل های از پیش آموزش دیده بالا آمده است. نتیجه تأخیر، متوسط ​​تأخیر پیکسل 6 با استفاده از CPU / GPU است.

نام مدل تاخیر CPU تاخیر GPU
آشکارساز زبان 0.31 میلی‌ثانیه -