وظیفه MediaPipe Language Detector به شما امکان می دهد زبان یک متن را شناسایی کنید. این کار بر روی داده های متنی با یک مدل یادگیری ماشین (ML) عمل می کند و لیستی از پیش بینی ها را خروجی می دهد، که در آن هر پیش بینی شامل یک کد زبان ISO 639-1 و یک احتمال است.
شروع کنید
استفاده از این کار را با دنبال کردن یکی از این راهنماهای پیاده سازی برای پلتفرم هدف خود شروع کنید. این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده، و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند:
جزئیات کار
این بخش قابلیت ها، ورودی ها، خروجی ها و گزینه های پیکربندی این کار را شرح می دهد.
امکانات
- آستانه امتیاز - نتایج را بر اساس نمرات پیش بینی فیلتر کنید
- برچسب لیست مجاز و رد لیست - دسته های شناسایی شده را مشخص کنید
ورودی های وظیفه | خروجی های وظیفه |
---|---|
ردیاب زبان نوع داده ورودی زیر را می پذیرد:
| آشکارساز زبان لیستی از پیشبینیهای حاوی:
|
گزینه های پیکربندی
این کار دارای گزینه های پیکربندی زیر است:
نام گزینه | شرح | محدوده ارزش | مقدار پیش فرض |
---|---|---|---|
max_results | حداکثر تعداد اختیاری پیشبینیهای زبان با امتیاز بالا را برای بازگشت تنظیم میکند. اگر این مقدار کمتر از صفر باشد، تمام نتایج موجود برگردانده می شوند. | هر عدد مثبت | -1 |
score_threshold | آستانه امتیاز پیشبینی را تنظیم میکند که بر آستانه ارائهشده در فراداده مدل (در صورت وجود) لغو میشود. نتایج زیر این مقدار رد می شوند. | هر شناور | تنظیم نشده |
category_allowlist | لیست اختیاری کدهای زبان مجاز را تنظیم می کند. اگر خالی نباشد، پیشبینیهای زبانی که کد زبان آنها در این مجموعه نیست فیلتر میشوند. این گزینه با category_denylist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. | هر رشته | تنظیم نشده |
category_denylist | لیست اختیاری کدهای زبانی را که مجاز نیستند را تنظیم می کند. اگر خالی نباشد، پیشبینیهای زبانی که کد زبان آنها در این مجموعه است فیلتر میشوند. این گزینه با category_allowlist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. | هر رشته | تنظیم نشده |
مدل ها
هنگامی که شما شروع به توسعه با این کار می کنید، یک مدل پیش فرض و توصیه شده را ارائه می دهیم.
مدل آشکارساز زبان (توصیه می شود)
این مدل برای سبک وزن (315 کیلوبایت) ساخته شده است و از معماری طبقه بندی شبکه عصبی مبتنی بر تعبیه استفاده می کند. این مدل زبان را با استفاده از کد زبان ISO 639-1 شناسایی می کند و می تواند 110 زبان را شناسایی کند. برای فهرست زبانهایی که مدل پشتیبانی میکند، به فایل برچسب مراجعه کنید که زبانها را بر اساس کد ISO 639-1 فهرست میکند.
نام مدل | شکل ورودی | نوع کوانتیزاسیون | کارت مدل | نسخه ها |
---|---|---|---|---|
آشکارساز زبان | رشته UTF-8 | هیچ (float32) | اطلاعات | آخرین |
معیارهای وظیفه
در اینجا معیارهای کار برای کل خط لوله بر اساس مدل های از پیش آموزش دیده بالا آمده است. نتیجه تأخیر، متوسط تأخیر پیکسل 6 با استفاده از CPU / GPU است.
نام مدل | تاخیر CPU | تاخیر GPU |
---|---|---|
آشکارساز زبان | 0.31 میلیثانیه | - |