راهنمای تشخیص زبان

مثال رابط کاربری که یک جمله ورودی را به زبان فرانسوی نشان می دهد که درست است در خروجی به عنوان فرانسوی مشخص شده است.

وظیفه MediaPipe Language Detector به شما امکان می دهد زبان یک متن را شناسایی کنید. این کار بر روی داده های متنی با یک مدل یادگیری ماشین (ML) عمل می کند و لیستی از پیش بینی ها را خروجی می دهد، که در آن هر پیش بینی شامل یک کد زبان ISO 639-1 و یک احتمال است.

آن را امتحان کنید!

شروع کنید

استفاده از این کار را با دنبال کردن یکی از این راهنماهای پیاده سازی برای پلتفرم هدف خود شروع کنید. این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده، و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند:

اندروید - نمونه کد - راهنما
پایتون - نمونه کد - راهنما
وب - نمونه کد - راهنما

جزئیات کار

این بخش قابلیت ها، ورودی ها، خروجی ها و گزینه های پیکربندی این کار را شرح می دهد.

ویژگی ها

آستانه امتیاز - نتایج را بر اساس نمرات پیش بینی فیلتر کنید
برچسب لیست مجاز و رد لیست - دسته های شناسایی شده را مشخص کنید

ورودی های وظیفه	خروجی های وظیفه
ردیاب زبان نوع داده ورودی زیر را می پذیرد: رشته	آشکارساز زبان لیستی از پیش‌بینی‌های حاوی: کد زبان: کد زبان / محلی ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) (به عنوان مثال "en" برای انگلیسی، "uz" برای ازبکی، "ja-Latn" برای ژاپنی (روماجی)) به صورت رشته. احتمال: امتیاز اطمینان برای این پیش بینی که به صورت احتمال بین صفر و یک به عنوان مقدار ممیز شناور بیان می شود.

ورودی های وظیفه

خروجی های وظیفه

ردیاب زبان نوع داده ورودی زیر را می پذیرد:

رشته

آشکارساز زبان لیستی از پیش‌بینی‌های حاوی:

کد زبان: کد زبان / محلی ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) (به عنوان مثال "en" برای انگلیسی، "uz" برای ازبکی، "ja-Latn" برای ژاپنی (روماجی)) به صورت رشته.

احتمال: امتیاز اطمینان برای این پیش بینی که به صورت احتمال بین صفر و یک به عنوان مقدار ممیز شناور بیان می شود.

گزینه های پیکربندی

این کار دارای گزینه های پیکربندی زیر است:

نام گزینه	توضیحات	محدوده ارزش	مقدار پیش فرض
`max_results`	حداکثر تعداد اختیاری پیش‌بینی‌های زبان با امتیاز بالا را برای بازگشت تنظیم می‌کند. اگر این مقدار کمتر از صفر باشد، تمام نتایج موجود برگردانده می شوند.	هر عدد مثبت	`-1`
`score_threshold`	آستانه امتیاز پیش‌بینی را تنظیم می‌کند که بر آستانه ارائه‌شده در فراداده مدل (در صورت وجود) لغو می‌شود. نتایج زیر این مقدار رد می شوند.	هر شناور	تنظیم نشده است
`category_allowlist`	لیست اختیاری کدهای زبان مجاز را تنظیم می کند. اگر خالی نباشد، پیش‌بینی‌های زبانی که کد زبان آنها در این مجموعه نیست فیلتر می‌شوند. این گزینه با `category_denylist` منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند.	هر رشته	تنظیم نشده است
`category_denylist`	لیست اختیاری کدهای زبانی را که مجاز نیستند را تنظیم می کند. اگر خالی نباشد، پیش‌بینی‌های زبانی که کد زبان آنها در این مجموعه است فیلتر می‌شوند. این گزینه با `category_allowlist` منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند.	هر رشته	تنظیم نشده است

مدل ها

هنگامی که شما شروع به توسعه با این کار می کنید، یک مدل پیش فرض و توصیه شده را ارائه می دهیم.

مدل آشکارساز زبان (توصیه می شود)

این مدل برای سبک وزن (315 کیلوبایت) ساخته شده است و از معماری طبقه بندی شبکه عصبی مبتنی بر تعبیه استفاده می کند. این مدل زبان را با استفاده از کد زبان ISO 639-1 شناسایی می کند و می تواند 110 زبان را شناسایی کند. برای فهرست زبان‌هایی که مدل پشتیبانی می‌کند، به فایل برچسب مراجعه کنید که زبان‌ها را بر اساس کد ISO 639-1 فهرست می‌کند.

نام مدل	شکل ورودی	نوع کوانتیزاسیون	کارت مدل	نسخه ها
آشکارساز زبان	رشته UTF-8	هیچ (float32)	اطلاعات	آخرین

معیارهای وظیفه

در اینجا معیارهای کار برای کل خط لوله بر اساس مدل های از پیش آموزش دیده بالا آمده است. نتیجه تأخیر، متوسط تأخیر پیکسل 6 با استفاده از CPU / GPU است.

نام مدل	تاخیر CPU	تاخیر GPU
آشکارساز زبان	0.31 میلی‌ثانیه	-