המשימה 'מזהה שפה של MediaPipe' מאפשרת לך לזהות את השפה של קטע טקסט. המשימה הזו פועלת על נתוני טקסט עם מודל של למידת מכונה (ML) ומפיקה רשימת חיזויים, שבה כל חיזוי מורכב מקוד שפה לפי תקן ISO 639-1 והסתברות.
מתחילים
כדי להתחיל להשתמש במשימה הזו, כדאי לפעול לפי אחד ממדריכי ההטמעה האלה בהתאם לפלטפורמת היעד. במדריכים הבאים שספציפיים לפלטפורמה תמצאו הנחיות איך לבצע הטמעה בסיסית של המשימה הזו, כולל מודל מומלץ ודוגמה לקוד עם אפשרויות הגדרה מומלצות:
- Android – דוגמה לקוד – מדריך
- Python – דוגמה לקוד – מדריך
- אינטרנט - דוגמה לקוד – מדריך
פרטי המשימה
בקטע הזה מתוארות היכולות, הקלט, הפלט ואפשרויות ההגדרה של המשימה הזו.
תכונות
- סף הציון – סינון התוצאות על סמך ציוני התחזית
- רשימת היתרים של תוויות ורשימת ישויות שנחסמו – ציון הקטגוריות שזוהו
קלט למשימות | פלט המשימות |
---|---|
גלאי השפה מקבל את סוג נתוני הקלט הבא:
|
גלאי השפה מפיק רשימת חיזויים שמכילה:
|
אפשרויות של הגדרות אישיות
במשימה הזאת קיימות אפשרויות ההגדרה הבאות:
שם האפשרות | תיאור | טווח ערכים | ערך ברירת מחדל |
---|---|---|---|
max_results |
מגדירה את המספר המקסימלי האופציונלי של חיזויי שפה בניקוד הגבוה ביותר להחזרה. אם הערך הזה קטן מאפס, יוחזרו כל התוצאות הזמינות. | כל מספר חיובי | -1 |
score_threshold |
השדה הזה מגדיר את סף הציון של החיזוי ששונה מהסף שצוין במטא-נתונים של המודל (אם יש כזה). תוצאות מתחת לערך הזה יידחו. | כל מספר ממשי (float) | לא הוגדרה |
category_allowlist |
מגדיר את הרשימה האופציונלית של קודי שפה מותרים. אם השדה לא ריק, חיזויי שפה שקוד השפה שלהם לא נכלל בקבוצה הזו יסוננו. האפשרות הזו בלעדית ל-category_denylist ומשתמשת בשתי התוצאות האלה כשגיאה. |
כל מחרוזת | לא הוגדרה |
category_denylist |
מגדיר את הרשימה האופציונלית של קודי שפות שאינם מותרים. אם השדה לא ריק, המערכת תסנן את החיזויים של השפות שקוד השפה שלהם נכלל בקבוצה הזו. האפשרות הזו בלעדית ל-category_allowlist , והשימוש בשתי האפשרויות גורם לשגיאה. |
כל מחרוזת | לא הוגדרה |
דגמים
כשמתחילים לפתח עם המשימה הזו, אנחנו מציעים מודל ברירת מחדל מומלץ.
מודל של מזהה השפה (מומלץ)
המודל הזה נועד להיות קל משקל (315KB), והוא משתמש בארכיטקטורת סיווג של רשתות נוירונים שמבוססות על הטמעה. המודל מזהה שפה באמצעות קוד שפה לפי ISO 639-1, ויכול לזהות 110 שפות. רשימת השפות שנתמכות על ידי המודל זמינה בקובץ התווית, שבו מפורטות השפות לפי קוד ISO 639-1 שלהן.
שם הדגם | צורת הקלט | סוג הכמות | כרטיס דגם | גרסאות |
---|---|---|---|---|
גלאי שפה | מחרוזת UTF-8 | ללא (float32) | מידע | האחרון |
נקודות השוואה למשימות
אלה נקודות ההשוואה למשימות לגבי כל צינור עיבוד הנתונים, בהתבסס על המודלים שהוכשרו מראש למעלה. זמן האחזור הוא זמן האחזור הממוצע ב-Pixel 6 כשמשתמשים במעבד (CPU) או ב-GPU.
שם דגם | זמן אחזור של המעבד (CPU) | זמן אחזור של GPU |
---|---|---|
גלאי שפה | 0.31 אלפיות השנייה | - |