מדריך לזיהוי שפה

המשימה 'מזהה שפה של MediaPipe' מאפשרת לך לזהות את השפה של קטע טקסט. המשימה הזו פועלת על נתוני טקסט עם מודל של למידת מכונה (ML) ומפיקה רשימת חיזויים, שבה כל חיזוי מורכב מקוד שפה לפי תקן ISO 639-1 והסתברות.

כדאי לנסות!

מתחילים

כדי להתחיל להשתמש במשימה הזו, כדאי לפעול לפי אחד ממדריכי ההטמעה האלה בהתאם לפלטפורמת היעד. במדריכים הבאים שספציפיים לפלטפורמה תמצאו הנחיות איך לבצע הטמעה בסיסית של המשימה הזו, כולל מודל מומלץ ודוגמה לקוד עם אפשרויות הגדרה מומלצות:

פרטי המשימה

בקטע הזה מתוארות היכולות, הקלט, הפלט ואפשרויות ההגדרה של המשימה הזו.

תכונות

  • סף הציון – סינון התוצאות על סמך ציוני התחזית
  • רשימת היתרים של תוויות ורשימת ישויות שנחסמו – ציון הקטגוריות שזוהו
קלט למשימות פלט המשימות
גלאי השפה מקבל את סוג נתוני הקלט הבא:
  • מחרוזת
גלאי השפה מפיק רשימת חיזויים שמכילה:
    • קוד שפה: ערך ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) קוד שפה / אזור (למשל 'en' עבור אנגלית, 'uz' לאוזבקית, 'ja-Latn' עבור יפנית (romaji)) כמחרוזת.
    • הסתברות: ציון המהימנות של החיזוי הזה, מבוטאת כהסתברות בין אפס ל-1 כערך נקודה צפה (floating-point).

אפשרויות של הגדרות אישיות

במשימה הזאת קיימות אפשרויות ההגדרה הבאות:

שם האפשרות תיאור טווח ערכים ערך ברירת מחדל
max_results מגדירה את המספר המקסימלי האופציונלי של חיזויי שפה בניקוד הגבוה ביותר להחזרה. אם הערך הזה קטן מאפס, יוחזרו כל התוצאות הזמינות. כל מספר חיובי -1
score_threshold השדה הזה מגדיר את סף הציון של החיזוי ששונה מהסף שצוין במטא-נתונים של המודל (אם יש כזה). תוצאות מתחת לערך הזה יידחו. כל מספר ממשי (float) לא הוגדרה
category_allowlist מגדיר את הרשימה האופציונלית של קודי שפה מותרים. אם השדה לא ריק, חיזויי שפה שקוד השפה שלהם לא נכלל בקבוצה הזו יסוננו. האפשרות הזו בלעדית ל-category_denylist ומשתמשת בשתי התוצאות האלה כשגיאה. כל מחרוזת לא הוגדרה
category_denylist מגדיר את הרשימה האופציונלית של קודי שפות שאינם מותרים. אם השדה לא ריק, המערכת תסנן את החיזויים של השפות שקוד השפה שלהם נכלל בקבוצה הזו. האפשרות הזו בלעדית ל-category_allowlist, והשימוש בשתי האפשרויות גורם לשגיאה. כל מחרוזת לא הוגדרה

דגמים

כשמתחילים לפתח עם המשימה הזו, אנחנו מציעים מודל ברירת מחדל מומלץ.

המודל הזה נועד להיות קל משקל (315KB), והוא משתמש בארכיטקטורת סיווג של רשתות נוירונים שמבוססות על הטמעה. המודל מזהה שפה באמצעות קוד שפה לפי ISO 639-1, ויכול לזהות 110 שפות. רשימת השפות שנתמכות על ידי המודל זמינה בקובץ התווית, שבו מפורטות השפות לפי קוד ISO 639-1 שלהן.

שם הדגם צורת הקלט סוג הכמות כרטיס דגם גרסאות
גלאי שפה מחרוזת UTF-8 ללא (float32) מידע האחרון

נקודות השוואה למשימות

אלה נקודות ההשוואה למשימות לגבי כל צינור עיבוד הנתונים, בהתבסס על המודלים שהוכשרו מראש למעלה. זמן האחזור הוא זמן האחזור הממוצע ב-Pixel 6 כשמשתמשים במעבד (CPU) או ב-GPU.

שם דגם זמן אחזור של המעבד (CPU) זמן אחזור של GPU
גלאי שפה 0.31 אלפיות השנייה -