מדריך לזיהוי שפה

דוגמה לממשק משתמש שבו מוצג משפט קלט בצרפתית שמזוהה בצורה נכונה כצרפתית בפלט.

המשימה 'זיהוי שפה' ב-MediaPipe מאפשרת לזהות את השפה של קטע טקסט. המשימה הזו פועלת על נתוני טקסט באמצעות מודל למידת מכונה (ML), ומפיקה רשימה של תחזיות, שבהן כל תחזית מורכבת מקוד שפה לפי תקן ISO 639-1 וסבירות.

רוצים לנסות?

תחילת העבודה

כדי להתחיל להשתמש במשימה הזו, פועלים לפי אחד מהמדריכים הבאים להטמעה בפלטפורמת היעד. המדריכים הספציפיים לפלטפורמות האלה כוללים הנחיות להטמעה בסיסית של המשימה הזו, כולל מודל מומלץ ודוגמת קוד עם אפשרויות ההגדרה המומלצות:

Android – דוגמה לקוד – מדריך
Python – קוד לדוגמה – מדריך
אינטרנט – דוגמה לקוד – מדריך

פרטי המשימה

בקטע הזה מוסבר על היכולות, הקלט, הפלט והאפשרויות להגדרה של המשימה הזו.

תכונות

סף ניקוד – סינון התוצאות על סמך ציונים של תחזיות
תיוג של רשימת ההיתרים ורשימת הדחייה – מציינים את הקטגוריות שזוהו

קלט של משימות	פלט של משימות
הכלי לזיהוי שפות מקבל את סוגי נתוני הקלט הבאים: מחרוזת	הכלי לזיהוי שפה מניב רשימה של תחזיות שמכילות: קוד שפה: קוד שפה או קוד אזור לפי תקן ISO 639-1‏ (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) כמחרוזת (למשל 'en' לאנגלית, 'uz' לאוזבקית, 'ja-Latn' ליפנית (רומאג'י)). הסתברות: ציון הוודאות של התחזית הזו, שמבוטא כהסתברות בין אפס לאחד כערך של נקודה צפה.

קלט של משימות

פלט של משימות

הכלי לזיהוי שפות מקבל את סוגי נתוני הקלט הבאים:

מחרוזת

הכלי לזיהוי שפה מניב רשימה של תחזיות שמכילות:

קוד שפה: קוד שפה או קוד אזור לפי תקן ISO 639-1‏ (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) כמחרוזת (למשל 'en' לאנגלית, 'uz' לאוזבקית, 'ja-Latn' ליפנית (רומאג'י)).

הסתברות: ציון הוודאות של התחזית הזו, שמבוטא כהסתברות בין אפס לאחד כערך של נקודה צפה.

אפשרויות הגדרה

למשימה הזו יש את אפשרויות ההגדרה הבאות:

שם האפשרות	תיאור	טווח ערכים	ערך ברירת מחדל
`max_results`	הגדרת המספר המקסימלי האופציונלי של תחזיות השפות עם הדירוג הגבוה ביותר שיוחזר. אם הערך הזה נמוך מאפס, כל התוצאות הזמינות יחזרו.	מספרים חיוביים	`-1`
`score_threshold`	הגדרת הסף של ציון התחזית, שמבטל את הסף שצוין במטא-נתונים של המודל (אם קיים). תוצאות מתחת לערך הזה נדחות.	כל ערך צף	לא מוגדר
`category_allowlist`	הגדרת רשימה אופציונלית של קודי השפות המותרים. אם הערך לא ריק, תתבצע סינון של תחזיות השפה שקוד השפה שלהן לא נמצא בקבוצה הזו. האפשרות הזו לא תואמת לאפשרות `category_denylist`, ושימוש בשתיהן גורם לשגיאה.	מחרוזות כלשהן	לא מוגדר
`category_denylist`	מגדיר את הרשימה האופציונלית של קודי השפות שאסור להשתמש בהם. אם הערך לא ריק, תחזיות השפה שקוד השפה שלהן נמצא בקבוצה הזו יסוננו. האפשרות הזו לא תואמת לאפשרות `category_allowlist`, ושימוש בשתיהן גורם לשגיאה.	מחרוזות כלשהן	לא מוגדר

דגמים

כשמתחילים לפתח באמצעות המשימה הזו, אנחנו מציעים מודל מומלץ שמוגדר כברירת מחדל.

מודל לזיהוי שפה (מומלץ)

המודל הזה נועד להיות קל (315KB) והוא מבוסס על ארכיטקטורת סיווג של רשת עצבית שמבוססת על הטמעה (embedding). המודל מזהה את השפה באמצעות קוד שפה לפי תקן ISO 639-1, והוא יכול לזהות 110 שפות. רשימת השפות שנתמכות במודל מופיעה בקובץ התוויות, שבו השפות מפורטות לפי קוד ISO 639-1.

שם דגם	צורת הקלט	סוג הקידוד	כרטיס מודל	גרסאות
זיהוי שפה	מחרוזת UTF-8	none (float32)	info	חדש

נקודות השוואה של משימות

בהמשך מפורטות נקודות השוואה של המשימות לצינור עיבוד הנתונים כולו, על סמך המודלים המאומןים מראש שצוינו למעלה. תוצאת זמן האחזור היא זמן האחזור הממוצע ב-Pixel 6 באמצעות מעבד או יחידת עיבוד גרפי (GPU).

שם דגם	זמן האחזור של המעבד (CPU)	זמן אחזור של GPU
זיהוי שפה	0.31 אלפיות השנייה	-