Przewodnik wykrywania języka

Zadanie Wykrywacz języka MediaPipe pozwala określić język tekstu. To zadanie jest wykonywane na danych tekstowych z użyciem modelu systemów uczących się i generuje listę prognoz, z których składa się kod języka w standardzie ISO 639-1 oraz prawdopodobieństwo.

Wypróbuj!

Rozpocznij

Zacznij od wykonania tego zadania, postępując zgodnie z instrukcjami podanymi w jednym z przewodników po implementacji dla platformy docelowej. Przewodniki dotyczące poszczególnych platform przeprowadzą Cię przez podstawowe wdrożenie tego zadania, w tym zalecany model i przykładowy kod z zalecanymi opcjami konfiguracji:

Szczegóły działania

W tej sekcji opisujemy możliwości, dane wejściowe, dane wyjściowe i opcje konfiguracji tego zadania.

Funkcje

  • Próg wyniku – filtrowanie wyników na podstawie wyników prognozy
  • Lista dozwolonych i odrzuconych etykiet – określa wykryte kategorie.
Dane wejściowe zadań Wyniki działania
Narzędzie do wykrywania języka akceptuje ten typ danych wejściowych:
  • Ciąg znaków
Funkcja do wykrywania języka generuje listę prognoz zawierających następujące informacje:
    • Kod języka: kod ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) języka lub regionu (np. „en” dla języka angielskiego, „uz” dla uzbeckiego czy „ja-Latn” dla języka japońskiego (romaji) jako ciąg znaków.
    • Prawdopodobieństwo: wskaźnik ufności tej prognozy wyrażony jako prawdopodobieństwo z zakresu od 0 do 1 jako wartość zmiennoprzecinkowa.

Opcje konfiguracji

To zadanie ma te opcje konfiguracji:

Nazwa opcji Opis Zakres wartości Wartość domyślna
max_results Określa opcjonalną maksymalną liczbę prognozowanych języków o najwyższych wynikach do zwrócenia. Jeśli ta wartość jest mniejsza niż 0, zwracane są wszystkie dostępne wyniki. Dowolne liczby dodatnie -1
score_threshold Ustawia próg wyniku prognozy, który zastępuje próg podany w metadanych modelu (jeśli istnieją). Wyniki poniżej tej wartości zostały odrzucone. Dowolna liczba zmiennoprzecinkowa Nie ustawiono
category_allowlist Ustawia opcjonalną listę dozwolonych kodów języków. Jeśli nie będzie pusty, podpowiedzi języka, których kodu języka nie ma w tym zestawie, zostaną odfiltrowane. Ta opcja wzajemnie się wyklucza category_denylist i korzystanie z obu daje błąd. Dowolne ciągi Nie ustawiono
category_denylist Ustawia opcjonalną listę niedozwolonych kodów języków. Jeśli nie są puste, prognozy języka, których kod języka jest w tym zbiorze, zostaną odfiltrowane. Ta opcja wzajemnie się wyklucza z category_allowlist, a korzystanie z obu daje błąd. Dowolne ciągi Nie ustawiono

Modele

Gdy zaczniesz tworzyć to zadanie, udostępniamy domyślny, zalecany model.

Ten model jest lekki (315 KB) i wykorzystuje opartą na osadzeniu architekturę klasyfikacji sieci neuronowych. Model identyfikuje język za pomocą kodu języka ISO 639-1 i rozpoznaje 110 języków. Listę języków obsługiwanych przez model znajdziesz w pliku etykiet, który zawiera listę języków uporządkowaną według kodu ISO 639-1.

Nazwa modelu Wprowadź kształt Typ kwantyzacji Karta modelu Wersje
Wykrywacz języka ciąg znaków UTF-8 brak (float32) informacje Najnowsze

Testy porównawcze działań

Oto porównania zadań dla całego potoku na podstawie powyższych wytrenowanych modeli. Wynik opóźnienia to średnie opóźnienie na Pixelu 6 korzystającym z procesora / GPU.

Nazwa modelu Czas oczekiwania procesora Opóźnienie GPU
Wykrywacz języka 0,31 ms -