Zadanie MediaPipe Language Detector umożliwia wykrywanie języka, w jakim napisano tekst. To zadanie działa na danych tekstowych za pomocą modelu uczenia maszynowego (ML) i wyprowadza listę prognoz, z których każda składa się z kodu języka ISO 639-1 i prawdopodobieństwo.
Rozpocznij
Aby zacząć korzystać z tego zadania, postępuj zgodnie z jednym z tych przewodników dotyczących wdrażania na platformie docelowej. Te przewodniki dotyczące poszczególnych platform zawierają podstawowe informacje o wdrażaniu tego zadania, w tym zalecany model i przykład kodu z zalecanymi opcjami konfiguracji:
- Android – przykład kodu – przewodnik
- Python – przykład kodu – przewodnik
- Web – przykład kodu – przewodnik
Szczegóły działania
W tej sekcji opisano możliwości, dane wejściowe, dane wyjściowe i opcje konfiguracji tego zadania.
Funkcje
- Progień wyniku – filtrowanie wyników na podstawie wyników prognozy.
- Lista dozwolonych i zablokowanych etykiet – określ wykryte kategorie.
Dane wejściowe zadania | Dane wyjściowe |
---|---|
Detector języka obsługuje te typy danych wejściowych:
|
Detector Language zwraca listę prognoz zawierającą:
|
Opcje konfiguracji
To zadanie ma te opcje konfiguracji:
Nazwa opcji | Opis | Zakres wartości | Wartość domyślna |
---|---|---|---|
max_results |
Określa opcjonalną maksymalną liczbę prognoz językowych z najwyższymi wynikami do zwrócenia. Jeśli ta wartość jest mniejsza od 0, zwracane są wszystkie dostępne wyniki. | dowolne liczby dodatnie, | -1 |
score_threshold |
Ustawia próg wyniku prognozy, który zastępuje próg podany w metadanych modelu (jeśli takie istnieją). Wyniki poniżej tej wartości są odrzucane. | Dowolna liczba zmiennych typu float | Nie ustawiono |
category_allowlist |
Ustawia opcjonalną listę dozwolonych kodów języków. Jeśli niepuste prognozy języka mają kod języka, którego nie ma na tej liście, zostaną odfiltrowane. Ta opcja jest wzajemnie wykluczająca się z opcją category_denylist . Użycie obu spowoduje błąd. |
dowolne ciągi znaków; | Nie ustawiono |
category_denylist |
Ustawia opcjonalną listę kodów języków, które są niedozwolone. Jeśli nie jest pusty, prognozy języka, których kod języka znajduje się w tym zbiorze, zostaną odfiltrowane. Ta opcja jest wzajemnie wykluczająca się z opcją category_allowlist , a użycie obu spowoduje błąd. |
dowolne ciągi znaków; | Nie ustawiono |
Modele
Gdy rozpoczniesz tworzenie tego zadania, otrzymasz domyślny, zalecany model.
Model wykrywania języka (zalecany)
Ten model jest lekki (315 KB) i wykorzystuje architekturę klasyfikacji sieci neuronowych opartą na umieszczaniu. Model rozpoznaje język za pomocą kodu języka ISO 639-1 i może rozpoznać 110 języków. Listę języków obsługiwanych przez model znajdziesz w pliku etykiet, który zawiera języki według kodu ISO 639-1.
Nazwa modelu | Kształt wejściowy | Typ kwantowania | Karta modelu | Wersje |
---|---|---|---|---|
Language Detector | ciąg znaków UTF-8 | brak (float32) | info | Najnowsze |
Porównania zadań
Poniżej znajdziesz punkty odniesienia zadań dla całego potoku na podstawie wymienionych powyżej wstępnie wytrenowanych modeli. Wynik opóźnienia to średnie opóźnienie na Pixelu 6 z wykorzystaniem procesora CPU lub GPU.
Nazwa modelu | Czas oczekiwania procesora | Opóźnienie GPU |
---|---|---|
Detector języka | 0,31 ms | - |