Leitfaden zur Spracherkennung

Mit der Aufgabe „MediaPipe Language Detector“ können Sie die Sprache eines Textabschnitts ermitteln. Bei dieser Aufgabe werden Textdaten mit einem ML-Modell (Machine Learning) verarbeitet und eine Liste von Vorhersagen ausgegeben, wobei jede Vorhersage aus einem ISO 639-1-Sprachcode und einer Wahrscheinlichkeit besteht.

Jetzt ausprobieren

Jetzt starten

Beginnen Sie mit dieser Aufgabe, indem Sie einem dieser Implementierungsleitfäden für Ihre Zielplattform folgen. Diese plattformspezifischen Leitfäden führen Sie durch eine grundlegende Implementierung dieser Aufgabe, einschließlich eines empfohlenen Modells und eines Codebeispiels mit empfohlenen Konfigurationsoptionen:

Taskdetails

In diesem Abschnitt werden die Funktionen, Eingaben, Ausgaben und Konfigurationsoptionen dieser Aufgabe beschrieben.

Funktionen

  • Score-Schwellenwert: Ergebnisse basierend auf den Vorhersagewerten filtern
  • Zulassungs- und Sperrliste für Labels: Geben Sie die erkannten Kategorien an.
Aufgabeneingaben Aufgabenausgaben
Language Detector unterstützt die folgenden Eingabedatentypen:
  • String
Der Sprachdetektor gibt eine Liste von Vorhersagen aus, die Folgendes enthält:
    • Sprachcode: Ein Sprach-/Gebietscode nach ISO 639-1 (https://en.wikipedia.org/wiki / List_of_ISO_639-1_codes) (z.B. „en“ für Englisch, „uz“ für Usbekisch, „ja-Latn“ für Japanisch (Romaji)) als String.
    • Wahrscheinlichkeit: der Konfidenzwert für diese Vorhersage, ausgedrückt als Wahrscheinlichkeit zwischen null und eins als Gleitkommawert.

Konfigurationsoptionen

Diese Aufgabe hat die folgenden Konfigurationsoptionen:

Option Beschreibung Wertebereich Standardwert
max_results Legt die optionale maximale Anzahl von Sprachvorhersagen mit den besten Bewertungen fest, die zurückgegeben werden sollen. Wenn dieser Wert kleiner als null ist, werden alle verfügbaren Ergebnisse zurückgegeben. Beliebige positive Zahlen -1
score_threshold Legt den Schwellenwert für den Vorhersagewert fest, der den in den Modellmetadaten angegebenen Grenzwert überschreibt (falls vorhanden). Ergebnisse unter diesem Wert werden abgelehnt. Beliebige Gleitkommazahl Nicht festgelegt
category_allowlist Legt die optionale Liste der zulässigen Sprachcodes fest. Wenn das Feld nicht leer ist, werden Sprachvorhersagen herausgefiltert, deren Sprachcode nicht in diesem Dataset enthalten ist. Diese Option und category_denylist schließen sich gegenseitig aus und die Verwendung beider Werte führt zu einem Fehler. Beliebige Strings Nicht festgelegt
category_denylist Legt die optionale Liste der unzulässigen Sprachcodes fest. Wenn das Feld nicht leer ist, werden Sprachvorhersagen herausgefiltert, deren Sprachcode in diesem Satz enthalten ist. Diese Option und category_allowlist schließen sich gegenseitig aus und die Verwendung beider Werte führt zu einem Fehler. Beliebige Strings Nicht festgelegt

Modelle

Wir bieten ein empfohlenes Standardmodell an, wenn Sie mit dieser Aufgabe beginnen.

Dieses Modell ist einfach (315 KB) und verwendet eine einbettungsbasierte, neuronale Netzwerkklassifizierungsarchitektur. Das Modell identifiziert die Sprache mithilfe eines ISO 639-1-Sprachcodes und kann 110 Sprachen identifizieren. Eine Liste der vom Modell unterstützten Sprachen finden Sie in der Labeldatei. Dort sind die Sprachen nach ISO 639-1-Code aufgeführt.

Modellname Form eingeben Quantisierungstyp Modellkarte Versionen
Spracherkennung String UTF-8 Keine (Gleitkommazahl32) Informationen Neueste

Aufgaben-Benchmarks

Im Folgenden sind die Aufgaben-Benchmarks für die gesamte Pipeline basierend auf den oben vortrainierten Modellen aufgeführt. Das Latenzergebnis ist die durchschnittliche Latenz auf Pixel 6 mit CPU / GPU.

Modellname CPU-Latenz GPU-Latenz
Sprachdetektor 0,31 ms -