Leitfaden zur Spracherkennung

Beispiel für eine Benutzeroberfläche mit einem Eingabesatz auf Französisch, der in der Ausgabe korrekt als Französisch erkannt wird.

Mit der Aufgabe „MediaPipe Language Detector“ können Sie die Sprache eines Texts ermitteln. Bei dieser Aufgabe werden Textdaten mit einem Modell für maschinelles Lernen (ML) verarbeitet und eine Liste mit Vorhersagen ausgegeben. Jede Vorhersage besteht aus einem ISO 639-1-Sprachcode und einer Wahrscheinlichkeit.

Jetzt testen!

Jetzt starten

Folgen Sie einer dieser Implementierungsanleitungen für Ihre Zielplattform, um diese Aufgabe zu verwenden. In diesen plattformspezifischen Anleitungen werden Sie durch die grundlegende Implementierung dieser Aufgabe geführt. Sie finden dort auch ein empfohlenes Modell und ein Codebeispiel mit empfohlenen Konfigurationsoptionen:

Taskdetails

In diesem Abschnitt werden die Funktionen, Eingaben, Ausgaben und Konfigurationsoptionen dieser Aufgabe beschrieben.

Funktionen

  • Grenzwert für die Punktzahl: Ergebnisse nach Vorhersagepunktzahl filtern
  • Zulassungs- und Sperrliste für Labels: Hier können Sie die erkannten Kategorien angeben.
Aufgabeneingaben Aufgabenausgaben
Der Sprachdetektor akzeptiert den folgenden Eingabedatentyp:
  • String
Der Sprachdetektor gibt eine Liste mit Vorschlägen aus, die Folgendes enthalten:
    • Sprachcode: Ein ISO 639-1-Sprach-/Standortcode (https://de.wikipedia.org/wiki / Liste_der_ISO_639-1-Codes) (z.B. „de“ für Deutsch, „uz“ für Usbekisch, „ja-Latn“ für Japanisch (Romaji)) als String.
    • Wahrscheinlichkeit: Der Konfidenzwert für diese Vorhersage, ausgedrückt als Wahrscheinlichkeit zwischen 0 und 1 als Gleitkommawert.

Konfigurationsoptionen

Für diese Aufgabe gibt es die folgenden Konfigurationsoptionen:

Option Beschreibung Wertebereich Standardwert
max_results Legt die optionale maximale Anzahl der Sprachvorschläge mit der höchsten Punktzahl fest, die zurückgegeben werden sollen. Wenn dieser Wert kleiner als null ist, werden alle verfügbaren Ergebnisse zurückgegeben. Beliebige positive Zahlen -1
score_threshold Legt den Schwellenwert für die Vorhersagebewertung fest, der den in den Modellmetadaten angegebenen Wert (falls vorhanden) überschreibt. Ergebnisse unter diesem Wert werden abgelehnt. Beliebiger Float Nicht festgelegt
category_allowlist Legt die optionale Liste der zulässigen Sprachcodes fest. Wenn die Liste nicht leer ist, werden Sprachvorschläge, deren Sprachcode nicht in dieser Liste enthalten ist, herausgefiltert. Diese Option schließt category_denylist aus. Die Verwendung beider Optionen führt zu einem Fehler. Beliebige Strings Nicht festgelegt
category_denylist Hiermit wird die optionale Liste der nicht zulässigen Sprachcodes festgelegt. Wenn das Set nicht leer ist, werden Sprachvorschläge herausgefiltert, deren Sprachcode in diesem Set enthalten ist. Diese Option schließt category_allowlist aus. Die Verwendung beider Optionen führt zu einem Fehler. Beliebige Strings Nicht festgelegt

Modelle

Wir bieten ein standardmäßiges, empfohlenes Modell, wenn Sie mit dieser Aufgabe beginnen.

Dieses Modell ist effizient (315 KB) und verwendet eine embeddingsbasierte Klassifizierungsarchitektur für neuronale Netze. Das Modell identifiziert die Sprache anhand eines ISO 639-1-Sprachcodes und kann 110 Sprachen erkennen. Eine Liste der vom Modell unterstützten Sprachen findest du in der Labeldatei. Dort sind die Sprachen nach ihrem ISO 639-1-Code aufgeführt.

Modellname Eingabeform Quantisierungstyp Modellkarte Versionen
Spracherkennung String UTF-8 Keine (float32) info Neueste

Benchmarks für Aufgaben

Hier sind die Aufgaben-Benchmarks für die gesamte Pipeline, die auf den oben genannten vorab trainierten Modellen basieren. Das Latenzergebnis ist die durchschnittliche Latenz auf Pixel 6 mit CPU / GPU.

Modellname CPU-Latenz GPU-Latenz
Spracherkennung 0,31 ms -