Google AI Edge Portal: Edge-KI im großen Maßstab benchmarken. Melden Sie sich an, um während der privaten Vorschau Zugriff anzufordern.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Leitfaden zur Spracherkennung

Beispiel für eine Benutzeroberfläche mit einem Eingabesatz auf Französisch, der in der Ausgabe korrekt als Französisch erkannt wird.

Mit der Aufgabe „MediaPipe Language Detector“ können Sie die Sprache eines Texts ermitteln. Bei dieser Aufgabe werden Textdaten mit einem Modell für maschinelles Lernen (ML) verarbeitet und eine Liste mit Vorhersagen ausgegeben. Jede Vorhersage besteht aus einem ISO 639-1-Sprachcode und einer Wahrscheinlichkeit.

Jetzt testen!

Jetzt starten

Folgen Sie einer dieser Implementierungsanleitungen für Ihre Zielplattform, um diese Aufgabe zu verwenden. In diesen plattformspezifischen Anleitungen werden Sie durch die grundlegende Implementierung dieser Aufgabe geführt. Sie finden dort auch ein empfohlenes Modell und ein Codebeispiel mit empfohlenen Konfigurationsoptionen:

Android – Codebeispiel – Anleitung
Python – Codebeispiel – Anleitung
Web – Codebeispiel – Anleitung

Taskdetails

In diesem Abschnitt werden die Funktionen, Eingaben, Ausgaben und Konfigurationsoptionen dieser Aufgabe beschrieben.

Funktionen

Grenzwert für die Punktzahl: Ergebnisse nach Vorhersagepunktzahl filtern
Zulassungs- und Sperrliste für Labels: Hier können Sie die erkannten Kategorien angeben.

Aufgabeneingaben	Aufgabenausgaben
Der Sprachdetektor akzeptiert den folgenden Eingabedatentyp: String	Der Sprachdetektor gibt eine Liste mit Vorschlägen aus, die Folgendes enthalten: Sprachcode: Ein ISO 639-1-Sprach-/Standortcode (https://de.wikipedia.org/wiki / Liste_der_ISO_639-1-Codes) (z.B. „de“ für Deutsch, „uz“ für Usbekisch, „ja-Latn“ für Japanisch (Romaji)) als String. Wahrscheinlichkeit: Der Konfidenzwert für diese Vorhersage, ausgedrückt als Wahrscheinlichkeit zwischen 0 und 1 als Gleitkommawert.

Aufgabeneingaben

Aufgabenausgaben

Der Sprachdetektor akzeptiert den folgenden Eingabedatentyp:

String

Der Sprachdetektor gibt eine Liste mit Vorschlägen aus, die Folgendes enthalten:

Sprachcode: Ein ISO 639-1-Sprach-/Standortcode (https://de.wikipedia.org/wiki / Liste_der_ISO_639-1-Codes) (z.B. „de“ für Deutsch, „uz“ für Usbekisch, „ja-Latn“ für Japanisch (Romaji)) als String.

Wahrscheinlichkeit: Der Konfidenzwert für diese Vorhersage, ausgedrückt als Wahrscheinlichkeit zwischen 0 und 1 als Gleitkommawert.

Konfigurationsoptionen

Für diese Aufgabe gibt es die folgenden Konfigurationsoptionen:

Option	Beschreibung	Wertebereich	Standardwert
`max_results`	Legt die optionale maximale Anzahl der Sprachvorschläge mit der höchsten Punktzahl fest, die zurückgegeben werden sollen. Wenn dieser Wert kleiner als null ist, werden alle verfügbaren Ergebnisse zurückgegeben.	Beliebige positive Zahlen	`-1`
`score_threshold`	Legt den Schwellenwert für die Vorhersagebewertung fest, der den in den Modellmetadaten angegebenen Wert (falls vorhanden) überschreibt. Ergebnisse unter diesem Wert werden abgelehnt.	Beliebiger Float	Nicht festgelegt
`category_allowlist`	Legt die optionale Liste der zulässigen Sprachcodes fest. Wenn die Liste nicht leer ist, werden Sprachvorschläge, deren Sprachcode nicht in dieser Liste enthalten ist, herausgefiltert. Diese Option schließt `category_denylist` aus. Die Verwendung beider Optionen führt zu einem Fehler.	Beliebige Strings	Nicht festgelegt
`category_denylist`	Hiermit wird die optionale Liste der nicht zulässigen Sprachcodes festgelegt. Wenn das Set nicht leer ist, werden Sprachvorschläge herausgefiltert, deren Sprachcode in diesem Set enthalten ist. Diese Option schließt `category_allowlist` aus. Die Verwendung beider Optionen führt zu einem Fehler.	Beliebige Strings	Nicht festgelegt

Modelle

Wir bieten ein standardmäßiges, empfohlenes Modell, wenn Sie mit dieser Aufgabe beginnen.

Modell für Spracherkennung (empfohlen)

Dieses Modell ist effizient (315 KB) und verwendet eine embeddingsbasierte Klassifizierungsarchitektur für neuronale Netze. Das Modell identifiziert die Sprache anhand eines ISO 639-1-Sprachcodes und kann 110 Sprachen erkennen. Eine Liste der vom Modell unterstützten Sprachen findest du in der Labeldatei. Dort sind die Sprachen nach ihrem ISO 639-1-Code aufgeführt.

Modellname	Eingabeform	Quantisierungstyp	Modellkarte	Versionen
Spracherkennung	String UTF-8	Keine (float32)	info	Neueste

Benchmarks für Aufgaben

Hier sind die Aufgaben-Benchmarks für die gesamte Pipeline, die auf den oben genannten vorab trainierten Modellen basieren. Das Latenzergebnis ist die durchschnittliche Latenz auf Pixel 6 mit CPU / GPU.

Modellname	CPU-Latenz	GPU-Latenz
Spracherkennung	0,31 ms	-