Guide de détection de la langue

La tâche "Détecteur de langue" MediaPipe vous permet d'identifier la langue d'un texte. Cette tâche s'applique à des données textuelles avec un modèle de machine learning (ML) et génère une liste de prédictions, chacune étant constituée d'un code de langue ISO 639-1 et d'une probabilité.

Essayer

Commencer

Commencez à utiliser cette tâche en suivant l'un de ces guides d'implémentation pour votre plate-forme cible. Ces guides spécifiques à la plate-forme vous guident tout au long d'une implémentation de base de cette tâche, y compris un modèle et un exemple de code recommandés, ainsi que les options de configuration recommandées:

Détails de la tâche

Cette section décrit les capacités, les entrées, les sorties et les options de configuration de cette tâche.

Caractéristiques

  • Seuil de score : filtre les résultats en fonction des scores de prédiction.
  • Liste d'autorisation et liste de blocage de libellés : spécifiez les catégories détectées.
Entrées des tâches Sorties de tâches
Le détecteur de langue accepte les types de données d'entrée suivants:
  • Chaîne
Le détecteur de langue génère une liste de prédictions contenant les éléments suivants:
    • Code de langue: code de langue et de paramètre régional ISO 639-1 (https://fr.wikipedia.org/wiki/Liste_des_codes_ISO_639-1) (par exemple, "en" pour l'anglais, "uz" pour l'ouzbek, "ja-Latn" pour le japonais (romaji)), sous forme de chaîne.
    • Probabilité: score de confiance de cette prédiction, exprimé sous la forme d'une probabilité comprise entre zéro et un sous forme de valeur à virgule flottante.

Options de configuration

Cette tâche comporte les options de configuration suivantes:

Nom de l'option Description Plage de valeurs Valeur par défaut
max_results Définit le nombre maximal (facultatif) de prédictions linguistiques mieux notées à renvoyer. Si cette valeur est inférieure à zéro, tous les résultats disponibles sont renvoyés. Tout nombre positif -1
score_threshold Définit le seuil de score de prédiction qui remplace celui fourni dans les métadonnées du modèle (le cas échéant). Les résultats inférieurs à cette valeur sont refusés. N'importe quelle valeur flottante Non définie
category_allowlist Définit la liste facultative des codes de langue autorisés. Si ce champ n'est pas vide, les prédictions de langue dont le code de langue ne figure pas dans cet ensemble seront filtrées. Cette option s'exclut mutuellement avec category_denylist et l'utilisation des deux résultats génère une erreur. N'importe quelle chaîne Non définie
category_denylist Définit la liste facultative des codes de langue non autorisés. Si ce champ n'est pas vide, les prédictions de langue dont le code de langue fait partie de cet ensemble seront filtrées. Cette option s'exclut mutuellement avec category_allowlist. L'utilisation des deux résultats génère une erreur. N'importe quelle chaîne Non définie

Modèles

Nous vous proposons un modèle par défaut recommandé lorsque vous commencez à développer avec cette tâche.

Ce modèle est conçu pour être léger (315 Ko) et utilise une architecture de classification de réseaux de neurones basée sur des représentations vectorielles continues. Le modèle identifie la langue à l'aide d'un code de langue ISO 639-1 et peut identifier 110 langues. Pour obtenir la liste des langues compatibles avec le modèle, consultez le fichier d'étiquettes, qui répertorie les langues en fonction de leur code ISO 639-1.

Nom du modèle Forme de saisie Type de quantification Fiche modèle Versions
Détecteur de langue chaîne UTF-8 aucune (float32) info Les plus récents

Benchmarks de tâches

Voici les benchmarks de tâches pour l'ensemble du pipeline, sur la base des modèles pré-entraînés ci-dessus. Le résultat correspond à la latence moyenne sur le Pixel 6 en utilisant le processeur / GPU.

Nom du modèle Latence du processeur Latence du GPU
Détecteur de langue 0,31 ms -