La tâche "Détecteur de langue" MediaPipe vous permet d'identifier la langue d'un texte. Cette tâche s'applique à des données textuelles avec un modèle de machine learning (ML) et génère une liste de prédictions, chacune étant constituée d'un code de langue ISO 639-1 et d'une probabilité.
Commencer
Commencez à utiliser cette tâche en suivant l'un de ces guides d'implémentation pour votre plate-forme cible. Ces guides spécifiques à la plate-forme vous guident tout au long d'une implémentation de base de cette tâche, y compris un modèle et un exemple de code recommandés, ainsi que les options de configuration recommandées:
- Android – Exemple de code – Guide
- Python – Exemple de code – Guide
- Web – Exemple de code – Guide
Détails de la tâche
Cette section décrit les capacités, les entrées, les sorties et les options de configuration de cette tâche.
Caractéristiques
- Seuil de score : filtre les résultats en fonction des scores de prédiction.
- Liste d'autorisation et liste de blocage de libellés : spécifiez les catégories détectées.
Entrées des tâches | Sorties de tâches |
---|---|
Le détecteur de langue accepte les types de données d'entrée suivants:
|
Le détecteur de langue génère une liste de prédictions contenant les éléments suivants:
|
Options de configuration
Cette tâche comporte les options de configuration suivantes:
Nom de l'option | Description | Plage de valeurs | Valeur par défaut |
---|---|---|---|
max_results |
Définit le nombre maximal (facultatif) de prédictions linguistiques mieux notées à renvoyer. Si cette valeur est inférieure à zéro, tous les résultats disponibles sont renvoyés. | Tout nombre positif | -1 |
score_threshold |
Définit le seuil de score de prédiction qui remplace celui fourni dans les métadonnées du modèle (le cas échéant). Les résultats inférieurs à cette valeur sont refusés. | N'importe quelle valeur flottante | Non définie |
category_allowlist |
Définit la liste facultative des codes de langue autorisés. Si ce champ n'est pas vide, les prédictions de langue dont le code de langue ne figure pas dans cet ensemble seront filtrées. Cette option s'exclut mutuellement avec category_denylist et l'utilisation des deux résultats génère une erreur. |
N'importe quelle chaîne | Non définie |
category_denylist |
Définit la liste facultative des codes de langue non autorisés. Si ce champ n'est pas vide, les prédictions de langue dont le code de langue fait partie de cet ensemble seront filtrées. Cette option s'exclut mutuellement avec category_allowlist . L'utilisation des deux résultats génère une erreur. |
N'importe quelle chaîne | Non définie |
Modèles
Nous vous proposons un modèle par défaut recommandé lorsque vous commencez à développer avec cette tâche.
Modèle de détecteur de langue (recommandé)
Ce modèle est conçu pour être léger (315 Ko) et utilise une architecture de classification de réseaux de neurones basée sur des représentations vectorielles continues. Le modèle identifie la langue à l'aide d'un code de langue ISO 639-1 et peut identifier 110 langues. Pour obtenir la liste des langues compatibles avec le modèle, consultez le fichier d'étiquettes, qui répertorie les langues en fonction de leur code ISO 639-1.
Nom du modèle | Forme de saisie | Type de quantification | Fiche modèle | Versions |
---|---|---|---|---|
Détecteur de langue | chaîne UTF-8 | aucune (float32) | info | Les plus récents |
Benchmarks de tâches
Voici les benchmarks de tâches pour l'ensemble du pipeline, sur la base des modèles pré-entraînés ci-dessus. Le résultat correspond à la latence moyenne sur le Pixel 6 en utilisant le processeur / GPU.
Nom du modèle | Latence du processeur | Latence du GPU |
---|---|---|
Détecteur de langue | 0,31 ms | - |