Guide de détection de la langue pour le Web

La tâche "Détecteur de langue" MediaPipe vous permet d'identifier la langue d'un texte. Ces instructions vous expliquent comment utiliser le détecteur de langue pour les applications Web et JavaScript. L'exemple de code décrit dans ces instructions est disponible sur GitHub.

Pour voir cette tâche en action, regardez la démonstration. Pour en savoir plus sur les fonctionnalités, les modèles et les options de configuration de cette tâche, consultez la présentation.

Exemple de code

L'exemple de code du détecteur de langue fournit une implémentation complète de cette tâche en JavaScript à titre de référence. Ce code vous aide à tester cette tâche et à créer votre propre fonctionnalité de détecteur de langage. Vous pouvez afficher, exécuter et modifier l'exemple de code du détecteur de langue à l'aide de votre navigateur Web.

Préparation

Cette section décrit les étapes clés de la configuration de votre environnement de développement et de vos projets de code spécifiquement pour l'utilisation du détecteur de langage. Pour obtenir des informations générales sur la configuration de votre environnement de développement pour l'utilisation des tâches MediaPipe, y compris sur les exigences de version de la plate-forme, consultez le guide de configuration pour le Web.

Packages JavaScript

Le code de l'outil de détection de langue est disponible dans le package @mediapipe/tasks-text. Vous pouvez trouver et télécharger ces bibliothèques à partir des liens fournis dans le guide de configuration de la plate-forme.

Vous pouvez installer les packages requis avec le code suivant pour la préproduction locale à l'aide de la commande suivante:

npm install @mediapipe/tasks-text

Si vous souhaitez effectuer un déploiement sur un serveur, vous pouvez utiliser un service de réseau de diffusion de contenu (CDN, Content Delivery Network) tel que jsDelivr pour ajouter du code directement à votre page HTML, comme suit:

<head>
  <script src="https://cdn.jsdelivr.net/npm/@mediapipe/tasks-text@latest/index.js"
    crossorigin="anonymous"></script>
</head>

Modèle

La tâche de détecteur de langue MediaPipe nécessite un modèle entraîné compatible avec cette tâche. Pour en savoir plus sur les modèles entraînés disponibles pour le détecteur de langue, consultez la section Modèles de la présentation des tâches.

Sélectionnez et téléchargez un modèle, puis stockez-le dans le répertoire de votre projet:

<dev-project-root>/app/shared/models

Spécifiez le chemin d'accès du modèle avec le paramètre modelAssetPath de l'objet baseOptions, comme indiqué ci-dessous:

baseOptions: {
        modelAssetPath: `/app/shared/models/language_detector.tflite`
      }

Créer la tâche

Utilisez l'une des fonctions LanguageDetector.createFrom...() du détecteur de langue pour préparer la tâche à l'exécution des inférences. Vous pouvez utiliser la fonction createFromModelPath() avec un chemin d'accès relatif ou absolu au fichier du modèle entraîné. L'exemple de code ci-dessous illustre l'utilisation de la fonction createFromOptions(). Pour en savoir plus sur la configuration des tâches, consultez la page Options de configuration.

Le code suivant montre comment créer et configurer cette tâche.

async function createDetector() {
  const textFiles = await FilesetResolver.forTextTasks(
      "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-text@latest/wasm/");
  languageDetector = await languageDetector.createFromOptions(
    textFiles,
    {
      baseOptions: {
        modelAssetPath: `https://storage.googleapis.com/mediapipe-models/language_detector/language_detector/float32/1/language_detector.tflite`
      },
    }
  );
}
createDetector();

Options de configuration

Cette tâche dispose des options de configuration suivantes pour les applications Web et JavaScript:

Nom de l'option Description Plage de valeurs Valeur par défaut
maxResults Définit le nombre maximal (facultatif) de prédictions linguistiques mieux notées à renvoyer. Si cette valeur est inférieure à zéro, tous les résultats disponibles sont renvoyés. Tout nombre positif -1
scoreThreshold Définit le seuil de score de prédiction qui remplace celui fourni dans les métadonnées du modèle (le cas échéant). Les résultats inférieurs à cette valeur sont refusés. N'importe quelle valeur flottante Non définie
categoryAllowlist Définit la liste facultative des codes de langue autorisés. Si ce champ n'est pas vide, les prédictions de langue dont le code de langue ne figure pas dans cet ensemble seront filtrées. Cette option s'exclut mutuellement avec categoryDenylist et l'utilisation des deux résultats génère une erreur. N'importe quelle chaîne Non définie
categoryDenylist Définit la liste facultative des codes de langue non autorisés. Si ce champ n'est pas vide, les prédictions de langue dont le code de langue fait partie de cet ensemble seront filtrées. Cette option s'exclut mutuellement avec categoryAllowlist. L'utilisation des deux résultats génère une erreur. N'importe quelle chaîne Non définie

Préparation des données

Le détecteur de langue fonctionne avec les données textuelles (string). La tâche gère le prétraitement de l'entrée des données, y compris la tokenisation et le prétraitement du Tensor. L'ensemble du prétraitement est géré dans la fonction detect. Aucun prétraitement supplémentaire du texte d'entrée n'est nécessaire au préalable.

const inputText = "The input text for the detector.";

Exécuter la tâche

Le détecteur de langue utilise la fonction detect pour déclencher des inférences. Pour la détection de la langue, cela signifie renvoyer les langues possibles pour le texte d'entrée.

Le code suivant montre comment exécuter le traitement avec le modèle de tâche:

// Wait to run the function until inner text is set
const detectionResult = languageDetector.detect(inputText);

Gérer et afficher les résultats

La tâche "Détecteur de langue" génère un LanguageDetectorResult composé d'une liste de prédictions linguistiques et des probabilités de ces prédictions. Voici un exemple de données de sortie de cette tâche:

LanguageDetectorResult:
  LanguagePrediction #0:
    language_code: "fr"
    probability: 0.999781

Vous avez obtenu ce résultat en exécutant le modèle sur le texte d'entrée : "Il y a beaucoup de bouches qui parlent et fort peu de têtes qui pensent.".

Pour obtenir un exemple de code requis pour traiter et visualiser les résultats de cette tâche, consultez l'application exemple Web.