Guida al rilevamento della lingua

L'attività MediaPipe Language Detector consente di identificare la lingua di una porzione di testo. Questa attività opera su dati di testo con un modello di machine learning (ML) e restituisce un elenco di previsioni in cui ogni previsione è composta da un codice linguaggio ISO 639-1 e da una probabilità.

Prova!

Inizia

Inizia a utilizzare questa attività seguendo una di queste guide all'implementazione per la tua piattaforma di destinazione. Queste guide specifiche per piattaforma illustrano un'implementazione di base di questa attività, inclusi un modello consigliato ed un esempio di codice con le opzioni di configurazione consigliate:

Dettagli attività

Questa sezione descrive le funzionalità, gli input, gli output e le opzioni di configurazione di questa attività.

Funzionalità

  • Soglia punteggio: filtra i risultati in base ai punteggi delle previsioni
  • Lista consentita e lista bloccata: specifica le categorie rilevate
Input attività Output attività
Il rilevatore della lingua accetta il seguente tipo di dati di input:
  • Stringa
Il rilevatore della lingua restituisce un elenco di previsioni contenenti:
    • Codice lingua: un codice lingua/lingua ISO 639-1 (https://en.wikipedia.org/wiki / List_of_ISO_639-1_codes) (ad es. "en" per l'inglese, "uz" per l'uzbeco e "ja-Latn" per il giapponese (romaji)) come stringa.
    • Probabilità: il punteggio di affidabilità per questa previsione, espresso come probabilità compresa tra zero e uno come valore in virgola mobile.

Opzioni di configurazione

Questa attività prevede le seguenti opzioni di configurazione:

Nome opzione Descrizione Intervallo di valori Valore predefinito
max_results Imposta il numero massimo facoltativo di previsioni relative alla lingua con il punteggio più alto da restituire. Se questo valore è inferiore a zero, vengono restituiti tutti i risultati disponibili. Eventuali numeri positivi -1
score_threshold Imposta la soglia del punteggio di previsione che sostituisce quella fornita nei metadati del modello (se presenti). I risultati inferiori a questo valore vengono rifiutati. Qualsiasi elemento in virgola mobile Non impostata
category_allowlist Consente di impostare l'elenco facoltativo di codici lingua consentiti. Se il campo non è vuoto, le previsioni relative alle lingue il cui codice non è presente in questo set verranno filtrate. Questa opzione si escludono a vicenda con category_denylist e l'uso di entrambi genera un errore. Qualsiasi stringa Non impostata
category_denylist Consente di impostare l'elenco facoltativo di codici lingua non consentiti. Se il campo non è vuoto, le previsioni delle lingue il cui codice è incluso in questo set verranno omesse. Questa opzione si escluda a vicenda con category_allowlist e l'utilizzo di entrambe genera un errore. Qualsiasi stringa Non impostata

ottimizzabili

Offriamo un modello predefinito consigliato quando inizi a sviluppare con questa attività.

Questo modello è leggero (315 kB) e utilizza un'architettura di classificazione delle reti neurale basata sull'incorporamento. Il modello identifica la lingua utilizzando un codice lingua ISO 639-1 e può identificare 110 lingue. Per un elenco delle lingue supportate dal modello, consulta il file delle etichette, che elenca le lingue in base al relativo codice ISO 639-1.

Nome modello Forma di input Tipo di quantizzazione Scheda del modello Versions
Rilevamento della lingua stringa UTF-8 nessuna (float32) informazioni Più recente

Benchmark attività

Ecco i benchmark delle attività per l'intera pipeline basati sui modelli preaddestrati precedenti. Il risultato della latenza è la latenza media su Pixel 6 utilizzando CPU / GPU.

Nome modello Latenza CPU Latenza GPU
Rilevatore della lingua 0,31 ms -