La tarea Detector de idioma de MediaPipe te permite identificar el idioma de un texto. Esta tarea opera en datos de texto con un modelo de aprendizaje automático (AA) y genera una lista de predicciones, en la que cada predicción consiste en un código de idioma ISO 639-1 y una probabilidad.
Comenzar
Para comenzar a usar esta tarea, sigue una de estas guías de implementación para tu plataforma de destino. En estas guías específicas de la plataforma, se explica una implementación básica de esta tarea, incluido un modelo recomendado y un ejemplo de código con las opciones de configuración recomendadas:
- Android: Ejemplo de código: Guía
- Python: Ejemplo de código: Guía
- Web: Ejemplo de código: Guía
Detalles de la tarea
En esta sección, se describen las capacidades, las entradas, las salidas y las opciones de configuración de esta tarea.
Funciones
- Umbral de puntuación: Filtra los resultados según las puntuaciones de predicción.
- Etiqueta la lista de entidades permitidas y la lista de bloqueo: Especifica las categorías detectadas.
Entradas de tareas | Resultados de las tareas |
---|---|
El detector de lenguaje acepta el siguiente tipo de datos de entrada:
|
El detector de idiomas genera una lista de predicciones que contiene lo siguiente:
|
Opciones de configuración
Esta tarea tiene las siguientes opciones de configuración:
Nombre de la opción | Descripción | Rango de valores | Valor predeterminado |
---|---|---|---|
max_results |
Establece la cantidad máxima opcional de predicciones de idioma con la puntuación más alta que se mostrarán. Si este valor es menor que cero, se muestran todos los resultados disponibles. | Cualquier número positivo | -1 |
score_threshold |
Establece el umbral de puntuación de predicción que anula el que se proporciona en los metadatos del modelo (si corresponde). Se rechazan los resultados por debajo de este valor. | Cualquier número de punto flotante | Sin establecer |
category_allowlist |
Establece la lista opcional de códigos de idioma permitidos. Si no está vacío, se filtrarán las predicciones de idioma cuyo código de idioma no esté en este conjunto. Esta opción es mutuamente excluyente con category_denylist y el uso de ambas genera un error. |
Cualquier cadena | Sin establecer |
category_denylist |
Establece la lista opcional de códigos de idioma que no están permitidos. Si no está vacío, se filtrarán las predicciones de idioma cuyo código de idioma esté en este conjunto. Esta opción es mutuamente excluyente con category_allowlist y si usas ambas, se genera un error. |
Cualquier cadena | Sin establecer |
Modelos
Ofrecemos un modelo predeterminado y recomendado cuando comienzas a desarrollar con esta tarea.
Modelo de detector de idioma (recomendado)
Este modelo se diseñó para ser ligero (315 KB) y usa una arquitectura de clasificación de redes neuronales basada en incorporaciones. El modelo identifica el idioma con un código de idioma ISO 639-1 y puede identificar 110 idiomas. Para obtener una lista de los idiomas compatibles con el modelo, consulta el archivo de etiquetas, en el que se enumeran los idiomas por su código ISO 639-1.
Nombre del modelo | Forma de entrada | Tipo de cuantización | Tarjeta de modelo | Versiones |
---|---|---|---|---|
Detector de idioma | Cadena UTF-8 | ninguno (float32) | info | Más reciente |
Comparativas de tareas
Estas son las comparativas de tareas de toda la canalización según los modelos previamente entrenados anteriores. El resultado de la latencia es la latencia promedio en el Pixel 6 con CPU o GPU.
Nombre del modelo | Latencia de la CPU | Latencia de la GPU |
---|---|---|
Detector de idioma | 0.31 ms | - |