A tarefa do detector de idioma do MediaPipe permite identificar o idioma de um texto. Essa
tarefa opera em dados de texto com um modelo de aprendizado de máquina (ML) e gera uma lista
de previsões, em que cada previsão consiste em um
código de idioma ISO 639-1
e uma probabilidade.
Para começar a usar essa tarefa, siga um destes guias de implementação para sua
plataforma de destino. Estes guias específicos para plataformas orientam você em uma implementação
básica desta tarefa, incluindo um modelo recomendado e um exemplo de código
com opções de configuração recomendadas:
Esta seção descreve os recursos, entradas, saídas e opções de configuração
desta tarefa.
Recursos
Limite de pontuação: filtre os resultados com base nas pontuações de previsão.
Lista de permissões e de bloqueio de rótulos: especifique as categorias detectadas.
Entradas da tarefa
Saídas de tarefas
O Detector de idioma aceita o seguinte tipo de dados de entrada:
String
O Detector de idioma gera uma lista de previsões contendo:
Código de idioma: um código de idioma/localização ISO 639-1 (https://pt.wikipedia.org/wiki / Lista_de_códigos_ISO_639-1)
(por exemplo, "en" para inglês, "uz" para uzbeque, "ja-Latn" para
japonês (romaji)) como uma string.
Probabilidade: a pontuação de confiança para essa previsão, expressa como uma
probabilidade entre zero e um como valor de ponto flutuante.
Opções de configuração
Esta tarefa tem as seguintes opções de configuração:
Nome da opção
Descrição
Intervalo de valor
Valor padrão
max_results
Define o número máximo opcional de previsões de idioma com a maior pontuação a serem
retornadas. Se esse valor for menor que zero, todos os resultados disponíveis serão retornados.
Qualquer número positivo
-1
score_threshold
Define o limite de pontuação de previsão que substitui o fornecido nos metadados do modelo (se houver). Resultados abaixo desse valor são rejeitados.
Qualquer ponto flutuante
Não definido
category_allowlist
Define a lista opcional de códigos de idioma permitidos. Se não estiver vazio,
as previsões de idioma cujo código de idioma não estiver neste conjunto serão
filtradas. Essa opção é mutuamente exclusiva com
category_denylist, e o uso de ambas resulta em um erro.
Qualquer string
Não definido
category_denylist
Define a lista opcional de códigos de idioma que não são permitidos. Se
não estiver vazio, as previsões de idioma cujo código de idioma estiver neste conjunto serão filtradas. Essa opção é mutuamente exclusiva com category_allowlist e
usar as duas resulta em um erro.
Qualquer string
Não definido
Modelos
Oferecemos um modelo padrão recomendado quando você começa a desenvolver com essa tarefa.
Modelo do detector de idioma (recomendado)
Esse modelo foi criado para ser leve (315 KB) e usa uma arquitetura de classificação de rede neural baseada em embeddings. O modelo identifica o idioma usando um
código de idioma ISO 639-1
e pode identificar 110 idiomas. Para conferir uma lista de idiomas aceitos pelo
modelo, consulte o
arquivo de rótulos,
que lista os idiomas pelo código ISO 639-1.
Confira os comparativos de mercado da tarefa para todo o pipeline com base nos modelos pré-treinados
acima. O resultado da latência é a latência média no Pixel 6 usando
CPU / GPU.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Não contém as informações de que eu preciso","missingTheInformationINeed","thumb-down"],["Muito complicado / etapas demais","tooComplicatedTooManySteps","thumb-down"],["Desatualizado","outOfDate","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Problema com as amostras / o código","samplesCodeIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-01-13 UTC."],[],[],null,["# Language detection guide\n\nThe MediaPipe Language Detector task lets you identify the language of a piece of text. This\ntask operates on text data with a machine learning (ML) model and outputs a list\nof predictions, where each prediction consists of an\n[ISO 639-1](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) language code\nand a probability.\n\n[Try it!arrow_forward](https://mediapipe-studio.webapps.google.com/demo/language_detector)\n\nGet Started\n-----------\n\nStart using this task by following one of these implementation guides for your\ntarget platform. These platform-specific guides walk you through a basic\nimplementation of this task, including a recommended model, and code example\nwith recommended configuration options:\n\n- **Android** - [Code example](https://github.com/google-ai-edge/mediapipe-samples/tree/main/examples/language_detector/android) - [Guide](./android)\n- **Python** - [Code example](https://colab.research.google.com/github/googlesamples/mediapipe/blob/main/examples/language_detector/python/%5BMediaPipe_Python_Tasks%5D_Language_Detector.ipynb) - [Guide](./python)\n- **Web** - [Code example](https://codepen.io/mediapipe-preview/pen/RweLdpK) - [Guide](./web_js)\n\nTask details\n------------\n\nThis section describes the capabilities, inputs, outputs, and configuration\noptions of this task.\n\n### Features\n\n- **Score threshold** - Filter results based on prediction scores\n- **Label allowlist and denylist** - Specify the categories detected\n\n| Task inputs | Task outputs |\n|-------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| Language Detector accepts the following input data type: - String | Language Detector outputs a list of predictions containing: - Language code: An ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) language / locale code (e.g. \"en\" for English, \"uz\" for Uzbek, \"ja-Latn\" for Japanese (romaji)) as a string. \u003c!-- --\u003e - Probability: the confidence score for this prediction, expressed as a probability between zero and one as floating point value. |\n\n### Configurations options\n\nThis task has the following configuration options:\n\n| Option Name | Description | Value Range | Default Value |\n|----------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------|---------------|\n| `max_results` | Sets the optional maximum number of top-scored language predictions to return. If this value is less than zero, all available results are returned. | Any positive numbers | `-1` |\n| `score_threshold` | Sets the prediction score threshold that overrides the one provided in the model metadata (if any). Results below this value are rejected. | Any float | Not set |\n| `category_allowlist` | Sets the optional list of allowed language codes. If non-empty, language predictions whose language code is not in this set will be filtered out. This option is mutually exclusive with `category_denylist` and using both results in an error. | Any strings | Not set |\n| `category_denylist` | Sets the optional list of language codes that are not allowed. If non-empty, language predictions whose language code is in this set will be filtered out. This option is mutually exclusive with `category_allowlist` and using both results in an error. | Any strings | Not set |\n\nModels\n------\n\nWe offer a default, recommended model when you start developing with this task.\n| **Attention:** This MediaPipe Solutions Preview is an early release. [Learn more](/edge/mediapipe/solutions/about#notice).\n\n### Language detector model (recommended)\n\nThis model is built to be lightweight (315 KB) and uses embedding-based, neural\nnetwork classification architecture. The model identifies language using an\n[ISO 639-1](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) language\ncode, and can identify 110 languages. For a list of languages supported by the\nmodel, see the\n[label file](https://storage.googleapis.com/mediapipe-tasks/language_detector/labels.txt),\nwhich lists languages by their ISO 639-1 code.\n\n| Model name | Input shape | Quantization type | Model card | Versions |\n|---------------------------------------------------------------------------------------------------------------------------------------------|--------------|-------------------|---------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------|\n| [Language Detector](https://storage.googleapis.com/mediapipe-models/language_detector/language_detector/float32/1/language_detector.tflite) | string UTF-8 | none (float32) | [info](https://storage.googleapis.com/mediapipe-assets/LanguageDetector%20Model%20Card.pdf) | [Latest](https://storage.googleapis.com/mediapipe-models/language_detector/language_detector/float32/1/language_detector.tflite) |\n\nTask benchmarks\n---------------\n\nHere's the task benchmarks for the whole pipeline based on the above\npre-trained models. The latency result is the average latency on Pixel 6 using\nCPU / GPU.\n\n| Model Name | CPU Latency | GPU Latency |\n|-------------------|-------------|-------------|\n| Language Detector | 0.31ms | - |"]]