Guia de detecção de idioma

Com a tarefa Detector de idioma do MediaPipe, você identifica o idioma de um texto. Essa tarefa opera em dados de texto com um modelo de machine learning (ML) e gera uma lista de previsões. Cada previsão consiste em um código de idioma ISO 639-1 e uma probabilidade.

Faça um teste.

Comece já

Comece a usar essa tarefa seguindo um destes guias de implementação para sua plataforma de destino. Estes guias específicos da plataforma orientam você em uma implementação básica dessa tarefa, incluindo um modelo recomendado e um exemplo de código com as opções de configuração recomendadas:

Detalhes da tarefa

Nesta seção, descrevemos os recursos, as entradas, as saídas e as opções de configuração desta tarefa.

Recursos

  • Limite de pontuação: filtre os resultados com base nas pontuações de previsão.
  • Lista de permissões e bloqueio de marcadores: especificar as categorias detectadas.
Entradas de tarefas Saídas de tarefas
O detector de idioma aceita os seguintes tipos de dados de entrada:
  • String
O detector de idioma gera uma lista de previsões contendo:
    • Código de idioma: um código ISO 639-1 (https://pt.wikipedia.org/wiki/List_of_ISO_639-1_codes) de idioma / local (por exemplo, "en" para inglês, "uz" para usbeque, "ja-Latn" para japonês (romaji)) como uma string.
    • Probabilidade: a pontuação de confiança dessa previsão, expressa como uma probabilidade entre zero e um como valor de ponto flutuante.

Opções de configuração

Essa tarefa tem as seguintes opções de configuração:

Nome da opção Descrição Intervalo de valor Valor padrão
max_results Define o número máximo opcional de previsões de idioma com pontuação mais alta a serem retornadas. Se esse valor for menor que zero, todos os resultados disponíveis serão retornados. Qualquer número positivo -1
score_threshold Define o limite de pontuação de previsão que substitui o fornecido nos metadados do modelo (se houver). Os resultados abaixo desse valor são rejeitados. Qualquer ponto flutuante Não definido
category_allowlist Define a lista opcional de códigos de idioma permitidos. Se o valor não estiver vazio, as previsões de idioma com código de idioma que não estiver nesse conjunto serão filtradas. Essa opção é mutuamente exclusiva com category_denylist, e o uso de ambos resulta em erro. Qualquer string Não definido
category_denylist Define a lista opcional de códigos de idioma que não são permitidos. Se não estiver em branco, as previsões de idioma com código de idioma nesse conjunto serão filtradas. Essa opção é mutuamente exclusiva com category_allowlist, e o uso de ambos resulta em um erro. Qualquer string Não definido

Modelos

Oferecemos um modelo padrão recomendado quando você começa a desenvolver com essa tarefa.

Esse modelo foi criado para ser leve (315 KB) e usa uma arquitetura de classificação de rede neural baseada em embedding. O modelo identifica o idioma usando um código de idioma ISO 639-1 e pode identificar 110 idiomas. Para ver uma lista de idiomas compatíveis com o modelo, consulte o arquivo de rótulos, que lista os idiomas pelo código ISO 639-1.

Nome do modelo Forma de entrada Tipo de quantização Card de modelo Versions
Detector de idioma string UTF-8 nenhum (float32) informações Mais recente

Comparativos de mercado de tarefas

Aqui estão os comparativos de mercado de tarefas para todo o pipeline com base nos modelos pré-treinados acima. O resultado da latência é a latência média no Pixel 6 usando CPU / GPU.

Nome do modelo Latência da CPU Latência da GPU
Detector de idioma 0,31 ms -