Apresentação do Google AI Edge Portal: compare a IA Edge em escala. Inscrição para solicitar acesso durante a visualização particular.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Guia de detecção de idioma

Exemplo de interface que mostra uma frase de entrada em francês corretamente
identificada como francês na saída.

A tarefa do detector de idioma do MediaPipe permite identificar o idioma de um texto. Essa tarefa opera em dados de texto com um modelo de aprendizado de máquina (ML) e gera uma lista de previsões, em que cada previsão consiste em um código de idioma ISO 639-1 e uma probabilidade.

Teste!

Começar

Para começar a usar essa tarefa, siga um destes guias de implementação para sua plataforma de destino. Estes guias específicos para plataformas orientam você em uma implementação básica desta tarefa, incluindo um modelo recomendado e um exemplo de código com opções de configuração recomendadas:

Android: exemplo de código - guia
Python: exemplo de código - guia
Web: exemplo de código: guia

Detalhes da tarefa

Esta seção descreve os recursos, entradas, saídas e opções de configuração desta tarefa.

Recursos

Limite de pontuação: filtre os resultados com base nas pontuações de previsão.
Lista de permissões e de bloqueio de rótulos: especifique as categorias detectadas.

Entradas da tarefa	Saídas de tarefas
O Detector de idioma aceita o seguinte tipo de dados de entrada: String	O Detector de idioma gera uma lista de previsões contendo: Código de idioma: um código de idioma/localização ISO 639-1 (https://pt.wikipedia.org/wiki / Lista_de_códigos_ISO_639-1) (por exemplo, "en" para inglês, "uz" para uzbeque, "ja-Latn" para japonês (romaji)) como uma string. Probabilidade: a pontuação de confiança para essa previsão, expressa como uma probabilidade entre zero e um como valor de ponto flutuante.

Entradas da tarefa

Saídas de tarefas

O Detector de idioma aceita o seguinte tipo de dados de entrada:

String

O Detector de idioma gera uma lista de previsões contendo:

Código de idioma: um código de idioma/localização ISO 639-1 (https://pt.wikipedia.org/wiki / Lista_de_códigos_ISO_639-1) (por exemplo, "en" para inglês, "uz" para uzbeque, "ja-Latn" para japonês (romaji)) como uma string.

Probabilidade: a pontuação de confiança para essa previsão, expressa como uma probabilidade entre zero e um como valor de ponto flutuante.

Opções de configuração

Esta tarefa tem as seguintes opções de configuração:

Nome da opção	Descrição	Intervalo de valor	Valor padrão
`max_results`	Define o número máximo opcional de previsões de idioma com a maior pontuação a serem retornadas. Se esse valor for menor que zero, todos os resultados disponíveis serão retornados.	Qualquer número positivo	`-1`
`score_threshold`	Define o limite de pontuação de previsão que substitui o fornecido nos metadados do modelo (se houver). Resultados abaixo desse valor são rejeitados.	Qualquer ponto flutuante	Não definido
`category_allowlist`	Define a lista opcional de códigos de idioma permitidos. Se não estiver vazio, as previsões de idioma cujo código de idioma não estiver neste conjunto serão filtradas. Essa opção é mutuamente exclusiva com `category_denylist`, e o uso de ambas resulta em um erro.	Qualquer string	Não definido
`category_denylist`	Define a lista opcional de códigos de idioma que não são permitidos. Se não estiver vazio, as previsões de idioma cujo código de idioma estiver neste conjunto serão filtradas. Essa opção é mutuamente exclusiva com `category_allowlist` e usar as duas resulta em um erro.	Qualquer string	Não definido

Modelos

Oferecemos um modelo padrão recomendado quando você começa a desenvolver com essa tarefa.

Modelo do detector de idioma (recomendado)

Esse modelo foi criado para ser leve (315 KB) e usa uma arquitetura de classificação de rede neural baseada em embeddings. O modelo identifica o idioma usando um código de idioma ISO 639-1 e pode identificar 110 idiomas. Para conferir uma lista de idiomas aceitos pelo modelo, consulte o arquivo de rótulos, que lista os idiomas pelo código ISO 639-1.

Nome do modelo	Forma de entrada	Tipo de quantização	Card de modelo	Versões
Language Detector	string UTF-8	Nenhum (float32)	Informações	Mais recente

Comparações de mercado de tarefas

Confira os comparativos de mercado da tarefa para todo o pipeline com base nos modelos pré-treinados acima. O resultado da latência é a latência média no Pixel 6 usando CPU / GPU.

Nome do modelo	Latência da CPU	Latência da GPU
Detector de idioma	0,31 ms	-