Руководство по определению языка

Задача MediaPipe Language Detector позволяет определить язык фрагмента текста. Эта задача работает с текстовыми данными с помощью модели машинного обучения (ML) и выводит список прогнозов, где каждый прогноз состоит из языкового кода ISO 639-1 и вероятности.

Попробуй это!

Начать

Начните использовать эту задачу, следуя одному из этих руководств по реализации для вашей целевой платформы. Эти руководства для конкретных платформ покажут вам базовую реализацию этой задачи, включая рекомендуемую модель и пример кода с рекомендуемыми параметрами конфигурации:

Подробности задачи

В этом разделе описываются возможности, входные данные, выходные данные и параметры конфигурации этой задачи.

Функции

  • Порог оценки — фильтрация результатов на основе оценок прогноза.
  • Пометить список разрешенных и список запрещенных — укажите обнаруженные категории.
Входные данные задачи Результаты задачи
Language Detector принимает следующий тип входных данных:
  • Нить
Language Detector выводит список прогнозов, содержащий:
    • Код языка: код языка/локали по стандарту ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) (например, «en» для английского языка, «uz» для узбекского языка, «ja-Latn» для японского языка). (ромаджи)) как строка.
    • Вероятность: показатель достоверности этого прогноза, выраженный как вероятность между нулем и единицей в виде значения с плавающей запятой.

Варианты конфигурации

Эта задача имеет следующие параметры конфигурации:

Название опции Описание Диапазон значений Значение по умолчанию
max_results Устанавливает необязательное максимальное количество возвращаемых языковых подсказок с наибольшим количеством оценок. Если это значение меньше нуля, возвращаются все доступные результаты. Любые положительные числа -1
score_threshold Устанавливает порог оценки прогноза, который переопределяет тот, который указан в метаданных модели (если таковые имеются). Результаты ниже этого значения отклоняются. Любой плавающий Не задано
category_allowlist Устанавливает дополнительный список разрешенных языковых кодов. Если оно не пусто, языковые прогнозы, код языка которых отсутствует в этом наборе, будут отфильтрованы. Эта опция является взаимоисключающей с category_denylist , и использование обеих приводит к ошибке. Любые строки Не задано
category_denylist Устанавливает дополнительный список кодов языков, которые не разрешены. Если не пусто, языковые прогнозы, код языка которых находится в этом наборе, будут отфильтрованы. Этот параметр является взаимоисключающим с category_allowlist , и использование обоих приводит к ошибке. Любые строки Не задано

Модели

Мы предлагаем рекомендуемую модель по умолчанию, когда вы начинаете разработку с этой задачей.

Эта модель имеет небольшой вес (315 КБ) и использует архитектуру классификации нейронных сетей на основе внедрения. Модель идентифицирует язык с помощью языкового кода ISO 639-1 и может идентифицировать 110 языков. Список языков, поддерживаемых моделью, см. в файле меток , в котором языки перечислены по их коду ISO 639-1.

Название модели Введите форму Тип квантования Модель карты Версии
Детектор языка строка UTF-8 нет (с плавающей запятой32) Информация Последний

Тесты задач

Вот тесты задач для всего конвейера, основанные на предварительно обученных моделях. Результатом задержки является средняя задержка на Pixel 6 с использованием ЦП/ГП.

Название модели Задержка процессора Задержка графического процессора
Детектор языка 0,31 мс -