Задача MediaPipe Language Detector позволяет определить язык фрагмента текста. Эта задача работает с текстовыми данными с помощью модели машинного обучения (ML) и выводит список прогнозов, где каждый прогноз состоит из языкового кода ISO 639-1 и вероятности.
Начать
Начните использовать эту задачу, следуя одному из этих руководств по реализации для вашей целевой платформы. Эти руководства для конкретных платформ покажут вам базовую реализацию этой задачи, включая рекомендуемую модель и пример кода с рекомендуемыми параметрами конфигурации:
- Android – Пример кода – Руководство
- Python — Пример кода — Руководство
- Интернет — Пример кода — Руководство
Подробности задачи
В этом разделе описываются возможности, входные данные, выходные данные и параметры конфигурации этой задачи.
Функции
- Порог оценки — фильтрация результатов на основе оценок прогноза.
- Пометить список разрешенных и список запрещенных — укажите обнаруженные категории.
Входные данные задачи | Результаты задачи |
---|---|
Language Detector принимает следующий тип входных данных:
| Language Detector выводит список прогнозов, содержащий:
|
Варианты конфигурации
Эта задача имеет следующие параметры конфигурации:
Название опции | Описание | Диапазон значений | Значение по умолчанию |
---|---|---|---|
max_results | Устанавливает необязательное максимальное количество возвращаемых языковых подсказок с наибольшим количеством оценок. Если это значение меньше нуля, возвращаются все доступные результаты. | Любые положительные числа | -1 |
score_threshold | Устанавливает порог оценки прогноза, который переопределяет тот, который указан в метаданных модели (если таковые имеются). Результаты ниже этого значения отклоняются. | Любой плавающий | Не задано |
category_allowlist | Устанавливает дополнительный список разрешенных языковых кодов. Если оно не пусто, языковые прогнозы, код языка которых отсутствует в этом наборе, будут отфильтрованы. Эта опция является взаимоисключающей с category_denylist , и использование обеих приводит к ошибке. | Любые строки | Не задано |
category_denylist | Устанавливает дополнительный список кодов языков, которые не разрешены. Если не пусто, языковые прогнозы, код языка которых находится в этом наборе, будут отфильтрованы. Этот параметр является взаимоисключающим с category_allowlist , и использование обоих приводит к ошибке. | Любые строки | Не задано |
Модели
Мы предлагаем рекомендуемую модель по умолчанию, когда вы начинаете разработку с этой задачей.
Модель детектора языка (рекомендуется)
Эта модель имеет небольшой вес (315 КБ) и использует архитектуру классификации нейронных сетей на основе внедрения. Модель идентифицирует язык с помощью языкового кода ISO 639-1 и может идентифицировать 110 языков. Список языков, поддерживаемых моделью, см. в файле меток , в котором языки перечислены по их коду ISO 639-1.
Название модели | Введите форму | Тип квантования | Модель карты | Версии |
---|---|---|---|---|
Детектор языка | строка UTF-8 | нет (с плавающей запятой32) | Информация | Последний |
Тесты задач
Вот тесты задач для всего конвейера, основанные на предварительно обученных моделях. Результатом задержки является средняя задержка на Pixel 6 с использованием ЦП/ГП.
Название модели | Задержка процессора | Задержка графического процессора |
---|---|---|
Детектор языка | 0,31 мс | - |