
Задача MediaPipe Language Detector позволяет определить язык фрагмента текста. Эта задача работает с текстовыми данными с помощью модели машинного обучения (ML) и выводит список прогнозов, где каждый прогноз состоит из языкового кода ISO 639-1 и вероятности.
Начать
Начните использовать эту задачу, следуя одному из этих руководств по реализации для вашей целевой платформы. Эти руководства для конкретных платформ покажут вам базовую реализацию этой задачи, включая рекомендуемую модель и пример кода с рекомендуемыми параметрами конфигурации:
- Android – Пример кода – Руководство
- Python — Пример кода — Руководство
- Интернет — Пример кода — Руководство
Подробности задачи
В этом разделе описаны возможности, входы, выходы и параметры конфигурации этой задачи.
Функции
- Порог оценки — фильтрация результатов на основе оценок прогноза.
- Пометить список разрешенных и список запрещенных — укажите обнаруженные категории.
| Входные данные задачи | Результаты задачи | 
|---|---|
| Language Detector принимает следующий тип входных данных: 
 | Language Detector выводит список прогнозов, содержащий: 
 | 
Варианты конфигурации
Эта задача имеет следующие параметры конфигурации:
| Название опции | Описание | Диапазон значений | Значение по умолчанию | 
|---|---|---|---|
| max_results | Устанавливает необязательное максимальное количество возвращаемых языковых подсказок с наибольшим количеством оценок. Если это значение меньше нуля, возвращаются все доступные результаты. | Любые положительные числа | -1 | 
| score_threshold | Устанавливает порог оценки прогноза, который переопределяет тот, который указан в метаданных модели (если таковые имеются). Результаты ниже этого значения отклоняются. | Любой плавающий | Не установлено | 
| category_allowlist | Устанавливает дополнительный список разрешенных языковых кодов. Если оно не пусто, языковые прогнозы, код языка которых отсутствует в этом наборе, будут отфильтрованы. Эта опция является взаимоисключающей с category_denylist, и использование обеих приводит к ошибке. | Любые строки | Не установлено | 
| category_denylist | Устанавливает дополнительный список кодов языков, которые не разрешены. Если не пусто, языковые прогнозы, код языка которых находится в этом наборе, будут отфильтрованы. Этот параметр является взаимоисключающим с category_allowlist, и использование обоих приводит к ошибке. | Любые строки | Не установлено | 
Модели
Мы предлагаем рекомендуемую модель по умолчанию, когда вы начинаете разработку с этой задачей.
Модель детектора языка (рекомендуется)
Эта модель имеет небольшой вес (315 КБ) и использует архитектуру классификации нейронных сетей на основе внедрения. Модель идентифицирует язык с помощью языкового кода ISO 639-1 и может идентифицировать 110 языков. Список языков, поддерживаемых моделью, см. в файле меток , в котором языки перечислены по их коду ISO 639-1.
| Название модели | Введите форму | Тип квантования | Модель карты | Версии | 
|---|---|---|---|---|
| Детектор языка | строка UTF-8 | нет (с плавающей запятой32) | информация | Последний | 
Тесты задач
Вот тесты задач для всего конвейера, основанные на предварительно обученных моделях. Результатом задержки является средняя задержка на Pixel 6 с использованием ЦП/ГП.
| Название модели | Задержка процессора | Задержка графического процессора | 
|---|---|---|
| Детектор языка | 0,31 мс | - |