 
 
借助 MediaPipe 语言检测器任务,您可以识别一段文本的语言。此任务使用机器学习 (ML) 模型处理文本数据,并输出预测列表,其中每个预测都包含 ISO 639-1 语言代码和概率。
开始使用
如需开始使用此任务,请按照适用于目标平台的以下任一实现指南操作。以下平台专用指南将引导您完成此任务的基本实现,包括推荐的模型,以及包含推荐配置选项的代码示例:
任务详情
本部分介绍了此任务的功能、输入、输出和配置选项。
功能
- 得分阈值 - 根据预测得分过滤结果
- 标签许可名单和拒绝名单 - 指定检测到的类别
| 任务输入 | 任务输出 | 
|---|---|
| 语言检测器接受以下输入数据类型: 
 | 语言检测器会输出一个预测结果列表,其中包含: 
 | 
配置选项
此任务具有以下配置选项:
| 选项名称 | 说明 | 值范围 | 默认值 | 
|---|---|---|---|
| max_results | 设置可选的要返回的得分最高的语言预测的数量上限。如果此值小于零,则返回所有可用结果。 | 任何正数 | -1 | 
| score_threshold | 设置预测得分阈值,该阈值会替换模型元数据中提供的阈值(如果有)。低于此值的结果将被拒绝。 | 任何浮点数 | 未设置 | 
| category_allowlist | 设置允许的语言代码的可选列表。如果不为空,系统会滤除语言代码不在该集合中的语言预测结果。此选项与 category_denylist互斥,同时使用这两个选项会导致错误。 | 任何字符串 | 未设置 | 
| category_denylist | 设置不允许使用的语言代码的选填列表。如果不为空,系统会滤除语言代码在此集中的语言预测。此选项与 category_allowlist互斥,同时使用这两个选项会导致错误。 | 任何字符串 | 未设置 | 
模型
当您开始使用此任务进行开发时,我们会提供一个默认的推荐模型。
语言检测器模型(推荐)
此模型旨在打造轻量级模型(315 KB),并采用基于嵌入的神经网络分类架构。该模型使用 ISO 639-1 语言代码识别语言,可识别 110 种语言。如需查看该模型支持的语言列表,请参阅标签文件,其中按 ISO 639-1 代码列出了各个语言。
| 模型名称 | 输入形状 | 量化类型 | 模型卡片 | 版本 | 
|---|---|---|---|---|
| 语言检测器 | 字符串 UTF-8 | 无(float32) | 信息 | 最新 | 
任务基准
下面是基于上述预训练模型的整个流水线的任务基准。延迟时间结果是使用 CPU / GPU 在 Pixel 6 上的平均延迟时间。
| 模型名称 | CPU 延迟时间 | GPU 延迟时间 | 
|---|---|---|
| 语言检测器 | 0.31 毫秒 | - |