隆重推出 Google AI Edge Portal：大规模对边缘 AI 进行基准测试。注册以在非公开预览期间申请访问权限。

此页面由 Cloud Translation API 翻译。

适用于 Android 的音频分类指南

借助 MediaPipe 音频分类器任务，您可以对音频数据进行分类。您可以使用此任务从一组经过训练的类别中识别声音事件。这些说明了如何在 Android 应用中使用音频分类器。

如需详细了解功能、模型和配置选项部分，请参阅概览。

代码示例

MediaPipe Tasks 示例代码是音频分类器的简单实现 Android 版应用。本示例使用实体 Android 设备上的麦克风持续对声音进行分类，还可以对声音文件运行分类器存储在设备上的数据

您可以用该应用作为基础来开发自己的 Android 应用，也可以指代该应用对现有应用进行了修改。音频分类器示例代码托管在 GitHub

下载代码

以下说明介绍了如何创建示例的本地副本使用 git 命令行工具运行 git 代码库。

如需下载示例代码，请执行以下操作：

使用以下命令克隆 git 代码库：

git clone https://github.com/google-ai-edge/mediapipe-samples

（可选）将您的 Git 实例配置为使用稀疏检出，因此您只有音频分类器示例应用的文件：
```
cd mediapipe-samples
git sparse-checkout init --cone
git sparse-checkout set examples/audio_classifier/android
```

创建示例代码的本地版本后，您可以导入项目进入 Android Studio 并运行应用。有关说明，请参阅 Android 版设置指南。

关键组件

以下文件包含此音频的关键代码分类示例应用：

AudioClassifierHelper.kt - 初始化音频分类器并处理模型和委托选择。
RecorderFragment.kt - 为实时录音创建界面和控制代码。
LibraryFragment.kt：创建用于选择音频文件的界面和控制代码。
ProbabilitiesAdapter.kt - 处理分类器的预测结果并为其设置格式。

设置

本部分介绍了设置开发环境和专门用于音频分类器的代码项目。有关设置开发环境以使用 MediaPipe 任务，包括平台版本要求，请参阅 Android 版设置指南。

依赖项

音频分类器使用 com.google.mediapipe:tasks-audio 库。添加此项依赖项的 build.gradle 文件 Android 应用开发项目。使用以下代码导入所需的依赖项：以下代码：

dependencies {
    ...
    implementation 'com.google.mediapipe:tasks-audio:latest.release'
}

型号

MediaPipe 音频分类器任务需要一个与此分类兼容的经过训练的模型任务。如需详细了解可供音频分类器训练的可用模型，请参阅任务概览的“模型”部分。

选择并下载模型，然后将其存储在项目目录中：

<dev-project-root>/src/main/assets

使用 BaseOptions.Builder.setModelAssetPath() 方法指定路径模型所用的指标。下一部分的代码示例将引用此方法部分。

在音频分类器示例代码，该模型在 AudioClassifierHelper.kt 中定义，文件。

创建任务

您可以使用 createFromOptions 函数创建任务。通过 “createFromOptions”函数接受配置选项，包括正在运行的模式、显示名称语言区域、结果数上限、置信度阈值以及类别许可名单或拒绝名单如需详细了解配置选项，请参阅配置概览。

音频分类器任务支持以下输入数据类型：音频剪辑和音频流。您需要指定与输入数据类型。选择与输入数据类型，了解如何创建任务并运行推理。

音频片段

AudioClassifierOptions options =
    AudioClassifierOptions.builder()
        .setBaseOptions(
            BaseOptions.builder().setModelAssetPath("model.tflite").build())
        .setRunningMode(RunningMode.AUDIO_CLIPS)
        .setMaxResults(5)
        .build();
audioClassifier = AudioClassifier.createFromOptions(context, options);

音频流

AudioClassifierOptions options =
    AudioClassifierOptions.builder()
        .setBaseOptions(
            BaseOptions.builder().setModelAssetPath("model.tflite").build())
        .setRunningMode(RunningMode.AUDIO_STREAM)
        .setMaxResults(5)
        .setResultListener(audioClassifierResult -> {
             // Process the classification result here.
        })
        .build();
audioClassifier = AudioClassifier.createFromOptions(context, options);

音频分类器示例代码实现允许用户在处理模式这种方法使得任务创建代码更加复杂，可能不适合您的用例。您可以看到模式切换代码函数的 initClassifier() 函数中， AudioClassifierHelper。

配置选项

此任务具有以下适用于 Android 应用的配置选项：

选项名称	说明	值范围	默认值
`runningMode`	设置任务的运行模式。音频分类器有两种模式： AUDIO_CLIPS：在独立的音频片段上运行音频任务的模式。 AUDIO_STREAM：对音频流（例如通过麦克风）运行音频任务的模式。在此模式下，resultListener 必须为调用以设置监听器来接收分类结果异步执行。	{`AUDIO_CLIPS, AUDIO_STREAM`}	`AUDIO_CLIPS`
`displayNamesLocale`	设置要用于任务模型的元数据（如果有）。默认值为 `en`，英语。您可以向自定义模型的元数据中添加本地化标签使用 TensorFlow Lite Metadata Writer API	语言区域代码	en
`maxResults`	将评分最高的分类结果的可选数量上限设置为 return。如果 <0，则返回所有可用的结果。	任何正数	`-1`
`scoreThreshold`	设置预测分数阈值，以替换模型元数据（如果有）。低于此值的结果将被拒绝。	[0.0, 1.0]	未设置
`categoryAllowlist`	设置允许的类别名称的可选列表。如果不为空，类别名称未包含在此集合中的分类结果已滤除。重复或未知的类别名称会被忽略。此选项与 `categoryDenylist` 互斥，使用都会导致错误。	任何字符串	未设置
`categoryDenylist`	设置不允许使用的类别名称的可选列表。如果非空，类别名称在此集中的分类结果将被滤除。重复或未知的类别名称会被忽略。这个选项 `categoryAllowlist` 不包含，同时使用这两个元素会导致错误。	任何字符串	未设置
`resultListener`	设置结果监听器以接收分类结果当音频分类器在音频流中时异步播放模式。仅在跑步模式设为“`AUDIO_STREAM`”时才能使用	不适用	未设置
`errorListener`	设置一个可选的错误监听器。	不适用	未设置

准备数据

音频分类器支持音频片段和音频流。任务负责处理数据输入预处理，包括重新采样、缓冲和分帧。但是，您必须将输入音频数据转换为 com.google.mediapipe.tasks.components.containers.AudioData 对象，然后再将其传递给音频分类器任务。

音频片段

import com.google.mediapipe.tasks.components.containers.AudioData;

// Load an audio on the user’s device as a float array.

// Convert a float array to a MediaPipe’s AudioData object.
AudioData audioData =
    AudioData.create(
        AudioData.AudioDataFormat.builder()
            .setNumOfChannels(numOfChannels)
            .setSampleRate(sampleRate)
            .build(),
        floatData.length);
audioData.load(floatData);

音频流

import android.media.AudioRecord;
import com.google.mediapipe.tasks.components.containers.AudioData;

AudioRecord audioRecord =
    audioClassifier.createAudioRecord(/* numChannels= */ 1, /* sampleRate= */ 16000);
audioRecord.startRecording();

...

// To get a one second clip from the AudioRecord object:
AudioData audioData =
    AudioData.create(
        16000 /*sample counts per second*/);
        AudioData.AudioDataFormat.create(audioRecord.getFormat()),
audioData.load(audioRecord)

运行任务

您可以调用与跑步模式对应的 classify 函数，可以触发推理。Audio Classifier API 会返回在输入音频数据中识别出的音频事件。

音频片段

AudioClassifierResult classifierResult = audioClassifier.classify(audioData);

音频流

// Run inference on the audio block. The classifications results will be available
// via the `resultListener` provided in the `AudioClassifierOptions` when
// the audio classifier was created.
audioClassifier.classifyAsync(audioBlock, timestampMs);

请注意以下几点：

在音频流模式下运行时，还必须提供包含时间戳的音频分类器任务，用于跟踪哪些音频数据流被用于推理。
在音频剪辑模型中运行时，音频分类器任务会阻塞当前线程，直到处理完输入音频为止。为避免阻塞用户界面响应，请在后台线程。

您可以查看使用音频片段运行音频分类器的示例，请参阅 AudioClassifierHelper 类中的代码示例。

处理和显示结果

运行推理后，音频分类器任务会返回输入音频中音频事件的类别。以下列表展示了此任务的输出数据示例：

AudioClassifierResult:
  Timestamp in microseconds: 100
  ClassificationResult #0:
    Timestamp in microseconds: 100  
    Classifications #0 (single classification head):
      head index: 0
      category #0:
        category name: "Speech"
        score: 0.6
        index: 0
      category #1:
        category name: "Music"
        score: 0.2
        index: 1

在 Android 应用中，该任务会返回 ClassificationResult，其中包含 AudioClassifierResult 对象的列表，表示针对某个音频事件，包括类别标签和置信度分数。

音频片段

// In the audio clips mode, the classification results are for the entire audio
// clip. The results are timestamped AudioClassifierResult objects, each
// classifying an interval of the entire audio clip that starts at
// ClassificationResult.timestampMs().get().

for (ClassificationResult result : audioClassifierResult.classificationResults()) {
  // Audio interval start timestamp:
  result.timestampMs().get();
  // Classification result of the audio interval.
  result.classifications();
}

音频流

// In the audio stream mode, the classification results list only contains one
// element, representing the classification result of the audio block that
// starts at ClassificationResult.timestampMs in the audio stream.

ClassificationResult result = audioClassifierResult.classificationResults().get(0);
// The audio block start timestamp
audioClassifierResult.timestampMs();
// Alternatively, the same timestamp can be retrieved from
// result.timestampMs().get();

// Classification result.
result.classifications();

您可以通过一个示例在 API 的 ProbabilitiesAdapter 类中从此任务返回的结果代码示例。