Giới thiệu Google AI Edge Portal: Đo điểm chuẩn AI trên thiết bị Edge trên quy mô lớn. Đăng ký để yêu cầu quyền truy cập trong bản xem trước riêng tư.

Hướng dẫn phân loại âm thanh cho web

Tác vụ MediaPipe Audio Classifier cho phép bạn thực hiện phân loại trên dữ liệu âm thanh. Bạn có thể sử dụng tác vụ này để xác định các sự kiện âm thanh trong một nhóm danh mục đã được huấn luyện. Các hướng dẫn này cho bạn biết cách sử dụng thuật toán phân loại âm thanh cho các ứng dụng Node và ứng dụng web.

Bạn có thể xem tác vụ này hoạt động bằng cách xem bản minh hoạ. Để biết thêm thông tin về các chức năng, mô hình và lựa chọn cấu hình của tác vụ này, hãy xem phần Tổng quan.

Ví dụ về mã

Mã ví dụ cho Trình phân loại âm thanh cung cấp một cách triển khai hoàn chỉnh nhiệm vụ này bằng JavaScript để bạn tham khảo. Đoạn mã này giúp bạn kiểm thử tác vụ này và bắt đầu xây dựng ứng dụng phân loại âm thanh của riêng mình. Bạn có thể xem, chạy và chỉnh sửa ví dụ về Trình phân loại âm thanh chỉ bằng trình duyệt web.

Thiết lập

Phần này mô tả các bước chính để thiết lập môi trường phát triển và dự án mã của bạn, đặc biệt là để sử dụng Trình phân loại âm thanh. Để biết thông tin chung về cách thiết lập môi trường phát triển để sử dụng các tác vụ MediaPipe, bao gồm cả các yêu cầu về phiên bản nền tảng, hãy xem Hướng dẫn thiết lập cho web.

Gói JavaScript

Bạn có thể sử dụng mã Phân loại âm thanh thông qua gói @mediapipe/tasks-audio NPM của MediaPipe. Bạn có thể tìm và tải các thư viện này xuống từ các đường liên kết được cung cấp trong Hướng dẫn thiết lập của nền tảng.

Bạn có thể cài đặt các gói cần thiết bằng mã sau để dàn dựng cục bộ bằng lệnh sau:

npm install @mediapipe/tasks-audio

Nếu bạn muốn nhập mã tác vụ thông qua dịch vụ mạng phân phối nội dung (CDN), hãy thêm mã sau vào thẻ trong tệp HTML:

<!-- Replace "my-cdn-service.com" with your CDN -->
<head>
  <script src="https://my-cdn-service.com/npm/@mediapipe/tasks-audio/audio_bundle.js"
    crossorigin="anonymous"></script>
</head>

Mô hình

Tác vụ Phân loại âm thanh của MediaPipe yêu cầu một mô hình đã được huấn luyện và tương thích với tác vụ này. Để biết thêm thông tin về các mô hình đã huấn luyện hiện có cho Trình phân loại âm thanh, hãy xem phần Mô hình trong phần tổng quan về tác vụ.

Chọn và tải một mô hình xuống, sau đó lưu trữ mô hình đó trong thư mục dự án của bạn, ví dụ:

<dev-project-root>/app/shared/models/

Tạo việc cần làm

Sử dụng một trong các hàm createFrom...() của Trình phân loại âm thanh để chuẩn bị tác vụ chạy suy luận. Sử dụng hàm createFromModelPath() với đường dẫn tương đối hoặc tuyệt đối đến tệp mô hình đã huấn luyện. Nếu mô hình của bạn đã được tải vào bộ nhớ, bạn có thể sử dụng phương thức createFromModelBuffer().

Ví dụ về mã bên dưới minh hoạ cách sử dụng hàm createFromOptions() để thiết lập tác vụ. Hàm createFromOptions cho phép bạn tuỳ chỉnh Trình phân loại âm thanh bằng các lựa chọn cấu hình. Để biết thêm thông tin về các lựa chọn cấu hình, hãy xem phần Các lựa chọn cấu hình.

Đoạn mã sau đây minh hoạ cách tạo và định cấu hình tác vụ bằng các lựa chọn tuỳ chỉnh:

const audio = await FilesetResolver.forAudioTasks(
    "https://my-cdn-service.com/npm/@mediapipe/tasks-audio/wasm"
  );

const audioClassifier = await AudioClassifier.createFromOptions(audio, {
    baseOptions: {
      modelAssetPath:
        "https://tfhub.dev/google/lite-model/yamnet/classification/tflite/1?lite-format=tflite"
    }
  });

Bạn có thể xem ví dụ đầy đủ tại example code.

Các lựa chọn về cấu hình

Tác vụ này có các lựa chọn cấu hình sau đây cho các ứng dụng Web và JavaScript:

Tên tuỳ chọn	Mô tả	Phạm vi giá trị	Giá trị mặc định
`displayNamesLocale`	Đặt ngôn ngữ của nhãn để sử dụng cho tên hiển thị được cung cấp trong siêu dữ liệu của mô hình tác vụ (nếu có). Giá trị mặc định là `en` đối với tiếng Anh. Bạn có thể thêm nhãn đã bản địa hoá vào siêu dữ liệu của một mô hình tuỳ chỉnh bằng TensorFlow Lite Metadata Writer API	Mã ngôn ngữ	vi
`maxResults`	Đặt số lượng tối đa không bắt buộc của kết quả phân loại có điểm số cao nhất để trả về. Nếu < 0, tất cả kết quả có sẵn sẽ được trả về.	Bất kỳ số dương nào	`-1`
`scoreThreshold`	Đặt ngưỡng điểm dự đoán thay thế ngưỡng được cung cấp trong siêu dữ liệu mô hình (nếu có). Những kết quả dưới giá trị này sẽ bị từ chối.	[0.0, 1.0]	Chưa đặt
`categoryAllowlist`	Đặt danh sách tên danh mục được cho phép (không bắt buộc). Nếu không trống, các kết quả phân loại có tên danh mục không nằm trong tập hợp này sẽ bị lọc ra. Tên danh mục trùng lặp hoặc không xác định sẽ bị bỏ qua. Lựa chọn này không thể dùng chung với `categoryDenylist` và việc sử dụng cả hai sẽ dẫn đến lỗi.	Mọi chuỗi	Chưa đặt
`categoryDenylist`	Đặt danh sách tên danh mục không được phép (không bắt buộc). Nếu không trống, các kết quả phân loại có tên danh mục trong tập hợp này sẽ bị lọc. Tên danh mục trùng lặp hoặc không xác định sẽ bị bỏ qua. Lựa chọn này loại trừ lẫn nhau với `categoryAllowlist` và việc sử dụng cả hai sẽ dẫn đến lỗi.	Mọi chuỗi	Chưa đặt

Chuẩn bị dữ liệu

Trình phân loại âm thanh hoạt động với các đoạn âm thanh và luồng âm thanh, đồng thời có thể hoạt động với các tệp âm thanh ở mọi định dạng mà trình duyệt lưu trữ hỗ trợ. Tác vụ này xử lý quá trình tiền xử lý dữ liệu đầu vào, bao gồm cả việc lấy mẫu lại, lưu vào bộ đệm và đóng khung.

Chạy tác vụ

Trình phân loại âm thanh sử dụng phương thức classify() để chạy suy luận cho các tệp đoạn âm thanh hoặc luồng âm thanh. Audio Classifier API trả về các danh mục có thể có cho các sự kiện âm thanh được nhận dạng trong âm thanh đầu vào.

Các lệnh gọi đến phương thức classify() của Trình phân loại âm thanh chạy đồng bộ và chặn luồng giao diện người dùng. Nếu bạn phân loại âm thanh từ micrô của thiết bị, thì mỗi hoạt động phân loại sẽ chặn luồng chính. Bạn có thể ngăn chặn điều này bằng cách triển khai các worker trên web để chạy classify() trên một luồng khác.

Đoạn mã sau đây minh hoạ cách thực thi quy trình xử lý bằng mô hình tác vụ:

Đoạn âm thanh

// Create audio buffer
const sample = await response.arrayBuffer();
const audioBuffer = await audioCtx.decodeAudioData(sample);

// Use AudioClassifier to run classification
const results = audioClassifier.classify(
  audioBuffer.getChannelData(0),
  audioBuffer.sampleRate
);

Luồng âm thanh

stream = await navigator.mediaDevices.getUserMedia(constraints);
audioCtx = new AudioContext({ sampleRate: 16000 });

const source = audioCtx.createMediaStreamSource(stream);
const scriptNode = audioCtx.createScriptProcessor(16384, 1, 1);

scriptNode.onaudioprocess = function (audioProcessingEvent) {
  const inputBuffer = audioProcessingEvent.inputBuffer;
  let inputData = inputBuffer.getChannelData(0);

  // Classify the audio
  const result = audioClassifier.classify(inputData);
  const categories = result[0].classifications[0].categories;
};

Để biết cách triển khai đầy đủ hơn về việc chạy một tác vụ Phân loại âm thanh, hãy xem ví dụ.

Xử lý và hiển thị kết quả

Sau khi bạn hoàn tất một lần suy luận, tác vụ Phân loại âm thanh sẽ trả về một đối tượng AudioClassifierResult chứa danh sách các danh mục có thể có cho các đối tượng trong âm thanh đầu vào.

AudioClassifierResult:
  Timestamp in microseconds: 100
  ClassificationResult #0:
    Timestamp in microseconds: 100  
    Classifications #0 (single classification head):
      head index: 0
      category #0:
        category name: "Speech"
        score: 0.6
        index: 0
      category #1:
        category name: "Music"
        score: 0.2
        index: 1

Mã ví dụ về Trình phân loại âm thanh minh hoạ cách hiển thị kết quả phân loại do tác vụ trả về, hãy xem ví dụ để biết thông tin chi tiết.