Nhiệm vụ Trình phát hiện ngôn ngữ MediaPipe cho phép bạn xác định ngôn ngữ của một đoạn văn bản. Các các hướng dẫn sau cho bạn biết cách sử dụng Trình phát hiện ngôn ngữ với ứng dụng Android. Đoạn mã mẫu được mô tả trong các hướng dẫn này có trên GitHub.
Bạn có thể xem công việc này trong thực tế bằng cách xem bản minh hoạ. Để biết thêm thông tin về tính năng, kiểu máy và các lựa chọn cấu hình của nhiệm vụ này, xem phần Tổng quan.
Ví dụ về mã
Mã ví dụ cho Trình phát hiện ngôn ngữ cung cấp cách triển khai đơn giản cho để bạn tham khảo. Mã này giúp bạn kiểm thử nhiệm vụ này và bắt đầu xây dựng tính năng phát hiện ngôn ngữ của riêng bạn. Bạn có thể duyệt qua Mã ví dụ của Trình phát hiện ngôn ngữ trên GitHub.
Tải mã xuống
Các hướng dẫn sau đây chỉ cho bạn cách tạo bản sao trên máy của ví dụ bằng công cụ dòng lệnh quản lý phiên bản git.
Cách tải mã ví dụ xuống:
- Sao chép kho lưu trữ git bằng lệnh sau:
git clone https://github.com/google-ai-edge/mediapipe-samples
- Bạn có thể định cấu hình thực thể git để sử dụng quy trình thanh toán thưa thớt,
do đó bạn chỉ có các tệp cho ứng dụng mẫu Trình phát hiện ngôn ngữ:
cd mediapipe git sparse-checkout init --cone git sparse-checkout set examples/languagedetector/android
Để biết hướng dẫn về cách thiết lập và chạy một ví dụ bằng Android Studio, hãy xem hướng dẫn thiết lập mã ví dụ trong Hướng dẫn thiết lập dành cho Android.
Thành phần chính
Các tệp sau chứa mã quan trọng cho việc phân loại văn bản ứng dụng ví dụ:
- LanguageDetectorHelper.kt – Khởi chạy trình phát hiện ngôn ngữ và xử lý lựa chọn mô hình.
- ResultsAdapter.kt – Xử lý và định dạng kết quả phát hiện.
- MainActivity.kt –
Triển khai ứng dụng, bao gồm cả việc gọi
LanguageDetectorHelper
vàResultsAdapter
.
Thiết lập
Phần này mô tả các bước chính để thiết lập môi trường phát triển và mã dự án cụ thể để sử dụng Trình phát hiện ngôn ngữ. Để biết thông tin chung về thiết lập môi trường phát triển để sử dụng các tác vụ MediaPipe, bao gồm yêu cầu về phiên bản nền tảng, hãy xem Hướng dẫn thiết lập cho Android.
Phần phụ thuộc
Trình phát hiện ngôn ngữ sử dụng thư viện com.google.mediapipe:tasks-text
. Thêm nội dung này
phần phụ thuộc vào tệp build.gradle
của dự án phát triển ứng dụng Android.
Bạn có thể nhập các phần phụ thuộc bắt buộc bằng đoạn mã sau:
dependencies {
implementation 'com.google.mediapipe:tasks-text:latest.release'
}
Mẫu
Nhiệm vụ Trình phát hiện ngôn ngữ MediaPipe cần một mô hình đã huấn luyện tương thích với công việc. Để biết thêm thông tin về các mô hình đã huấn luyện hiện có cho Trình phát hiện ngôn ngữ, hãy xem tổng quan về nhiệm vụ phần Mô hình.
Chọn và tải mô hình xuống rồi lưu trữ mô hình đó trong thư mục dự án:
<dev-project-root>/src/main/assets
Chỉ định đường dẫn của mô hình trong tham số ModelName
.
Tạo việc cần làm
Bạn có thể sử dụng một trong các hàm createFrom...()
để tạo tác vụ. Chiến lược phát hành đĩa đơn
Hàm createFromOptions()
chấp nhận các lựa chọn cấu hình cho ngôn ngữ
trình phát hiện. Bạn cũng có thể khởi chạy tác vụ bằng cách sử dụng factory createFromFile()
. Hàm createFromFile()
chấp nhận đường dẫn tương đối hoặc tuyệt đối đến
tệp mô hình đã huấn luyện. Để biết thêm thông tin về cách định cấu hình tác vụ, hãy xem
Tuỳ chọn cấu hình.
Mã sau đây minh hoạ cách tạo và định cấu hình tác vụ này.
// For creating a language detector instance:
LanguageDetectorOptions options =
LanguageDetectorOptions.builder()
.setBaseOptions(
BaseOptions.builder()
.setModelAssetPath(modelPath)
.build()
)
.build();
LanguageDetector languageDetector = LanguageDetector.createFromOptions(context, options);
Bạn có thể xem ví dụ về cách tạo một công việc trong đoạn mã ví dụ
LanguageDetectorHelper
lớp initDetector()
.
Các lựa chọn về cấu hình
Nhiệm vụ này có các lựa chọn cấu hình sau đây cho ứng dụng Android:
Tên lựa chọn | Mô tả | Khoảng giá trị | Giá trị mặc định |
---|---|---|---|
maxResults |
Đặt số lượng tối đa tùy chọn của các dự đoán ngôn ngữ có điểm số cao nhất thành lợi nhuận. Nếu giá trị này nhỏ hơn 0, thì hàm sẽ trả về tất cả kết quả có sẵn. | Bất kỳ số dương nào | -1 |
scoreThreshold |
Đặt ngưỡng điểm số dự đoán ghi đè ngưỡng điểm được cung cấp trong siêu dữ liệu của mô hình (nếu có). Những kết quả thấp hơn giá trị này sẽ bị từ chối. | Số thực bất kỳ | Chưa đặt |
categoryAllowlist |
Đặt danh sách mã ngôn ngữ được phép (không bắt buộc). Nếu ô trống,
các dự đoán ngôn ngữ có mã ngôn ngữ không nằm trong nhóm này sẽ là
đã lọc ra. Lựa chọn này loại trừ lẫn nhau với
categoryDenylist và sử dụng cả hai đều dẫn đến lỗi. |
Chuỗi bất kỳ | Chưa đặt |
categoryDenylist |
Đặt danh sách mã ngôn ngữ không được phép (không bắt buộc). Nếu
các dự đoán ngôn ngữ không trống, có mã ngôn ngữ nằm trong nhóm này sẽ được lọc
bị loại. Lựa chọn này loại trừ lẫn nhau với categoryAllowlist và
sử dụng cả hai đều dẫn đến lỗi. |
Chuỗi bất kỳ | Chưa đặt |
Chuẩn bị dữ liệu
Trình phát hiện ngôn ngữ hoạt động với dữ liệu văn bản (String
). Tác vụ này sẽ xử lý việc nhập dữ liệu
xử lý trước, bao gồm cả mã hoá và xử lý trước tensor. Tất cả
xử lý trước được xử lý trong hàm detect()
. Không cần
trước khi xử lý trước thêm văn bản đầu vào.
String inputText = "Some input text for the language detector";
Chạy tác vụ
Trình phát hiện ngôn ngữ sử dụng phương thức LanguageDetector.detect()
để xử lý dữ liệu đầu vào
văn bản và dự đoán ngôn ngữ của văn bản. Bạn nên dùng một quá trình thực thi riêng
luồng để thực thi quá trình phát hiện nhằm tránh chặn người dùng Android
luồng giao diện với ứng dụng của bạn.
Mã sau đây minh hoạ cách thực thi quá trình xử lý bằng tác vụ bằng cách sử dụng luồng thực thi riêng biệt.
// Predict the language of the input text.
fun classify(text: String) {
executor = ScheduledThreadPoolExecutor(1)
executor.execute {
val results = languageDetector.detect(text)
listener.onResult(results)
}
}
Bạn có thể xem ví dụ về cách chạy một tác vụ trong phần mã ví dụ
LanguageDetectorHelper
lớp detect()
.
Xử lý và hiện kết quả
Trình phát hiện ngôn ngữ xuất ra một LanguageDetectorResult
bao gồm danh sách
dự đoán ngôn ngữ cùng với xác suất của những dự đoán đó. Chiến lược phát hành đĩa đơn
danh mục ngôn ngữ được xác định trong mô hình, hãy xem phần tổng quan về nhiệm vụ
Phần Mô hình để cung cấp thông tin chi tiết về mô hình mà bạn đang sử dụng.
Sau đây là ví dụ về dữ liệu đầu ra của tác vụ này:
LanguageDetectorResult:
LanguagePrediction #0:
language_code: "fr"
probability: 0.999781
Kết quả này thu được bằng cách chạy mô hình trên văn bản đầu vào:
"Il y a beaucoup de bouches qui parlent et fort peu de têtes qui pensent."
.
Bạn có thể xem ví dụ về cách hiển thị kết quả trong đoạn mã ví dụ
ResultsAdapter
và ViewHolder
lớp bên trong.