Giới thiệu Google AI Edge Portal: Đo điểm chuẩn AI trên thiết bị Edge trên quy mô lớn. Đăng ký để yêu cầu quyền truy cập trong bản xem trước riêng tư.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Hướng dẫn phát hiện ngôn ngữ

Giao diện người dùng mẫu cho thấy một câu đầu vào bằng tiếng Pháp được xác định chính xác là tiếng Pháp trong kết quả.

Tác vụ Trình phát hiện ngôn ngữ MediaPipe cho phép bạn xác định ngôn ngữ của một đoạn văn bản. Tác vụ này hoạt động trên dữ liệu văn bản bằng mô hình học máy (ML) và xuất ra danh sách các dự đoán, trong đó mỗi dự đoán bao gồm một mã ngôn ngữ ISO 639-1 và một xác suất.

Hãy dùng thử!

Bắt đầu

Bắt đầu sử dụng tác vụ này bằng cách làm theo một trong các hướng dẫn triển khai sau đây cho nền tảng mục tiêu của bạn. Các hướng dẫn dành riêng cho nền tảng này sẽ hướng dẫn bạn cách triển khai cơ bản cho tác vụ này, bao gồm cả mô hình được đề xuất và ví dụ về mã với các tuỳ chọn cấu hình được đề xuất:

Android – Ví dụ về mã – Hướng dẫn
Python – Ví dụ về mã – Hướng dẫn
Web – Ví dụ về mã – Hướng dẫn

Thông tin chi tiết về việc cần làm

Phần này mô tả các tính năng, dữ liệu đầu vào, dữ liệu đầu ra và tuỳ chọn cấu hình của tác vụ này.

Tính năng

Ngưỡng điểm – Lọc kết quả dựa trên điểm dự đoán
Nhãn danh sách cho phép và danh sách từ chối – Chỉ định các danh mục đã phát hiện

Dữ liệu đầu vào của việc cần làm	Kết quả của tác vụ
Trình phát hiện ngôn ngữ chấp nhận loại dữ liệu đầu vào sau: Chuỗi	Trình phát hiện ngôn ngữ sẽ xuất ra một danh sách các cụm từ dự đoán chứa: Mã ngôn ngữ: Mã ngôn ngữ/ngôn ngữ theo chuẩn ISO 639-1 (https://en.wikipedia.org/wiki / List_of_ISO_639-1_codes) (ví dụ: "en" cho tiếng Anh, "uz" cho tiếng Uzbek, "ja-Latn" cho tiếng Nhật (romaji)) dưới dạng chuỗi. Xác suất: điểm tin cậy cho dự đoán này, được biểu thị dưới dạng xác suất từ 0 đến 1 dưới dạng giá trị dấu phẩy động.

Dữ liệu đầu vào của việc cần làm

Kết quả của tác vụ

Trình phát hiện ngôn ngữ chấp nhận loại dữ liệu đầu vào sau:

Chuỗi

Trình phát hiện ngôn ngữ sẽ xuất ra một danh sách các cụm từ dự đoán chứa:

Mã ngôn ngữ: Mã ngôn ngữ/ngôn ngữ theo chuẩn ISO 639-1 (https://en.wikipedia.org/wiki / List_of_ISO_639-1_codes) (ví dụ: "en" cho tiếng Anh, "uz" cho tiếng Uzbek, "ja-Latn" cho tiếng Nhật (romaji)) dưới dạng chuỗi.

Xác suất: điểm tin cậy cho dự đoán này, được biểu thị dưới dạng xác suất từ 0 đến 1 dưới dạng giá trị dấu phẩy động.

Tuỳ chọn cấu hình

Tác vụ này có các tuỳ chọn cấu hình sau:

Tên tuỳ chọn	Mô tả	Phạm vi giá trị	Giá trị mặc định
`max_results`	Đặt số lượng tối đa (không bắt buộc) của các cụm từ gợi ý ngôn ngữ có điểm số cao nhất để trả về. Nếu giá trị này nhỏ hơn 0, tất cả kết quả có sẵn sẽ được trả về.	Bất kỳ số dương nào	`-1`
`score_threshold`	Đặt ngưỡng điểm số dự đoán sẽ ghi đè ngưỡng được cung cấp trong siêu dữ liệu mô hình (nếu có). Kết quả thấp hơn giá trị này sẽ bị từ chối.	Bất kỳ float nào	Chưa đặt
`category_allowlist`	Đặt danh sách tuỳ chọn gồm các mã ngôn ngữ được phép. Nếu không trống, các dự đoán ngôn ngữ có mã ngôn ngữ không có trong tập hợp này sẽ bị lọc ra. Tuỳ chọn này loại trừ lẫn nhau với `category_denylist` và việc sử dụng cả hai sẽ dẫn đến lỗi.	Chuỗi bất kỳ	Chưa đặt
`category_denylist`	Đặt danh sách không bắt buộc gồm các mã ngôn ngữ không được phép. Nếu không trống, các dự đoán ngôn ngữ có mã ngôn ngữ nằm trong tập hợp này sẽ bị lọc ra. Tuỳ chọn này loại trừ lẫn nhau với `category_allowlist` và việc sử dụng cả hai sẽ dẫn đến lỗi.	Chuỗi bất kỳ	Chưa đặt

Mô hình

Chúng tôi cung cấp một mô hình mặc định, được đề xuất khi bạn bắt đầu phát triển bằng nhiệm vụ này.

Mô hình trình phát hiện ngôn ngữ (nên dùng)

Mô hình này được xây dựng để có kích thước nhỏ (315 KB) và sử dụng kiến trúc phân loại mạng nơron dựa trên tính năng nhúng. Mô hình này xác định ngôn ngữ bằng mã ngôn ngữ ISO 639-1 và có thể xác định 110 ngôn ngữ. Để biết danh sách ngôn ngữ mà mô hình hỗ trợ, hãy xem tệp nhãn. Tệp này liệt kê các ngôn ngữ theo mã ISO 639-1.

Tên mẫu thiết bị	Hình dạng đầu vào	Loại lượng tử hoá	Thẻ mô hình	Phiên bản
Trình phát hiện ngôn ngữ	chuỗi UTF-8	không có (float32)	info	Mới nhất

Điểm chuẩn tác vụ

Dưới đây là điểm chuẩn tác vụ cho toàn bộ quy trình dựa trên các mô hình được huấn luyện trước ở trên. Kết quả về độ trễ là độ trễ trung bình trên Pixel 6 khi sử dụng CPU / GPU.

Tên mô hình	Độ trễ CPU	Độ trễ GPU
Trình phát hiện ngôn ngữ	0,31 mili giây	-