Panduan deteksi bahasa

Tugas Detektor Bahasa MediaPipe memungkinkan Anda mengidentifikasi bahasa teks. Tugas ini beroperasi pada data teks dengan model machine learning (ML) dan menghasilkan daftar prediksi, dengan setiap prediksi terdiri dari kode bahasa dan probabilitas ISO 639-1.

Cobalah!

Mulai

Mulai gunakan tugas ini dengan mengikuti salah satu panduan penerapan ini untuk platform target Anda. Panduan khusus platform ini akan memandu Anda dalam menerapkan dasar tugas ini, termasuk model yang direkomendasikan, dan contoh kode dengan opsi konfigurasi yang direkomendasikan:

Detail tugas

Bagian ini menjelaskan kemampuan, input, output, dan opsi konfigurasi tugas ini.

Fitur

  • Batas skor - Memfilter hasil berdasarkan skor prediksi
  • Daftar label dan daftar tolak yang diizinkan - Menentukan kategori yang terdeteksi
Input tugas Output tugas
Pendeteksi Bahasa menerima jenis data input berikut:
  • String
Pendeteksi Bahasa menghasilkan daftar prediksi yang berisi:
    • Kode bahasa: Kode bahasa/lokalitas ISO 639-1 (https://en.wikipedia.org/wiki / List_of_ISO_639-1_codes) (mis. "en" untuk bahasa Inggris, "uz" untuk Uzbek, "ja-Latn” untuk bahasa Jepang (romaji)) sebagai string.
    • Probabilitas: skor keyakinan untuk prediksi ini, yang dinyatakan sebagai probabilitas antara nol dan satu sebagai nilai floating point.

Opsi konfigurasi

Tugas ini memiliki opsi konfigurasi berikut:

Nama Opsi Deskripsi Rentang Nilai Nilai Default
max_results Menetapkan jumlah maksimum prediksi bahasa dengan skor teratas opsional yang akan ditampilkan. Jika nilai ini kurang dari nol, semua hasil yang tersedia akan ditampilkan. Semua bilangan positif -1
score_threshold Menetapkan nilai minimum skor prediksi yang menggantikan skor yang diberikan dalam metadata model (jika ada). Hasil di bawah nilai ini ditolak. Semua float Tidak ditetapkan
category_allowlist Menetapkan daftar opsional kode bahasa yang diizinkan. Jika tidak kosong, prediksi bahasa yang kode bahasanya tidak ada dalam kumpulan ini akan difilter. Opsi ini sama-sama bersifat eksklusif dengan category_denylist dan menggunakan keduanya akan menghasilkan error. String apa pun Tidak ditetapkan
category_denylist Menetapkan daftar opsional kode bahasa yang tidak diizinkan. Jika tidak kosong, prediksi bahasa yang kode bahasanya ada dalam kumpulan ini akan difilter. Opsi ini sama-sama bersifat eksklusif dengan category_allowlist dan menggunakan keduanya akan menghasilkan error. String apa pun Tidak ditetapkan

Model

Kami menawarkan model default yang direkomendasikan saat Anda mulai mengembangkan aplikasi dengan tugas ini.

Model ini dibuat agar ringan (315 KB) dan menggunakan arsitektur klasifikasi jaringan neural berbasis embedding. Model ini mengidentifikasi bahasa menggunakan kode bahasa ISO 639-1, dan dapat mengidentifikasi 110 bahasa. Untuk daftar bahasa yang didukung oleh model, lihat file label, yang mencantumkan bahasa menurut kode ISO 639-1.

Nama model Bentuk input Jenis kuantisasi Kartu model Versions
Pendeteksi Bahasa string UTF-8 tidak ada (float32) info Terbaru

Tolok ukur tugas

Berikut adalah tolok ukur tugas untuk seluruh pipeline berdasarkan model terlatih di atas. Hasil latensi adalah latensi rata-rata di Pixel 6 yang menggunakan CPU / GPU.

Nama Model Latensi CPU Latensi GPU
Pendeteksi Bahasa 0,31 md -