Memperkenalkan Google AI Edge Portal: Lakukan benchmark Edge AI dalam skala besar. Daftar untuk meminta akses selama pratinjau pribadi.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Panduan deteksi bahasa

Contoh UI yang menampilkan kalimat input dalam bahasa Prancis yang diidentifikasi dengan benar sebagai bahasa Prancis dalam output.

Tugas Pendeteksi Bahasa MediaPipe memungkinkan Anda mengidentifikasi bahasa dari sebuah teks. Tugas ini beroperasi pada data teks dengan model machine learning (ML) dan menghasilkan daftar prediksi, dengan setiap prediksi terdiri dari kode bahasa ISO 639-1 dan probabilitas.

Coba sekarang.

Mulai

Mulai gunakan tugas ini dengan mengikuti salah satu panduan penerapan ini untuk platform target Anda. Panduan khusus platform ini akan memandu Anda dalam penerapan dasar tugas ini, termasuk model yang direkomendasikan, dan contoh kode dengan opsi konfigurasi yang direkomendasikan:

Android - Contoh kode - Panduan
Python - Contoh kode - Panduan
Web - Contoh kode - Panduan

Detail tugas

Bagian ini menjelaskan kemampuan, input, output, dan opsi konfigurasi tugas ini.

Fitur

Nilai minimum skor - Memfilter hasil berdasarkan skor prediksi
Label daftar yang diizinkan dan ditolak - Tentukan kategori yang terdeteksi

Input tugas	Output tugas
Pendeteksi Bahasa menerima jenis data input berikut: String	Pendeteksi Bahasa menghasilkan daftar prediksi yang berisi: Kode bahasa: Kode bahasa/lokalitas ISO 639-1 (https://en.wikipedia.org/wiki / List_of_ISO_639-1_codes) (misalnya, "en" untuk bahasa Inggris, "uz" untuk bahasa Uzbek, "ja-Latn” untuk bahasa Jepang (romaji)) sebagai string. Probabilitas: skor keyakinan untuk prediksi ini, yang dinyatakan sebagai probabilitas antara nol dan satu sebagai nilai floating point.

Input tugas

Output tugas

Pendeteksi Bahasa menerima jenis data input berikut:

String

Pendeteksi Bahasa menghasilkan daftar prediksi yang berisi:

Kode bahasa: Kode bahasa/lokalitas ISO 639-1 (https://en.wikipedia.org/wiki / List_of_ISO_639-1_codes) (misalnya, "en" untuk bahasa Inggris, "uz" untuk bahasa Uzbek, "ja-Latn” untuk bahasa Jepang (romaji)) sebagai string.

Probabilitas: skor keyakinan untuk prediksi ini, yang dinyatakan sebagai probabilitas antara nol dan satu sebagai nilai floating point.

Opsi konfigurasi

Tugas ini memiliki opsi konfigurasi berikut:

Nama Opsi	Deskripsi	Rentang Nilai	Nilai Default
`max_results`	Menetapkan jumlah maksimum opsional prediksi bahasa dengan skor tertinggi yang akan ditampilkan. Jika nilai ini kurang dari nol, semua hasil yang tersedia akan ditampilkan.	Angka positif apa pun	`-1`
`score_threshold`	Menetapkan nilai minimum skor prediksi yang menggantikan nilai yang diberikan dalam metadata model (jika ada). Hasil di bawah nilai ini akan ditolak.	Semua float	Tidak ditetapkan
`category_allowlist`	Menetapkan daftar opsional kode bahasa yang diizinkan. Jika tidak kosong, prediksi bahasa yang kode bahasanya tidak ada dalam kumpulan ini akan difilter. Opsi ini saling eksklusif dengan `category_denylist` dan menggunakan keduanya akan menghasilkan error.	String apa pun	Tidak ditetapkan
`category_denylist`	Menetapkan daftar opsional kode bahasa yang tidak diizinkan. Jika tidak kosong, prediksi bahasa yang kode bahasanya ada dalam kumpulan ini akan difilter keluar. Opsi ini saling eksklusif dengan `category_allowlist` dan menggunakan keduanya akan menghasilkan error.	String apa pun	Tidak ditetapkan

Model

Kami menawarkan model default yang direkomendasikan saat Anda mulai mengembangkan dengan tugas ini.

Model pendeteksi bahasa (direkomendasikan)

Model ini dibuat agar ringan (315 KB) dan menggunakan arsitektur klasifikasi jaringan neural berbasis penyematan. Model ini mengidentifikasi bahasa menggunakan kode bahasa ISO 639-1, dan dapat mengidentifikasi 110 bahasa. Untuk daftar bahasa yang didukung oleh model, lihat file label, yang mencantumkan bahasa berdasarkan kode ISO 639-1.

Nama model	Bentuk input	Jenis kuantisasi	Kartu model	Versi
Pendeteksi Bahasa	string UTF-8	tidak ada (float32)	info	Terbaru

Tolok ukur tugas

Berikut adalah tolok ukur tugas untuk seluruh pipeline berdasarkan model terlatih di atas. Hasil latensi adalah latensi rata-rata di Pixel 6 yang menggunakan CPU / GPU.

Nama Model	Latensi CPU	Latensi GPU
Detektor Bahasa	0,31 md	-