Tugas Pendeteksi Bahasa MediaPipe memungkinkan Anda mengidentifikasi bahasa dari sebuah teks. Tugas
ini beroperasi pada data teks dengan model machine learning (ML) dan menghasilkan daftar
prediksi, dengan setiap prediksi terdiri dari
kode bahasa ISO 639-1
dan probabilitas.
Mulai gunakan tugas ini dengan mengikuti salah satu panduan penerapan ini untuk
platform target Anda. Panduan khusus platform ini akan memandu Anda dalam penerapan dasar
tugas ini, termasuk model yang direkomendasikan, dan contoh kode
dengan opsi konfigurasi yang direkomendasikan:
Bagian ini menjelaskan kemampuan, input, output, dan opsi konfigurasi tugas ini.
Fitur
Nilai minimum skor - Memfilter hasil berdasarkan skor prediksi
Label daftar yang diizinkan dan ditolak - Tentukan kategori yang terdeteksi
Input tugas
Output tugas
Pendeteksi Bahasa menerima jenis data input berikut:
String
Pendeteksi Bahasa menghasilkan daftar prediksi yang berisi:
Kode bahasa: Kode bahasa/lokalitas ISO 639-1 (https://en.wikipedia.org/wiki / List_of_ISO_639-1_codes) (misalnya, "en" untuk bahasa Inggris, "uz" untuk bahasa Uzbek, "ja-Latn” untuk
bahasa Jepang (romaji)) sebagai string.
Probabilitas: skor keyakinan untuk prediksi ini, yang dinyatakan sebagai
probabilitas antara nol dan satu sebagai nilai floating point.
Opsi konfigurasi
Tugas ini memiliki opsi konfigurasi berikut:
Nama Opsi
Deskripsi
Rentang Nilai
Nilai Default
max_results
Menetapkan jumlah maksimum opsional prediksi bahasa dengan skor tertinggi yang akan
ditampilkan. Jika nilai ini kurang dari nol, semua hasil yang tersedia akan ditampilkan.
Angka positif apa pun
-1
score_threshold
Menetapkan nilai minimum skor prediksi yang menggantikan nilai yang diberikan dalam
metadata model (jika ada). Hasil di bawah nilai ini akan ditolak.
Semua float
Tidak ditetapkan
category_allowlist
Menetapkan daftar opsional kode bahasa yang diizinkan. Jika tidak kosong,
prediksi bahasa yang kode bahasanya tidak ada dalam kumpulan ini akan
difilter. Opsi ini saling eksklusif dengan
category_denylist dan menggunakan keduanya akan menghasilkan error.
String apa pun
Tidak ditetapkan
category_denylist
Menetapkan daftar opsional kode bahasa yang tidak diizinkan. Jika
tidak kosong, prediksi bahasa yang kode bahasanya ada dalam kumpulan ini akan difilter
keluar. Opsi ini saling eksklusif dengan category_allowlist dan
menggunakan keduanya akan menghasilkan error.
String apa pun
Tidak ditetapkan
Model
Kami menawarkan model default yang direkomendasikan saat Anda mulai mengembangkan dengan tugas ini.
Model pendeteksi bahasa (direkomendasikan)
Model ini dibuat agar ringan (315 KB) dan menggunakan arsitektur
klasifikasi jaringan neural berbasis penyematan. Model ini mengidentifikasi bahasa menggunakan kode bahasa ISO 639-1, dan dapat mengidentifikasi 110 bahasa. Untuk daftar bahasa yang didukung oleh
model, lihat
file label,
yang mencantumkan bahasa berdasarkan kode ISO 639-1.
Berikut adalah tolok ukur tugas untuk seluruh pipeline berdasarkan
model terlatih di atas. Hasil latensi adalah latensi rata-rata di Pixel 6 yang menggunakan
CPU / GPU.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-01-13 UTC."],[],[],null,["# Language detection guide\n\nThe MediaPipe Language Detector task lets you identify the language of a piece of text. This\ntask operates on text data with a machine learning (ML) model and outputs a list\nof predictions, where each prediction consists of an\n[ISO 639-1](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) language code\nand a probability.\n\n[Try it!arrow_forward](https://mediapipe-studio.webapps.google.com/demo/language_detector)\n\nGet Started\n-----------\n\nStart using this task by following one of these implementation guides for your\ntarget platform. These platform-specific guides walk you through a basic\nimplementation of this task, including a recommended model, and code example\nwith recommended configuration options:\n\n- **Android** - [Code example](https://github.com/google-ai-edge/mediapipe-samples/tree/main/examples/language_detector/android) - [Guide](./android)\n- **Python** - [Code example](https://colab.research.google.com/github/googlesamples/mediapipe/blob/main/examples/language_detector/python/%5BMediaPipe_Python_Tasks%5D_Language_Detector.ipynb) - [Guide](./python)\n- **Web** - [Code example](https://codepen.io/mediapipe-preview/pen/RweLdpK) - [Guide](./web_js)\n\nTask details\n------------\n\nThis section describes the capabilities, inputs, outputs, and configuration\noptions of this task.\n\n### Features\n\n- **Score threshold** - Filter results based on prediction scores\n- **Label allowlist and denylist** - Specify the categories detected\n\n| Task inputs | Task outputs |\n|-------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| Language Detector accepts the following input data type: - String | Language Detector outputs a list of predictions containing: - Language code: An ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) language / locale code (e.g. \"en\" for English, \"uz\" for Uzbek, \"ja-Latn\" for Japanese (romaji)) as a string. \u003c!-- --\u003e - Probability: the confidence score for this prediction, expressed as a probability between zero and one as floating point value. |\n\n### Configurations options\n\nThis task has the following configuration options:\n\n| Option Name | Description | Value Range | Default Value |\n|----------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------|---------------|\n| `max_results` | Sets the optional maximum number of top-scored language predictions to return. If this value is less than zero, all available results are returned. | Any positive numbers | `-1` |\n| `score_threshold` | Sets the prediction score threshold that overrides the one provided in the model metadata (if any). Results below this value are rejected. | Any float | Not set |\n| `category_allowlist` | Sets the optional list of allowed language codes. If non-empty, language predictions whose language code is not in this set will be filtered out. This option is mutually exclusive with `category_denylist` and using both results in an error. | Any strings | Not set |\n| `category_denylist` | Sets the optional list of language codes that are not allowed. If non-empty, language predictions whose language code is in this set will be filtered out. This option is mutually exclusive with `category_allowlist` and using both results in an error. | Any strings | Not set |\n\nModels\n------\n\nWe offer a default, recommended model when you start developing with this task.\n| **Attention:** This MediaPipe Solutions Preview is an early release. [Learn more](/edge/mediapipe/solutions/about#notice).\n\n### Language detector model (recommended)\n\nThis model is built to be lightweight (315 KB) and uses embedding-based, neural\nnetwork classification architecture. The model identifies language using an\n[ISO 639-1](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) language\ncode, and can identify 110 languages. For a list of languages supported by the\nmodel, see the\n[label file](https://storage.googleapis.com/mediapipe-tasks/language_detector/labels.txt),\nwhich lists languages by their ISO 639-1 code.\n\n| Model name | Input shape | Quantization type | Model card | Versions |\n|---------------------------------------------------------------------------------------------------------------------------------------------|--------------|-------------------|---------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------|\n| [Language Detector](https://storage.googleapis.com/mediapipe-models/language_detector/language_detector/float32/1/language_detector.tflite) | string UTF-8 | none (float32) | [info](https://storage.googleapis.com/mediapipe-assets/LanguageDetector%20Model%20Card.pdf) | [Latest](https://storage.googleapis.com/mediapipe-models/language_detector/language_detector/float32/1/language_detector.tflite) |\n\nTask benchmarks\n---------------\n\nHere's the task benchmarks for the whole pipeline based on the above\npre-trained models. The latency result is the average latency on Pixel 6 using\nCPU / GPU.\n\n| Model Name | CPU Latency | GPU Latency |\n|-------------------|-------------|-------------|\n| Language Detector | 0.31ms | - |"]]