Udhëzues për zbulimin e gjuhës

Shembull UI që tregon një fjali hyrëse në frëngjisht që është e saktë identifikuar si frëngjisht në prodhim.

Detyra MediaPipe Language Detector ju lejon të identifikoni gjuhën e një pjese teksti. Kjo detyrë funksionon në të dhënat e tekstit me një model të mësimit të makinës (ML) dhe nxjerr një listë parashikimesh, ku çdo parashikim përbëhet nga një kod gjuhësor ISO 639-1 dhe një probabilitet.

Provojeni!

Filloni

Filloni ta përdorni këtë detyrë duke ndjekur një nga këto udhëzues zbatimi për platformën tuaj të synuar. Këta udhëzues specifikë të platformës ju përcjellin një zbatim bazë të kësaj detyre, duke përfshirë një model të rekomanduar dhe shembull kodi me opsionet e rekomanduara të konfigurimit:

Detajet e detyrës

Ky seksion përshkruan aftësitë, hyrjet, daljet dhe opsionet e konfigurimit të kësaj detyre.

Veçoritë

  • Pragu i rezultatit - Filtro rezultatet bazuar në rezultatet e parashikimit
  • Emërtoni listën e lejeve dhe listën e refuzimit - Specifikoni kategoritë e zbuluara
Hyrjet e detyrave Rezultatet e detyrave
Detektori i gjuhës pranon llojin e mëposhtëm të të dhënave hyrëse:
  • Vargu
Detektori i gjuhës nxjerr një listë parashikimesh që përmbajnë:
    • Kodi i gjuhës: Një kod gjuhe/lokal ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) (p.sh. "en" për anglisht, "uz" për uzbekisht, "ja-Latn" për japonisht (romaji)) si varg.
    • Probabiliteti: rezultati i besimit për këtë parashikim, i shprehur si një probabilitet ndërmjet zeros dhe një si vlerë me pikë lundruese.

Opsionet e konfigurimeve

Kjo detyrë ka opsionet e mëposhtme të konfigurimit:

Emri i opsionit Përshkrimi Gama e vlerave Vlera e paracaktuar
max_results Vendos numrin maksimal opsional të parashikimeve të gjuhës me pikët më të larta për t'u kthyer. Nëse kjo vlerë është më e vogël se zero, të gjitha rezultatet e disponueshme kthehen. Çdo numër pozitiv -1
score_threshold Vendos pragun e rezultatit të parashikimit që tejkalon atë të dhënë në meta të dhënat e modelit (nëse ka). Rezultatet nën këtë vlerë refuzohen. Çdo noton Nuk është vendosur
category_allowlist Vendos listën opsionale të kodeve të gjuhëve të lejuara. Nëse nuk janë bosh, parashikimet e gjuhës, kodi i gjuhës së të cilave nuk është në këtë grup do të filtrohen. Ky opsion është reciprokisht ekskluziv me category_denylist dhe duke përdorur të dyja rezultatet në një gabim. Çdo varg Nuk është vendosur
category_denylist Vendos listën opsionale të kodeve të gjuhëve që nuk lejohen. Nëse nuk janë bosh, parashikimet e gjuhës, kodi i gjuhës së të cilave është në këtë grup do të filtrohen. Ky opsion është reciprokisht ekskluziv me category_allowlist dhe duke përdorur të dyja rezultatet në një gabim. Çdo varg Nuk është vendosur

Modelet

Ne ofrojmë një model të paracaktuar, të rekomanduar kur filloni të zhvilloni këtë detyrë.

Ky model është ndërtuar për të qenë i lehtë (315 KB) dhe përdor arkitekturën e klasifikimit të rrjetit nervor të bazuar në embedding. Modeli identifikon gjuhën duke përdorur një kod gjuhësor ISO 639-1 dhe mund të identifikojë 110 gjuhë. Për një listë të gjuhëve të mbështetura nga modeli, shihni skedarin e etiketës , i cili rendit gjuhët sipas kodit të tyre ISO 639-1.

Emri i modelit Forma e hyrjes Lloji i kuantizimit Modeli i kartës Versionet
Detektor i gjuhës vargu UTF-8 asnjë (float32) informacion E fundit

Standardet e detyrave

Këtu janë standardet e detyrave për të gjithë tubacionin bazuar në modelet e mësipërme të para-trajnuara. Rezultati i vonesës është vonesa mesatare në Pixel 6 duke përdorur CPU / GPU.

Emri i modelit Vonesa e CPU-së Vonesa e GPU-së
Detektor i gjuhës 0.31 ms -