คู่มือการตรวจหาภาษา

งาน MediaPipe Language Detector ให้คุณระบุภาษาของข้อความได้ งานนี้ดำเนินการเกี่ยวกับข้อมูลข้อความด้วยโมเดลแมชชีนเลิร์นนิง (ML) และแสดงผลรายการของการคาดการณ์ ซึ่งการคาดการณ์แต่ละรายการประกอบด้วยรหัสภาษา ISO 639-1 และความน่าจะเป็น

ลองเลย

เริ่มต้นใช้งาน

เริ่มใช้งานนี้โดยทำตามคำแนะนำในการใช้งานสำหรับแพลตฟอร์มเป้าหมาย คำแนะนำเฉพาะแพลตฟอร์มเหล่านี้จะแนะนำการใช้งานเบื้องต้นของงานนี้ ซึ่งรวมถึงโมเดลที่แนะนำและตัวอย่างโค้ดที่มีตัวเลือกการกำหนดค่าที่แนะนำ

รายละเอียดงาน

ส่วนนี้จะอธิบายความสามารถ อินพุต เอาต์พุต และตัวเลือกการกำหนดค่าของงานนี้

ฟีเจอร์

  • เกณฑ์คะแนน - กรองผลลัพธ์ตามคะแนนการคาดการณ์
  • ติดป้ายกำกับรายการที่อนุญาตและรายการที่ปฏิเสธ - ระบุหมวดหมู่ที่ตรวจพบ
ข้อมูลงาน เอาต์พุตของงาน
ตัวตรวจจับภาษายอมรับการป้อนข้อมูลประเภทต่อไปนี้
  • สตริง
ตัวตรวจจับภาษาจะแสดงรายการการคาดคะเนที่มี
    • รหัสภาษา: ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) รหัสภาษา / ภาษา (เช่น "en" สำหรับภาษาอังกฤษ, "uz" สำหรับภาษาอุซเบก, "ja-Latn" สำหรับภาษาญี่ปุ่น (โรมาจิ)) เป็นสตริง
    • ความน่าจะเป็น: คะแนนความเชื่อมั่นสำหรับการคาดการณ์นี้ ซึ่งแสดงเป็นความน่าจะเป็นระหว่าง 0 ถึง 1 เป็นค่าทศนิยม

ตัวเลือกการกำหนดค่า

งานมีตัวเลือกการกำหนดค่าต่อไปนี้

ชื่อตัวเลือก คำอธิบาย ช่วงของค่า ค่าเริ่มต้น
max_results ตั้งค่าจำนวนสูงสุดของการคาดคะเนภาษาที่มีคะแนนสูงสุดที่ไม่บังคับเพื่อแสดงผล หากค่านี้น้อยกว่า 0 ระบบจะแสดงผลผลลัพธ์ที่มีอยู่ทั้งหมด ตัวเลขจำนวนบวกใดก็ได้ -1
score_threshold ตั้งค่าเกณฑ์คะแนนการคาดการณ์ที่จะลบล้างเกณฑ์ที่ระบุไว้ในข้อมูลเมตาของโมเดล (หากมี) ผลลัพธ์ที่ต่ำกว่าค่านี้ถูกปฏิเสธ จำนวนลอยตัวใดก็ได้ ไม่ได้ตั้งค่า
category_allowlist ตั้งค่ารายการที่ไม่บังคับของรหัสภาษาที่อนุญาต หากไม่เว้นว่างไว้ การคาดคะเนภาษาที่ไม่อยู่ในชุดรหัสนี้จะถูกกรองออก ตัวเลือกนี้ใช้ด้วยกันกับ category_denylist ไม่ได้ และการใช้ทั้ง 2 ผลลัพธ์จึงเกิดข้อผิดพลาด สตริงใดก็ได้ ไม่ได้ตั้งค่า
category_denylist ตั้งค่ารายการที่ไม่บังคับของรหัสภาษาที่ไม่ได้รับอนุญาต หาก ไม่ว่างเปล่า การคาดคะเนภาษาที่ใช้รหัสภาษาในชุดนี้จะถูกกรองออก ตัวเลือกนี้ใช้ด้วยกันกับ category_allowlist ไม่ได้ และการใช้ทั้ง 2 ผลลัพธ์จึงเกิดข้อผิดพลาด สตริงใดก็ได้ ไม่ได้ตั้งค่า

รูปแบบ

เราเสนอโมเดลเริ่มต้นที่แนะนำเมื่อคุณเริ่มต้นพัฒนาด้วยงานนี้

โมเดลนี้สร้างขึ้นให้มีน้ำหนักเบา (315 KB) และใช้สถาปัตยกรรมการจำแนกประเภทโครงข่ายระบบประสาทเทียมแบบฝัง โมเดลจะระบุภาษาโดยใช้รหัสภาษา ISO 639-1 และระบุภาษาได้ 110 ภาษา ดูรายการภาษาที่โมเดลรองรับได้ที่ไฟล์ป้ายกำกับ ซึ่งแสดงรายการภาษาตามรหัส ISO 639-1

ชื่อโมเดล รูปร่างอินพุต ประเภทการหาปริมาณ การ์ดโมเดล ฉบับ
ตัวตรวจจับภาษา สตริง UTF-8 ไม่มี (Float32) ข้อมูล ล่าสุด

การเปรียบเทียบงาน

นี่คือการเปรียบเทียบงานสำหรับทั้งไปป์ไลน์ตามโมเดลที่ฝึกล่วงหน้าไว้ข้างต้น ผลของเวลาในการตอบสนองคือเวลาในการตอบสนองโดยเฉลี่ยใน Pixel 6 ที่ใช้ CPU / GPU

ชื่อโมเดล เวลาในการตอบสนองของ CPU เวลาในการตอบสนองของ GPU
ตัวตรวจจับภาษา 0.31 มิลลิวินาที -