คู่มือการตรวจหาภาษา

ตัวอย่าง UI ที่แสดงประโยคอินพุตเป็นภาษาฝรั่งเศสซึ่งระบบระบุเป็นภาษาฝรั่งเศสอย่างถูกต้องในเอาต์พุต

งานตัวตรวจจับภาษา MediaPipe ช่วยให้คุณระบุภาษาของข้อความได้ งานนี้จะดำเนินการกับข้อมูลข้อความด้วยโมเดลแมชชีนเลิร์นนิง (ML) และแสดงรายการการคาดการณ์ ซึ่งการคาดการณ์แต่ละรายการประกอบด้วยรหัสภาษา ISO 639-1 และความน่าจะเป็น

ลองใช้เลย

เริ่มต้นใช้งาน

เริ่มใช้แท็บงานนี้โดยทําตามคําแนะนําการใช้งานแพลตฟอร์มเป้าหมายข้อใดข้อหนึ่งต่อไปนี้ คำแนะนำเฉพาะแพลตฟอร์มเหล่านี้จะแนะนำการใช้งานพื้นฐานของงานนี้ รวมถึงโมเดลที่แนะนำและตัวอย่างโค้ดพร้อมตัวเลือกการกำหนดค่าที่แนะนำ

รายละเอียดงาน

ส่วนนี้จะอธิบายความสามารถ อินพุต เอาต์พุต และตัวเลือกการกำหนดค่าของงานนี้

ฟีเจอร์

  • เกณฑ์คะแนน - กรองผลลัพธ์ตามคะแนนการคาดการณ์
  • ป้ายกำกับรายการที่อนุญาตและรายการที่ปฏิเสธ - ระบุหมวดหมู่ที่ตรวจพบ
อินพุตงาน เอาต์พุตของงาน
ตัวตรวจจับภาษายอมรับประเภทข้อมูลอินพุตต่อไปนี้
  • สตริง
ตัวตรวจจับภาษาจะแสดงรายการการคาดคะเนที่มี
    • รหัสภาษา: รหัสภาษา/ภาษาท้องถิ่น ISO 639-1 (https://en.wikipedia.org/wiki / List_of_ISO_639-1_codes) (เช่น "en" สำหรับภาษาอังกฤษ "uz" สำหรับอุซเบก "ja-Latn" สำหรับภาษาญี่ปุ่น (โรมาจิ)) เป็นสตริง
    • ความน่าจะเป็น: คะแนนความเชื่อมั่นในการคาดการณ์นี้ ซึ่งแสดงเป็นค่าความน่าจะเป็นระหว่าง 0 ถึง 1 เป็นค่าทศนิยม

ตัวเลือกการกําหนดค่า

งานนี้มีตัวเลือกการกำหนดค่าต่อไปนี้

ชื่อตัวเลือก คำอธิบาย ช่วงของค่า ค่าเริ่มต้น
max_results กําหนดจํานวนการคาดการณ์ภาษาที่มีคะแนนสูงสุดสูงสุดที่จะแสดง (ไม่บังคับ) หากค่านี้น้อยกว่า 0 ระบบจะแสดงผลลัพธ์ทั้งหมดที่มีอยู่ ตัวเลขบวกใดก็ได้ -1
score_threshold ตั้งค่าเกณฑ์คะแนนการคาดการณ์ที่จะลบล้างเกณฑ์ที่ระบุไว้ในข้อมูลเมตาของโมเดล (หากมี) ระบบจะปฏิเสธผลลัพธ์ที่ต่ำกว่าค่านี้ ตัวเลขทศนิยม ไม่ได้ตั้งค่า
category_allowlist ตั้งค่ารายการรหัสภาษาที่อนุญาต (ไม่บังคับ) หากไม่ว่างเปล่า ระบบจะกรองการคาดคะเนภาษาที่มีรหัสภาษาไม่อยู่ในชุดนี้ออก ตัวเลือกนี้ใช้ร่วมกันไม่ได้กับ category_denylist และการใช้ทั้ง 2 ตัวเลือกจะทำให้เกิดข้อผิดพลาด สตริงใดก็ได้ ไม่ได้ตั้งค่า
category_denylist ตั้งค่ารายการรหัสภาษาที่ไม่อนุญาต (ไม่บังคับ) หากไม่ใช่ค่าว่าง ระบบจะกรองการคาดคะเนภาษาที่มีรหัสภาษาอยู่ในชุดนี้ออก ตัวเลือกนี้ใช้ร่วมกับ category_allowlist ไม่ได้ และการใช้ทั้ง 2 ตัวเลือกจะทำให้เกิดข้อผิดพลาด สตริงใดก็ได้ ไม่ได้ตั้งค่า

โมเดล

เราขอแนะนําโมเดลเริ่มต้นเมื่อคุณเริ่มพัฒนาด้วยงานนี้

โมเดลนี้สร้างขึ้นเพื่อให้มีน้ำหนักเบา (315 KB) และใช้สถาปัตยกรรมการแยกประเภทเครือข่ายประสาทตามการฝัง โมเดลจะระบุภาษาโดยใช้รหัสภาษา ISO 639-1 และสามารถระบุภาษาได้ 110 ภาษา ดูรายการภาษาที่โมเดลรองรับได้ที่ไฟล์ป้ายกำกับ ซึ่งแสดงภาษาตามรหัส ISO 639-1

ชื่อโมเดล รูปร่างอินพุต ประเภทการแปลงค่าเป็นจำนวนเต็ม การ์ดโมเดล เวอร์ชัน
ตัวตรวจจับภาษา สตริง UTF-8 ไม่มี (float32) info ล่าสุด

การเปรียบเทียบงาน

ต่อไปนี้คือการเปรียบเทียบประสิทธิภาพของงานสำหรับทั้งไปป์ไลน์โดยอิงตามโมเดลที่ผ่านการฝึกล่วงหน้าข้างต้น ผลลัพธ์เวลาในการตอบสนองคือเวลาในการตอบสนองโดยเฉลี่ยใน Pixel 6 ที่ใช้ CPU / GPU

ชื่อแบบจำลอง เวลาในการตอบสนองของ CPU เวลาในการตอบสนองของ GPU
ตัวตรวจจับภาษา 0.31 มิลลิวินาที -