MediaPipe 언어 감지기 태스크를 사용하면 텍스트의 언어를 식별할 수 있습니다. 이 작업은 머신러닝 (ML) 모델을 사용하여 텍스트 데이터를 대상으로 작업하고 예측 목록을 출력합니다. 각 예측은 ISO 639-1 언어 코드와 확률로 구성됩니다.
시작하기
이 작업의 사용을 시작하려면 대상 플랫폼별 구현 가이드 중 하나를 따르세요. 다음의 플랫폼별 가이드에서는 권장 모델, 권장 구성 옵션이 있는 코드 예를 포함하여 이 작업의 기본 구현을 설명합니다.
태스크 세부정보
이 섹션에서는 이 태스크의 기능, 입력, 출력 및 구성 옵션을 설명합니다.
기능
- 점수 임곗값 - 예측 점수를 기준으로 결과를 필터링합니다.
- 라벨 허용 목록 및 차단 목록 - 감지된 카테고리를 지정합니다.
작업 입력 | 작업 출력 |
---|---|
언어 감지기에서는 다음과 같은 입력 데이터 유형을 허용합니다.
|
언어 감지기는 다음을 포함하는 예상 검색어 목록을 출력합니다.
|
구성 옵션
이 태스크에는 다음과 같은 구성 옵션이 있습니다.
옵션 이름 | 설명 | 값 범위 | 기본값 |
---|---|---|---|
max_results |
반환할 최고 점수가 매겨진 언어 예상 검색어의 최대 개수를 설정합니다(선택사항). 이 값이 0보다 작으면 사용 가능한 모든 결과가 반환됩니다. | 모든 양수 | -1 |
score_threshold |
모델 메타데이터에서 제공된 값 (있는 경우)을 재정의하는 예측 점수 임곗값을 설정합니다. 이 값보다 낮은 결과는 거부됩니다. | 모든 플로팅 | 설정되지 않음 |
category_allowlist |
허용되는 언어 코드의 선택적 목록을 설정합니다. 비어 있지 않으면 언어 코드가 이 세트에 없는 언어 예측은 필터링됩니다. 이 옵션은 category_denylist 와 함께 사용할 수 없으며 두 옵션을 모두 사용하면 오류가 발생합니다. |
모든 문자열 | 설정되지 않음 |
category_denylist |
허용되지 않는 언어 코드의 목록(선택사항)을 설정합니다. 비어 있지 않으면 언어 코드가 이 세트에 있는 언어 예측은 필터링됩니다. 이 옵션은 category_allowlist 와 상호 배타적이며 둘 다 사용하면 오류가 발생합니다. |
모든 문자열 | 설정되지 않음 |
모델
이 작업으로 개발을 시작할 때 권장되는 기본 모델이 제공됩니다.
언어 감지기 모델 (권장)
이 모델은 경량 (315KB)으로 제작되었으며 임베딩 기반의 신경망 분류 아키텍처를 사용합니다. 모델은 ISO 639-1 언어 코드를 사용하여 언어를 식별하며 110개 언어를 식별할 수 있습니다. 모델에서 지원하는 언어 목록은 ISO 639-1 코드로 언어를 나열하는 라벨 파일을 참조하세요.
모델 이름 | 입력 형태 | 양자화 유형 | 모델 카드 | 버전 |
---|---|---|---|---|
언어 감지기 | 문자열 UTF-8 | none (float32) | 정보 | 최신 |
작업 벤치마크
다음은 위의 선행 학습된 모델을 기반으로 전체 파이프라인에 대한 작업 벤치마크입니다. 지연 시간 결과는 CPU / GPU를 사용하는 Pixel 6의 평균 지연 시간입니다.
모델 이름 | CPU 지연 시간 | GPU 지연 시간 |
---|---|---|
언어 감지기 | 0.31밀리초 | - |