SynthID: LLM에서 생성된 텍스트를 워터마킹하고 감지하는 도구

생성형 인공지능 (GenAI)은 다양한 형태의 고도의 다양한 콘텐츠를 제공하는 데 도움이 되고 있습니다. 이 사용의 대부분은 합법적인 목적으로 사용되며 이로 인해 잘못된 정보와 잘못된 기여 문제를 해결하는 데 도움이 될 수 있습니다 이러한 잠재적 영향을 완화하는 한 가지 기법이 워터마킹입니다. 사람이 인지할 수 없는 워터마크 AI 생성 콘텐츠에 적용할 수 있으며 감지 모델은 임의의 콘텐츠가 워터마크로 적용되었을 가능성을 나타냅니다.

SynthID는 Google DeepMind에서 개발한 기술로, 워터마크와 디지털 워터마크를 직접 삽입하여 AI 생성 콘텐츠를 식별합니다. AI 생성 이미지, 오디오, 텍스트, 동영상 SynthID Text는 오픈소스로 제공됩니다. 개발자가 텍스트 생성에 워터마크를 사용할 수 있도록 했습니다. 읽을 수 있는 콘텐츠 Nature 자료를 검토하여 메서드 설명입니다.

SynthID Text의 프로덕션 등급 구현은 Hugging Face Transformers v4.46.0 이상: 다음에서 사용해 볼 수 있음 공식 SynthID Text Space를 확인해 보세요. 참조 구현 GitHub에서도 확인할 수 있으며 이는 오픈소스에 유용합니다. 이 기법을 다른 기업에 도입하고자 하는 살펴봤습니다

워터마크 애플리케이션

실질적으로 SynthID Text는 로지트 프로세서로, Top-K와 Top-P 이후에 모델의 생성 파이프라인을 제어하므로 의사 난수 g-함수를 사용하여 모델의 로지트를 보강하여 데이터의 워터마킹을 통해 생성 품질과 워터마크를 감지할 수 있습니다. 알고리즘에 관한 전체 기술 설명과 다양한 구성 값이 성능에 미치는 영향에 관한 분석은 논문을 참고하세요.

워터마크는 g 함수와 생성 중에 적용되는 방식을 매개변수화하도록 구성됩니다. 사용하는 각 모델은 자체적인 워터마킹 구성이 안전하게 비공개로 저장해야 합니다. 그렇지 않으면 워터마크가 다른 사람들이 쉽게 따라 할 수 있습니다.

모든 워터마킹 구성에서 두 매개변수를 정의해야 합니다.

  • keys 매개변수는 다음에 사용되는 고유한 임의의 정수 목록입니다. 모델의 어휘 전반에서 g-함수 점수를 계산합니다. 길이 이 목록은 적용되는 워터마킹 레이어 수를 결정합니다. 자세한 내용은 자세한 내용은 논문의 부록 C.1을 참고하세요.
  • ngram_len 매개변수는 견고성과 감지 가능성의 균형을 유지하는 데 사용됩니다. 값이 클수록 워터마크를 더 많이 감지할 수 있음 더 취약해질 수 있습니다 5의 길이가 적절한 기본값입니다.

성능 요구사항에 따라 워터마크를 추가로 구성할 수 있습니다.

  • 샘플링 테이블은 sampling_table_sizesampling_table_seed입니다. 샘플링 시 편향되지 않고 안정적인 g 함수를 보장하려면 sampling_table_size를\( 2^{16} \) 이상으로 사용해야 하지만 샘플링 테이블의 크기는 추론 시 필요한 메모리 양에 영향을 미칩니다. 원하는 정수를 sampling_table_seed
  • 감지 가능성을 개선하기 위해 context_history_size 앞의 토큰에서 반복되는 n-그램에는 워터마크가 적용되지 않습니다.

모델을 사용하여 SynthID 텍스트 워터마크가 있는 텍스트를 생성하는 데는 추가 학습이 필요하지 않습니다. SynthID 텍스트 로짓 프로세서를 활성화하기 위해 모델의 .generate() 메서드에 전달되는 워터마킹 구성만 있으면 됩니다. Transformers 라이브러리에서 워터마크를 적용하는 방법을 보여주는 코드 예시는 블로그 게시물스페이스를 참고하세요.

워터마크 감지 및 인증 가능성

워터마크 감지는 확률적입니다. 베이다우니안 감지기는 Hugging Face TransformersGitHub에서 제공됩니다. 이 감지기는 세 가지 가능한 감지 데이터를 출력할 수 있습니다. 워터마크, 워터마크되지 않음, 불확실한 상태 및 두 개의 임계값을 설정하여 맞춤설정할 수 있습니다 자세한 내용은 논문의 부록 C.8을 참고하세요.

특정 거짓양성과 거짓을 달성하기 위해 임곗값을 조정할 수 있습니다. 음성 응답률을 보일 수도 있습니다 자세한 내용은 논문의 부록 C.8을 참고하세요.

학습된 감지기가 있으면 노출 여부와 방법을 선택할 수 있습니다. 보다 일반적으로 대중에게 공개될 수 있습니다

  • 전체적으로 비공개 옵션은 어떤 식으로든 감지기를 해제하거나 노출하지 않습니다.
  • semi-private 옵션은 감지기를 해제하지 않지만 생성합니다
  • public 옵션은 다른 사용자가 다운로드하여 사용할 수 있도록 검사 프로그램을 해제합니다.

조직과 조직이 어떤 탐지 검증 방식을 사용할지 결정해야 함 가장 적합한 옵션을 선택할 수 있습니다 살펴봤습니다

제한사항

SynthID Text 워터마크는 조각을 자르는 등 일부 변환에 유용합니다. 약간의 단어 수정, 가벼운 다른 말로 바꾸어 표현하기 등은 말이죠. 하지만 이 방법은 한계가 있습니다

  • 워터마크 적용은 정확성을 떨어뜨리지 않고 생성을 보강할 기회가 적으므로 사실에 기반한 대답에는 효과가 떨어집니다.
  • 감지기 신뢰도 점수가 크게 낮아질 수 있음 철저히 재작성하거나 다른 언어로 번역합니다.

SynthID Text는 동기가 있는 공격자가 공격 활동을 하는 것을 있습니다. 그러나 AI 생성 콘텐츠를 악의적인 목적으로 사용하기가 더 어려워질 수 있습니다. 다른 접근 방식과 결합하여 더 나은 노출 범위를 제공할 수 있습니다. 다양한 콘텐츠 유형 및 플랫폼 전반에서 활용할 수 있습니다