생성형 인공지능 (GenAI)은 이전에는 상상도 할 수 없었던 규모로 매우 다양한 콘텐츠를 생성할 수 있습니다. 이러한 사용의 대부분은 합법적인 목적으로 이루어지지만 잘못된 정보 및 저작자 표시 문제의 원인이 될 수 있다는 우려가 있습니다. 이러한 잠재적 영향을 완화하는 한 가지 기법이 워터마킹입니다. 인간이 감지할 수 없는 워터마크를 AI 생성 콘텐츠에 적용할 수 있으며, 감지 모델은 임의의 콘텐츠에 점수를 부여하여 워터마크가 적용되었을 가능성을 나타낼 수 있습니다.
SynthID는 Google DeepMind의 기술로, AI 생성 이미지, 오디오, 텍스트, 동영상에 직접 디지털 워터마크를 삽입하여 AI 생성 콘텐츠를 워터마크 처리하고 식별하도록 합니다. SynthID Text는 개발자가 텍스트 생성을 위한 워터마킹을 사용할 수 있도록 오픈소스로 제공되었습니다. 이 방법에 관한 더 완전한 기술적 설명은 Nature의 논문을 참고하세요.
SynthID 텍스트의 프로덕션 등급 구현은 Hugging Face Transformers v4.46.0 이상에서 사용할 수 있으며, 공식 SynthID 텍스트 스페이스에서 사용해 볼 수 있습니다. GitHub에서 참조 구현도 제공되며, 이 기술을 다른 프레임워크로 가져오려는 오픈소스 유지관리자와 참여자에게 유용할 수 있습니다.
워터마크 적용
실질적으로 SynthID Text는 Top-K 및 Top-P 후에 모델의 생성 파이프라인에 적용되는 로짓 프로세서입니다. 이 프로세서는 가상 무작위 g 함수를 사용하여 모델의 로짓을 보강하여 텍스트 품질에 큰 영향을 주지 않으면서 텍스트가 모델에서 생성되었는지 확인하는 데 도움이 되는 방식으로 워터마킹 정보를 인코딩합니다. 알고리즘에 관한 전체 기술 설명과 다양한 구성 값이 성능에 미치는 영향에 관한 분석은 백서를 참고하세요.
워터마크는 g 함수와 생성 중에 적용되는 방식을 매개변수화하도록 구성됩니다. 사용하는 각 워터마킹 구성은 안전하고 비공개로 저장해야 합니다. 그러지 않으면 다른 사용자가 워터마크를 쉽게 복제할 수 있습니다.
모든 워터마킹 구성에서 다음 두 가지 매개변수를 정의해야 합니다.
keys
매개변수는 모델의 어휘집에서 g 함수 점수를 계산하는 데 사용되는 고유한 임의 정수 목록입니다. 이 목록의 길이에 따라 적용되는 워터마킹 레이어 수가 결정됩니다. 자세한 내용은 논문의 부록 C.1을 참조하세요.ngram_len
매개변수는 안정성과 감지 가능성의 균형을 맞추는 데 사용됩니다. 값이 클수록 워터마크가 더 잘 감지되지만 변경사항에 더 취약해집니다. 길이 5가 적절한 기본값입니다.
성능 요구사항에 따라 워터마크를 추가로 구성할 수 있습니다.
- 샘플링 테이블은
sampling_table_size
및sampling_table_seed
라는 두 가지 속성으로 구성됩니다. 샘플링 시 편향되지 않고 안정적인 g 함수를 보장하려면sampling_table_size
를\( 2^{16} \) 이상으로 사용해야 하지만 샘플링 테이블의 크기는 추론 시 필요한 메모리 양에 영향을 미칩니다. 원하는 정수를sampling_table_seed
로 사용할 수 있습니다. - 감지 가능성을 개선하기 위해
context_history_size
앞의 토큰에서 반복되는 n-그램에는 워터마크가 적용되지 않습니다.
모델을 사용하여 SynthID 텍스트 워터마크로 텍스트를 생성하는 데는 추가 학습이 필요하지 않으며, SynthID Text 로지트 프로세서를 활성화하기 위해 모델의 .generate()
메서드에 전달되는 워터마크 구성만 필요합니다. Transformers 라이브러리에서 워터마크를 적용하는 방법을 보여주는 코드 예시는 블로그 게시물 및 스페이스를 참고하세요.
워터마크 감지 및 검증 가능성
워터마크 감지는 확률적입니다. 베이다우니안 감지기는 Hugging Face Transformers 및 GitHub에서 제공됩니다. 이 감지기는 워터마크가 있음, 워터마크가 없음, 확실하지 않음이라는 세 가지 감지 상태를 출력할 수 있으며, 특정 거짓양성 및 거짓음성 비율을 달성하기 위해 두 가지 임곗값을 설정하여 동작을 맞춤설정할 수 있습니다. 자세한 내용은 논문의 부록 C.8을 참고하세요.
동일한 tokenizer를 사용하는 모델도 워터마킹 구성 및 감지기를 공유할 수 있으므로 감지기의 학습 세트에 워터마크를 공유하는 모든 모델의 예시가 포함되어 있는 한 공통 워터마크를 공유할 수 있습니다.
학습된 감지기를 갖게 되면 사용자 및 더 일반적으로는 일반 대중에게 감지기를 노출할지 여부와 노출 방법을 선택할 수 있습니다.
- 완전히 비공개 옵션은 어떤 식으로든 감지기를 해제하거나 노출하지 않습니다.
- 준비된 비공개 옵션은 감지기를 해제하지 않지만 API를 통해 감지기를 노출합니다.
- public 옵션을 사용하면 다른 사용자가 감지기를 다운로드하여 사용할 수 있습니다.
개발자와 조직은 관련 인프라와 프로세스를 지원할 수 있는 능력에 따라 요구사항에 가장 적합한 감지 확인 접근 방식을 결정해야 합니다.
제한사항
SynthID 텍스트 워터마크는 텍스트 자르기, 단어 수정, 약간의 의역 등 일부 변형에 강력하지만 이 방법에는 제한사항이 있습니다.
- 워터마크 적용은 정확성을 떨어뜨리지 않고 생성을 보강할 기회가 적으므로 사실에 기반한 대답에는 효과가 떨어집니다.
- AI 생성 텍스트를 완전히 다시 작성하거나 다른 언어로 번역하면 감지기 신뢰도 점수가 크게 떨어질 수 있습니다.
SynthID 텍스트는 악의적인 행위자가 피해를 끼치는 것을 직접적으로 막기 위해 설계되지 않았습니다. 하지만 AI 생성 콘텐츠를 악의적인 목적으로 사용하는 것이 더 어려워질 수 있으며, 다른 접근 방식과 결합하여 콘텐츠 유형과 플랫폼 전반에서 더 나은 노출 범위를 제공할 수 있습니다.