모델 보호

생성형 인공지능 (GenAI) 제품은 비교적 최근에 개발되었으며 그들의 행동은 초기 형태의 소프트웨어보다 훨씬 다를 수 있습니다. 생성형 AI 기능의 오용으로부터 제품을 보호하는 보호 조치는 그 종류에 따라 조정되어야 합니다. 이 가이드에서는 콘텐츠 정책 준수를 도입하는 방법을 설명합니다. 체커와 워터마킹 도구를 사용하여 생성형 AI 지원 제품을 보호할 수 있습니다.

콘텐츠 정책 준수

사전 안전 튜닝 및 잘 설계된 프롬프트 템플릿을 사용해도 생성형 AI 제품이 의도치 않은 해를 끼치는 콘텐츠를 출력할 수 있습니다. 생성형 AI 제품은 책임감 있는 모델 동작을 보장하기 위해 입력 및 출력 필터링을 사용하는 경우가 많습니다. 이러한 테크닉은 모델에서 들어오고 나가는 데이터가 정책에 대한 추가 정보를 수집하는 것이 좋습니다. 안전 교육을 사용하여 콘텐츠 분류 모델을 만듭니다.

입력 분류 기준은 직접 입력 또는 필터링될 수 있는 콘텐츠를 필터링하는 데 사용됩니다. 콘텐츠 정책을 위반하는 콘텐츠를 생성하도록 유도해야 합니다. 입력 필터는 콘텐츠 정책을 우회하려는 적대적 공격을 타겟팅하는 경우가 많습니다.

출력 분류기는 모델 출력을 필터링하여 안전 정책을 위반하는 생성된 콘텐츠를 포착합니다. 콘텐츠 거부 행동을 주의 깊게 모니터링하면 입력을 보강하거나 개선하는 데 사용할 수 있는 새로운 유형의 프롬프트 표시 필터를 적용합니다.

모든 콘텐츠 정책을 다루는 분류 기준이 있는 것이 좋습니다. 기성 분류 기준을 사용하여 이를 실행할 수도 있고, 특정 정책을 지원하는 맞춤 분류 기준을 만들어야 할 수도 있습니다.

균형도 중요합니다. 필터링을 과도하게 하면 의도치 않은 피해를 주거나 애플리케이션의 유용성이 저하될 수 있습니다. 필터링이 과도하게 적용될 수 있는 사례를 검토해야 합니다. 자세한 내용은 안전성 평가 가이드를 참고하세요.

미리 준비된 콘텐츠 정책 분류 기준

미리 준비된 콘텐츠 분류 기준을 통해 안전 훈련을 통해 특정 안전장치의 가능성을 정책 위반의 유형 일반적으로 두 가지 유형이 있습니다.

  1. ShieldGemma와 같은 자체 호스팅 분류 기준은 Google Cloud와 같은 Cloud 플랫폼, 비공개 하드웨어를 비롯한 다양한 아키텍처에서 다운로드하여 호스팅할 수 있으며 일부 분류 기준은 모바일 애플리케이션용으로 기기 내에서 실행할 수도 있습니다.
  2. API 기반 분류기는 다양한 정책에 대해 대용량의 지연 시간이 짧은 분류를 제공하는 서비스로 제공됩니다. Google 제공 세 가지 서비스를 소개하겠습니다.
    • Checks AI Safety는 규정 준수 평가와 모델 평가 및 모니터링을 지원하는 대시보드 AI 안전 도구는 공개 베타 버전으로 제공됩니다. 뉴스, 액세스, 데모를 신청하세요.
    • 텍스트 관리 서비스는 Google Cloud API입니다. 유해한 카테고리를 포함하여 텍스트의 안전 위반을 분석하는 및 민감한 주제(사용률이 적용됨)
    • Perspective API는 머신러닝 모델을 사용하여 사용자가 인식하는 댓글이 대화에 미치는 영향을 점수로 나타내는 무료 API입니다. 이 테스트에서는 특정 사용자가 광고를 게재할 가능성이 악의적이거나, 위협적이거나, 모욕적이거나, 주제에서 벗어난 댓글

미리 준비된 분류기가 정책을 얼마나 잘 충족하는지 평가하는 것이 중요합니다. 실패 사례를 정성적으로 평가합니다

맞춤 콘텐츠 정책 분류 기준

사전 제작된 콘텐츠 정책 분류기는 시작 단계에 적합하지만 다음과 같은 제한사항이 있습니다.

  • 고정된 정책 분류가 콘텐츠에 매핑되거나 모든 콘텐츠에 적용되지 않을 수 있음 정책
  • 이 원칙에 적합하지 않을 수 있는 하드웨어 및 연결 요구사항은 생성형 AI 기반 애플리케이션이 배포될 환경입니다.
  • 가격 및 기타 사용 제한

맞춤 콘텐츠 정책 분류기는 이러한 제한사항을 해결하는 한 가지 방법일 수 있으며, 민첩한 분류기 메서드는 이를 만드는 데 필요한 효율적이고 유연한 프레임워크를 제공합니다. 이 메서드는 안전을 위해 모델을 조정하므로 모델 조정 기본사항을 검토하세요.

SynthID Text 워터마크로 AI 생성 콘텐츠 식별

생성형 AI는 이전에는 대규모로 다양한 콘텐츠를 대량으로 생성할 수 있습니다. 상상도 하지 못했습니다. 이러한 사용의 대부분은 합법적인 목적으로 이루어지지만 잘못된 정보 및 저작자 표시 문제의 원인이 될 수 있다는 우려가 있습니다. 이러한 잠재적 영향을 완화하는 한 가지 방법은 워터마킹입니다. 워터마크 AI 생성 콘텐츠에 적용될 수 있습니다. 감지 모델은 임의의 콘텐츠에 점수를 매기고 워터마크가 적용되었습니다.

SynthID는 Google DeepMind 기술로, 워터마크와 디지털 워터마크를 직접 삽입하여 AI 생성 콘텐츠를 식별합니다. AI 생성 이미지, 오디오, 텍스트, 동영상 SynthID Text: Hugging Face Transformer에서 프로덕션용으로 제공됩니다. 자세한 내용은 연구 논문문서에서 자세히 알아보기 SynthID를 사용하는 방법에 대해 알아보겠습니다.

Google Cloud는 SynthID 워터마킹 기능을 제공하여 기타 형식(예: 이미지 생성 이미지) Vertex AI 고객에게 제공합니다

보호 조치 설정을 위한 권장사항

안전 분류기를 안전 장치로 사용하는 것이 좋습니다. 하지만 가드레일이 적용되어 콘텐츠가 차단되면 생성형 모델이 사용자에게 아무것도 생성하지 못할 수 있습니다. 애플리케이션은 이 사례를 처리하도록 설계되어야 합니다. 대부분의 인기 챗봇은 미리 준비된 답변('죄송합니다. 저는 언어 모델이므로 이 요청과 관련하여 도움을 드릴 수 없습니다.')을 제공하여 이 문제를 처리합니다.

유용성과 무해함의 적절한 균형 찾기: 하지만 안전 분류 기준과 달리 이 분류 기준은 실수를 할 수 있으며 거짓양성을 모두 포함 (예: 출력이 잘못된 경우 안전하지 않다고 주장) 아닌) 및 거짓음성 (출력에 안전하지 않은 것으로 라벨을 지정하지 못한 경우)을 말합니다. F1, 정밀도, 재현율, AUC-ROC와 같은 측정항목으로 분류기를 평가하면 거짓양성 오류와 거짓음성 오류 간의 균형을 어떻게 맞출지 결정할 수 있습니다. 분류 기준의 임곗값을 변경하면 과도한 필터링 출력을 방지하면서도 최적의 균형 잡힌 안전하게 보호합니다.

의도하지 않은 편향이 있는지 분류기 확인: 안전 분류 기준(예: 사회 문화적 편견과 같은 의도치 않은 편향을 전파할 수 있어 고정관념일 수 있습니다 애플리케이션이 잠재적 손실을 예측하기 위해 도움이 됩니다. 특히 콘텐츠 안전성 분류 기준을 통해 ID와 관련된 콘텐츠에 대해 과도한 트리거가 발생할 경우 온라인상에서 욕설의 표적이 되는 경우가 있습니다. 예를 들어 Perspective API를 모델이 처음 출시되었을 때 댓글에서 더 높은 악의성 점수를 반환했습니다. 특정 ID 그룹 (블로그) 참조 이러한 과도한 트리거 동작은 자주 표적이 되는 그룹의 정체성 용어(예: '흑인', '무슬림', '페미니스트', '여성', '게이' 등의 단어)를 언급하는 댓글이 본질적으로 유독한 경우가 많기 때문에 발생할 수 있습니다. 데이터 세트가 학습 분류기는 특정 특성이 포함된 댓글과 분류기는 이러한 단어가 포함된 모든 댓글을 과도하게 일반화하고 고려할 수 있습니다. 위험도가 떨어질 수 있습니다 Jigsaw 팀의 사례 알아보기 완화시킬 수 있습니다.

개발자 리소스