위험 평가 및 안전 정책 설정

콘텐츠 안전 정책은 온라인 플랫폼에서 허용되지 않는 유해한 콘텐츠 유형을 정의합니다. YouTube 또는 Google Play와 같은 플랫폼의 콘텐츠 정책에 대해 잘 알고 계실 것입니다. 생성형 AI 애플리케이션의 콘텐츠 정책도 이와 유사합니다. 애플리케이션에서 생성하지 않아야 하는 콘텐츠 유형을 정의하고 모델을 조정하는 방법과 추가할 적절한 보호 장치를 안내합니다.

정책은 애플리케이션의 사용 사례를 반영해야 합니다. 예를 들어 커뮤니티 추천을 기반으로 가족 활동에 대한 아이디어를 제공하는 생성형 AI 제품에는 사용자에게 유해할 수 있으므로 폭력적인 성격의 콘텐츠 생성을 금지하는 정책이 있을 수 있습니다. 반대로 사용자가 제안한 공상과학 스토리 아이디어를 요약하는 애플리케이션은 이 장르에서 많은 이야기의 대상이 되는 폭력을 발생시키려고 할 수 있습니다.

안전 정책에서는 사용자에게 유해하거나 불법인 콘텐츠의 생성을 금지해야 하며 애플리케이션의 기준을 충족하는 생성된 콘텐츠 유형을 지정해야 합니다. 또한 유해하다고 간주될 수 있는 교육, 다큐멘터리, 과학 또는 예술 콘텐츠에는 예외를 포함하는 것이 좋습니다.

예시가 포함된 정책의 예외를 포함하여 매우 세분화된 수준의 세부정보를 통해 명확한 정책을 정의하는 것은 책임감 있는 제품을 구축하는 데 필수적입니다. 정책은 모델 개발의 각 단계에서 사용됩니다. 데이터 정리 또는 라벨 지정 시 정밀하지 않으면 데이터 라벨이 잘못 지정되거나 데이터가 과도하게 삭제되거나 잘못 삭제되어 모델의 안전성 응답에 영향을 미칠 수 있습니다. 정책을 잘못 정의하면 평가자 간 편차가 높아져 모델이 안전 기준을 충족하는지 알기 어려워집니다.

가상 정책 (참고용)

다음은 사용 사례와 일치하는 경우 애플리케이션에 사용할 수 있는 정책의 몇 가지 예입니다.

정책 카테고리 정책
민감한 개인 식별 정보 (SPII) 애플리케이션은 민감한 개인 식별 정보 (예: 개인의 이메일, 신용카드 번호, 주민등록번호)를 언급하지 않습니다.
증오심 표현 애플리케이션은 신원 및/또는 보호 대상인 속성 (예: 인종차별적 비방, 차별을 조장하는 내용, 보호 대상 집단에 대한 폭력 조장)을 타겟팅하는 부정적이거나 유해한 콘텐츠를 생성하지 않습니다.
괴롭힘 애플리케이션이 다른 사람을 겨냥하는 악의적이거나 위협적이거나 괴롭히거나 악의적인 콘텐츠 (예: 신체적 위협, 비극적인 사건에 대한 부인, 폭력 피해자를 비하하는 콘텐츠)를 생성하지 않습니다.
위험한 콘텐츠 애플리케이션은 자신 또는 타인을 해치는 방법 (예: 총기 및 폭발 장치 접근 또는 제작, 테러 조장, 자살 지침)에 관한 안내나 조언을 생성하지 않습니다.
음란물 애플리케이션은 성행위 또는 기타 외설적인 콘텐츠 (예: 성적으로 노골적인 설명, 흥분을 유발하기 위한 콘텐츠)가 포함된 콘텐츠를 생성하지 않습니다.
유해한 상품 및 서비스에 대한 액세스 지원 애플리케이션은 잠재적으로 유해한 상품, 서비스, 활동 (예: 도박, 의약품, 폭죽, 성인용 서비스의 홍보를 용이하게 하는 콘텐츠)을 홍보하거나 이러한 콘텐츠에 액세스하도록 허용하는 콘텐츠를 생성하지 않습니다.
악성 콘텐츠 애플리케이션은 불법 또는 기만 행위 (예: 피싱 사기, 스팸 또는 대량의 구매 권유를 목적으로 하는 콘텐츠, 탈옥 방법) 생성에 관한 지침을 생성하지 않습니다.

개발자 리소스

생성형 AI 정책의 예: