책임감 있는 접근 방식 설계

애플리케이션에 생성형 AI를 추가하면 비즈니스에 엄청난 기능과 가치를 제공할 수 있습니다. 하지만 동시에 사용자의 안전과 개인 정보를 보호하기 위해 사용자 기대에 부응하는 것입니다.

안전을 고려한 디자인

각 생성형 AI 지원 기능은 보안 레이어를 설계할 기회를 제공합니다. 따라서 안전에 대해 생각할 수 있는 한 가지 방법은 중앙에서 이 기능을 사용 설정하는 AI 모델을 가져올 수 있습니다 이 모델은 다음과 같아야 합니다.

  • 할당된 작업을 수행하도록 정렬됨
  • 범위를 벗어난 상황이 발생할 수 있도록 보호 장치로 보호됩니다. 입력 및 출력이 거부됨 및
  • 전체적으로 평가되어 모델 및 모델이 어떻게 반응합니다.

책임감 있는 AI 관행의 기능 다이어그램

자세한 내용은 '책임감 있는 AI 제품 만들기' 세션을 Google I/O 2024에서 설계 고려사항, 사고 연습, 책임감 있는 개발을 가속화하는 데 도움이 되는 프로토타입 제작 방법을 방법을 살펴봤습니다

또한 다음에 대한 권장사항을 알아보고 예시를 확인할 수 있습니다.

무엇보다 안전과 책임에 대한 건전한 접근 방식은 기술, 문화, 프로세스에 대한 자기 성찰이 있는 해결할 수 있습니다 정기적으로 비판적인 사항을 검토하도록 여러분과 팀을 참여시킵니다. 최선의 결과를 보장하기 위해 노력합니다.

시스템 수준 정책 정의

콘텐츠 안전 정책에는 허용되지 않는 유해한 콘텐츠 유형이 정의되어 있습니다. 온라인 플랫폼에서 플랫폼의 콘텐츠 정책에 익숙하실 수 있습니다. YouTube 또는 Google Play 등입니다. 콘텐츠 생성형 AI 애플리케이션에도 적용되는 정책은 유사합니다. 모델 조정 방법을 안내하며 애플리케이션에서 생성해서는 안 되는 콘텐츠 어떤 보호 장치를 추가해야 하는지 결정해야 합니다

정책은 애플리케이션의 사용 사례를 반영해야 합니다. 예를 들어 가족 활동을 위한 아이디어를 제공하는 생성형 AI 제품 커뮤니티 추천에는 사용자에게 유해할 수 있으므로 본질적으로 폭력적인 콘텐츠 반대로 사용자가 제안한 SF 스토리 아이디어를 요약하는 애플리케이션은 폭력은 현대 사회에서 많은 이야기의 주제가 되니까 있습니다.

안전 정책에 따라 유해한 콘텐츠의 생성을 금지해야 합니다. 어떤 유형의 생성된 콘텐츠가 이러한 기준을 충족할 수 있습니다 또한 뉴스 툴킷에 대한 단, 교육, 다큐멘터리, 과학 또는 예술 콘텐츠는 유해하다고 간주될 수 있습니다

다음을 포함하여 매우 세분화된 수준의 명확한 정책 정의 정책 예외를 예시로 제시하는 것은 책임감 있는 AI 정책을 있습니다. 정책은 모델 개발의 각 단계에서 사용됩니다. 데이터용 정리 또는 라벨 지정이 부정확하면 라벨이 잘못 지정된 데이터, 과도한 삭제 또는 모델의 안전성 응답에 영향을 줄 수 있는 데이터가 충분히 남아있지 않을 수 있습니다. 대상 정책을 잘못 정의하면 평가자 간 이로 인해 모델이 안전성을 충족하는지 확인하기가 더 어려워집니다. 있습니다.

가상 정책 (설명용)

다음은 캠페인에 사용할 수 있는 정책의 몇 가지 예입니다. 사용할 수 있습니다.

정책 카테고리 정책
민감한 개인 식별 정보 (SPII) 애플리케이션에서 민감한 개인 식별 정보를 인용하지 않습니다. 이메일, 신용카드 번호 또는 개인의 주민등록번호).
증오심 표현 애플리케이션이 부정적이거나 유해한 콘텐츠를 생성하지 않습니다. 신원 및 보호 대상 속성 (예: 인종차별적 비방, 차별 조장, 보호 대상자에 대한 폭력 조장 합니다.
괴롭힘 이 애플리케이션은 악의적이거나 위협적이거나 괴롭히거나 또는 타인을 표적으로 하는 악성 콘텐츠 (예: 위협, 비극적 사건 부인, 피해자에 대한 폄하 폭력).
위험한 콘텐츠 이 애플리케이션은 사용자에게 피해를 주는 방법에 대한 지침이나 조언을 제공하지 않습니다. 본인 및/또는 타인 (예: 총기류에 접근하거나 총기류에 폭발 장치, 테러 조장, 자살).
음란물 애플리케이션은 성적 행위 또는 기타 외설적인 콘텐츠 (예: 성적으로 노골적인 묘사) 설명, 흥분을 유발하는 것이 목적인 콘텐츠).
유해한 상품과 서비스에 대한 접근 지원 이 애플리케이션은 잠재적으로 유해한 상품, 서비스, 활동 (예: 도박, 의약품, 불꽃놀이, 성인용 서비스)
악성 콘텐츠 애플리케이션에서 불법 행위를 수행하는 방법에 대한 지침을 생성하지 않습니다. 사기 행위 (예: 피싱 사기, 스팸 또는 대량의 구매 권유, 탈옥 방법 등을 목적으로 하는 콘텐츠).

투명성 아티팩트

문서는 개발자를 위해 투명성을 달성하는 주요 방법입니다. 정부, 정책 행위자, 최종 사용자에게 영향을 미칩니다 여기에는 자세한 기술 보고서나 모델, 데이터, 시스템 카드를 공개하여 안전 및 기타 모델에 따라 필수 정보를 적절하게 공개 평가해야 합니다 투명성 아티팩트는 단순한 통신 수단 그 이상입니다. 그들은 Google Cloud의 AI 연구원, 배포자, 다운스트림 개발자를 위한 책임감 있게 사용할 수 있습니다 이 정보는 해당 모델에 대한 세부 정보를 알고 싶어 할 것입니다.

고려할 만한 투명성 가이드라인은 다음과 같습니다.

  • 사용자가 실험용 앱을 사용할 때 사용자에게 명확히 알립니다. 생성형 AI 기술과 예상치 못한 모델의 가능성을 강조합니다. 있습니다.
  • 생성형 AI 서비스 또는 제품이 어떻게 작동하는지에 대한 자세한 문서 제공 이해할 수 있는 언어를 사용합니다. 구조화된 게시를 고려해 보세요. 모델 카드와 같은 투명도 아티팩트가 필요합니다 이러한 카드는 이미 사용 중인 평가를 요약하고 모델 개발 전반에 걸쳐 수행할 수 있습니다
  • 사용자에게 의견을 제공하는 방법과 방향: <ph type="x-smartling-placeholder">
      </ph>
    • 사용자가 사실에 기반한 질문을 검증할 수 있도록 돕는 메커니즘 제공
    • 사용자 의견을 위한 좋아요 및 싫어요 아이콘
    • 문제를 신고하고 신속한 대응을 지원하는 링크 사용자 의견
    • 사용자 활동 저장 또는 삭제를 위한 사용자 제어

안전한 AI 시스템

생성형 AI 지원 애플리케이션은 복잡한 공격 표면을 제시합니다. 보다 다양한 완화 조치가 필요합니다. Google의 보안 AI 프레임워크 (SAIF)는 생성형 AI 지원 애플리케이션을 설계하는 방법을 고려하는 개념적 프레임워크입니다. 제공합니다. 이 프레임워크는 데이터 애널리스트가 정렬, 적대적 평가, 효과적으로 보호 조치를 사용하여 애플리케이션을 안전하게 보호 그러나 이는 시작에 불과하다는 것을 기억하세요. 추가 변경사항: 모니터링, 경보를 평가하여 사이버 보안에 대한 보안 목표를 달성할 수 있습니다.

개발자 리소스

생성형 AI 정책의 예:

Google 인프라 전반에 걸쳐 투명성 아티팩트를 위한 단일 템플릿은 기존의 모델 카드가 을(를) 사용하여 직접 만들 수 있습니다.

추가 자료