입력 및 출력 보호 장치 만들기

생성형 AI 애플리케이션은 입력 및 출력 데이터 필터링을 활용하는 경우가 많습니다. 보호 장치라고도 하며, 이는 책임감 있는 모델을 보장하는 데 도움이 됩니다. 있습니다. 입력 및 출력 필터링 기법은 들어오는 데이터를 확인하거나 정책을 준수하고 정의할 수 있습니다 입력 분류 기준은 일반적으로 허용되지 않을 수 있으므로 안전 정책을 위반할 수 있습니다. 입력 필터는 주로 콘텐츠 정책을 회피하려는 적대적 공격 출력 분류기는 안전 학습 추가 필터와 함께 작동합니다. 모델 출력을 사용하여 안전 정책을 위반할 수 있는 생성된 출력을 포착합니다. 모든 콘텐츠 정책을 포괄하는 분류 기준이 있는 것이 좋습니다.

미리 준비된 보호 장치

안전을 위해 사전에 조정했고 잘 설계된 프롬프트 템플릿이 있음에도 불구하고 모델이 의도치 않은 피해를 주는 콘텐츠를 출력할 수 있습니다. 미리 준비된 콘텐츠 분류 기준을 사용하면 특정 유형의 정책 위반에 대해 이러한 가능성을 더욱 높일 수 있습니다.

ShieldGemma

ShieldGemma는 즉시 활용할 수 있도록 교육에 맞게 조정된 개방형 환경을 Gemma 2를 기반으로 구축된 콘텐츠 분류 기준 모델에 가중치를 부여하여 사용자 제공 콘텐츠, 모델 생성 콘텐츠 또는 혼합 콘텐츠가 콘텐츠 안전 정책 ShieldGemma는 4가지 피해 (성적 위험)를 식별하도록 콘텐츠, 위험한 콘텐츠, 괴롭힘, 증오심 표현)의 3가지 범주로 구분됩니다. 2B, 9B, 27B 매개변수와 같은 크기 클래스 변수로 속도, 성능, 일반화 가능성 간에 균형을 맞출 수 있으므로 배포할 수 있습니다 모델 카드에서 차이점을 확인할 수 있습니다.

ShieldGemma로 모델 보호

Google Colab 시작 (Keras) Google Colab (Transformers) 시작

ShieldGemma 모델은 다음 프레임워크에서 사용할 수 있습니다.

API 기반

Google은 콘텐츠 안전성에 대한 API 기반 분류 기준을 제공하여 시스템 입력 및 출력을 필터링합니다.

  • Perspective API는 무료 API로서 댓글이 동영상에 미칠 수 있는 영향(사용자가 인식하는 영향)에 점수를 매깁니다. 있습니다. 광고가 특정 사이트에 게재될 가능성과 악의적이거나 위협적이거나 모욕적이거나 주제에서 벗어난 댓글
  • 텍스트 관리 서비스는 Google Cloud API로 특정 사용량 한도 이하에서 사용 가능 머신러닝을 사용하여 안전 목록과 대조하여 문서를 분석합니다. 유해할 수 있는 카테고리 및 특정 개인 식별 정보를 비롯하여 민감한 것으로 간주될 수 있습니다.

미리 준비된 분류기가 정책을 얼마나 잘 충족하는지 평가하는 것이 중요합니다. 실패 사례를 정성적으로 평가합니다 또한 또한 과도한 필터링은 의도하지 않은 피해를 발생시키고 유틸리티에 대한 자세한 정보는 경우에 따라서는 과도 필터링이 발생할 수 있습니다. 이러한 평가에 대한 자세한 내용은 안전을 위한 모델 및 시스템 평가를 참고하세요.

맞춤설정된 안전 분류 기준 생성

미리 만들어진 보호 장치는 지원되지 않는 정책이 있거나 시스템에 영향을 주는 것으로 관찰된 데이터를 사용하여 보호 장치를 추가로 조정할 수 있습니다. 포함 이 경우 애자일 분류기를 통해 모델을 미세 조정하여 맞춤 보호 장치를 만들기 위한 유연한 프레임워크 Gemma도 꼭 맞게 꾸며 보세요. 또한 광고를 게재할 위치와 배포할 수 있습니다

Gemma Agile 분류기 튜토리얼

Codelab 시작 Google Colab 시작

애자일 분류기 codelab튜토리얼: LoRA를 사용하여 Gemma를 미세 조정합니다. KerasNLP를 사용하여 콘텐츠 검토 분류기 역할을 하는 모델 있습니다. ETHOS 데이터 세트의 200개 예시만 사용하면 분류기가 F1 점수(0.80) 및 ROC-AUC 점수를 달성함 0.78로 상승하여 첨단 기술의 리더보드 결과. 800개의 예시를 학습하면 Gemma 기반의 애자일 분류기는 리더보드의 다른 분류기와 마찬가지로 F1 점수는 83.74점, ROC-AUC 점수는 88.17점입니다. 이 튜토리얼 안내에 따라 이 분류 기준을 추가적으로 조정하거나 안전 분류 기준의 보호 장치가 될 수 있습니다.

보호 장치 설정을 위한 권장사항

안전 분류 기준을 보호 수단으로 사용하는 것이 좋습니다. 하지만 가드레일을 사용하면 생성 모델이 특정 작업에 대해 아무것도 생성하지 않을 수 있습니다. 사용자에게 표시됩니다. 애플리케이션은 이러한 문제를 처리할 수 있도록 설계해야 합니다 있습니다. 대부분의 인기 챗봇은 미리 준비된 답변("나는 죄송합니다. 저는 언어 모델입니다. 이 요청에 대해서는 도와드릴 수 없습니다.')

유용성과 무해함의 적절한 균형 찾기: 하지만 안전 분류 기준과 구별할 수 없을 때는 실수를 할 수 있다는 점을 거짓양성을 모두 포함 (예: 출력이 잘못된 경우 안전하지 않다고 주장) 아닌) 및 거짓음성 (출력에 안전하지 않은 것으로 라벨을 지정하지 못한 경우)을 말합니다. 작성자: F1, 정밀도, 재현율, AUC-ROC와 같은 측정항목으로 분류기를 평가하려면 거짓양성과 거짓양성의 절충 방법을 결정할 수 있습니다. 제외 오류입니다. 분류 기준의 임곗값을 변경하면 과도한 필터링 출력을 방지하면서도 최적의 균형 잡힌 안전하게 보호합니다.

의도하지 않은 편향이 있는지 분류기 확인: 안전 분류 기준(예: 사회 문화적 편견과 같은 의도치 않은 편향을 전파할 수 있어 고정관념일 수 있습니다 애플리케이션이 잠재적 손실을 예측하기 위해 도움이 됩니다. 특히 콘텐츠 안전성 분류 기준을 통해 ID와 관련된 콘텐츠에 대해 과도한 트리거가 발생할 경우 온라인상에서 욕설의 표적이 되는 경우가 있습니다. 예를 들어 Perspective API를 모델이 처음 출시되었을 때 댓글에서 더 높은 악의성 점수를 반환했습니다. 특정 ID 그룹 (블로그) 참조 이러한 과도한 트리거는 댓글에서 특정 사용자를 언급하거나 자주 표적이 되는 그룹 (예: '흑인', '이슬람', '페미니스트', '여성', '게이' 등)은 특성상 악의적일 때가 더 많습니다. 데이터 세트가 학습 분류기는 특정 특성이 포함된 댓글과 분류기는 이러한 단어가 포함된 모든 댓글을 과도하게 일반화하고 고려할 수 있습니다. 안전하지 않을 가능성이 높다는 것을 의미합니다. Jigsaw 팀의 사례 알아보기 완화시킬 수 있습니다.

개발자 리소스