해석 가능성 도구로 모델 행동 분석

책임감 있는 AI 접근 방식에는 안전 정책, 모델의 안전성 개선을 위한 기술, 투명성 아티팩트를 빌드하는 방법, 생성형 AI에 대한 책임감 있는 접근 방식이 단순히 체크리스트를 따르는 것이어서는 안 됩니다. 생성형 AI 제품은 비교적 최근에 개발되었으며 애플리케이션의 동작은 이전 소프트웨어 형태와 다를 수 있습니다 따라서 사용 중인 머신러닝 모델을 탐색하고, 모델의 동작 예를 살펴보고, 예상치 못한 결과를 조사해야 합니다.

오늘날 프롬프트는 과학만큼이나 예술적인 기술이지만, 학습 해석 가능성 도구 (LIT)와 같이 대규모 언어 모델의 프롬프트를 경험적으로 개선하는 데 도움이 되는 도구가 있습니다. LIT는 AI/ML 모델의 시각화, 이해, 디버깅을 위해 개발된 오픈소스 플랫폼입니다. 다음은 LIT를 사용하여 Gemma의 동작을 탐색하고 잠재적인 문제를 예측하며 안전성을 개선하는 방법에 관한 예입니다.

로컬 머신, Colab 또는 Google Cloud에 LIT를 설치할 수 있습니다. LIT를 시작하려면 Colab으로 모델 및 관련 데이터 세트 (예: 안전 평가 데이터 세트)를 가져오세요. LIT는 모델을 사용하여 데이터 세트의 출력 집합을 생성하고 모델의 동작을 탐색할 수 있는 사용자 인터페이스를 제공합니다.

LIT를 사용한 Gemma 모델 분석

Codelab 시작 Google Colab 시작

학습 해석 가능성 도구 (LIT) 사용자 인터페이스의 애니메이션

LIT의 사용자 인터페이스를 보여주는 이미지입니다. 사용자는 상단의 Datapoint Editor를 사용하여 프롬프트를 수정할 수 있습니다. 하단에 있는 LM Salience 모듈을 사용하면 특징 결과를 확인할 수 있습니다.

복잡한 프롬프트에서 오류 식별

고품질 LLM 기반 프로토타입과 애플리케이션에 대해 가장 중요한 프롬프팅 기법 중 두 가지는 퓨샷 프롬프팅(프롬프트에서 원하는 동작 예시 포함)과 LLM의 최종 출력 전의 설명 또는 추론 형태를 포함하는 생각의 사슬입니다. 하지만 효과적인 프롬프트를 만드는 것은 여전히 어려운 일입니다.

취향에 따라 음식을 좋아하는지 평가하도록 도와주는 예를 생각해 보세요. 초기 프로토타입 체인 프롬프트 템플릿의 형식은 다음과 같습니다.

Analyze a menu item in a restaurant.


## For example:


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: You have to try it.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Baguette maison au levain
Analysis: Home-made leaven bread in France is usually great
Recommendation: Likely good.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Macaron in France
Analysis: Sweet with many kinds of flavours
Recommendation: You have to try it.


## Now analyse one more example:


Taste-likes: {{users-food-like-preferences}}
Taste-dislikes: {{users-food-dislike-preferences}}
Suggestion: {{menu-item-to-analyse}}
Analysis:

이 메시지에서 문제를 발견하셨나요? LIT를 사용하면 LM Salience 모듈로 프롬프트를 검토할 수 있습니다.

디버깅에 시퀀스 현저성 사용

현저도는 가능한 가장 작은 수준 (즉, 각 입력 토큰에 대해)으로 계산되지만, LIT는 토큰 특성이 줄, 문장 또는 단어와 같이 더 해석 가능한 큰 스팬으로 집계될 수 있습니다. Google의 Interactive Saliency Explorable에서 특징과 이를 사용하여 의도치 않은 편향을 식별하는 방법을 자세히 알아보세요.

프롬프트에 프롬프트 템플릿 변수의 새로운 예시 입력을 제공하는 것으로 시작해 보겠습니다.

{{users-food-like-preferences}} = Cheese
{{users-food-dislike-preferences}} = Can't eat eggs
{{menu-item-to-analyse}} = Quiche Lorraine

이 작업이 완료되면 놀랄만한 모델 완성을 관찰할 수 있습니다.

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: A savoury tart with cheese and eggs
Recommendation: You might not like it, but it's worth trying.

모델이 먹을 수 없다고 분명히 밝힌 것을 먹으라고 제안하는 이유는 무엇인가요?

시퀀스 현저성은 퓨샷 예제에 있는 근본적인 문제를 강조하는 데 도움이 될 수 있습니다. 첫 번째 예에서 분석 섹션의 사고 사슬 추론은 최종 권장사항과 일치하지 않습니다. "구운 양파가 있어 마음에 들지 않아요"에 대한 분석은 '반드시 해봐야 합니다' 추천과 함께 활용됩니다.

프롬프트 시퀀스 특성 분석을 보여주는 LIT 사용자 인터페이스

그러면 초기 프롬프트에서 오류가 강조 표시됩니다. 첫 번째 퓨샷 예의 권장사항 (You have to try it!)이 실수로 복사되었습니다. 보라색 강조표시의 어두움에서 프롬프트의 특징 강도를 확인할 수 있습니다. 가장 높은 특징은 첫 번째 퓨샷 예, 특히 Taste-likes, Analysis, Recommendation에 해당하는 라인에 있습니다. 이는 모델이 잘못된 최종 제안을 하기 위해 이 선을 가장 많이 사용한다는 것을 의미합니다.

또한 이 예에서는 초기 프로토타입 제작을 통해 미리 생각하지 못할 위험을 드러낼 수 있으며, 오류가 발생하기 쉬운 언어 모델의 특성으로 인해 오류를 사전에 설계해야 한다는 것도 강조합니다. 이에 관한 내용은 AI를 사용한 설계에 관한 사람 + AI 가이드북에서 자세히 설명합니다.

가설을 테스트하여 모델 동작 개선

LIT를 사용하면 동일한 인터페이스 내에서 프롬프트의 변경사항을 테스트할 수 있습니다. 이 경우 구성을 추가하여 모델 동작을 개선해 보세요. 헌법이란 모델 생성을 안내하는 원칙이 포함된 설계 프롬프트를 말합니다 최근의 방식은 헌법 원칙의 대화형 파생도 가능하게 합니다.

이 아이디어를 바탕으로 프롬프트를 더욱 개선해 보겠습니다. LIT의 데이터 포인트 편집기를 사용하여 프롬프트 상단에 생성 원칙이 포함된 섹션을 추가합니다. 이 섹션은 이제 다음과 같이 시작됩니다.

Analyze a menu item in a restaurant.

* The analysis should be brief and to the point.
* It should provide a clear statement of suitability for someone with
  specific dietary restrictions.
* It should reflect the person's tastes

## For example:

Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: Avoid.

이 업데이트를 통해 예를 다시 실행하면 매우 다른 출력이 표시됩니다.

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: This dish contains eggs, which you can't eat.
Recommendation: Not suitable for you.

그런 다음 프롬프트 특성을 재검토하여 이러한 변화가 일어나는 이유를 파악할 수 있습니다.

프롬프트 특성 분석을 보여주는 LIT 사용자 인터페이스

이 예에서 '나에게 적합하지 않음'은 '식이 제한이 있는 사람을 위한 적합성에 관한 명확한 설명 제공' 원칙과 요리에 달걀 (사고의 사슬이라고도 함)이 포함되어 있음을 나타내는 설명적 설명의 영향을 받습니다.

모델 탐색 및 탐색에 기술 이외의 팀 포함

해석 가능성은 정책, 법률 등 다양한 분야의 전문성을 아우르는 팀의 노력이 필요합니다. 살펴본 바와 같이, 현저도를 검사하고 예시를 탐색하는 LIT의 시각적 매체와 상호작용 기능은 다양한 이해관계자가 결과를 공유하고 전달하는 데 도움이 될 수 있습니다. 이를 통해 모델 탐색, 프로빙, 디버깅을 위해 더 다양한 팀원을 참여시킬 수 있습니다. 모델을 이러한 기술적 메서드에 노출하면 모델의 작동 방식에 대한 이해도를 높일 수 있습니다. 또한 초기 모델 테스트에 대한 보다 다양한 전문 지식은 개선할 수 있는 바람직하지 않은 결과를 발견하는 데 도움이 될 수 있습니다.

요약

모델 평가에서 문제가 있는 예시를 발견하면 디버깅을 위해 이를 LIT로 가져옵니다. 모델링 작업과 논리적으로 관련이 있다고 생각할 수 있는 가장 합리적인 콘텐츠 단위를 분석하는 것부터 시작하고, 시각화를 사용하여 모델이 프롬프트 콘텐츠에 올바르게 또는 잘못 적용되는 위치를 확인한 다음, 발견되는 잘못된 동작을 자세히 설명하기 위해 콘텐츠의 더 작은 단위로 드릴다운하여 해결 방법을 파악합니다.

개발자 리소스