Phân tích hành vi của mô hình bằng công cụ diễn giải

Mặc dù cách tiếp cận AI có trách nhiệm nên bao gồm các chính sách an toàn, kỹ thuật cải thiện độ an toàn của mô hình, cách xây dựng cấu phần phần mềm minh bạch, nhưng cách tiếp cận của bạn để có trách nhiệm với AI tạo sinh không chỉ là tuân theo một danh sách kiểm tra. Các sản phẩm AI tạo sinh còn tương đối mới và hành vi của ứng dụng có thể khác nhiều hơn so với các dạng phần mềm trước đó. Vì lý do này, bạn nên thăm dò các mô hình học máy đang được sử dụng, kiểm tra các ví dụ về hành vi của mô hình và điều tra các yếu tố gây bất ngờ.

Ngày nay, câu lệnh cũng quan trọng như nghệ thuật. Tuy nhiên, vẫn có nhiều công cụ có thể giúp bạn cải thiện câu lệnh cho các mô hình ngôn ngữ lớn về mặt thực nghiệm, chẳng hạn như Công cụ diễn giải trong quá trình học tập (LIT). LIT là một nền tảng nguồn mở được phát triển để trực quan hoá, tìm hiểu và gỡ lỗi các mô hình trí tuệ nhân tạo/học máy. Dưới đây là ví dụ về cách sử dụng LIT để khám phá hành vi của Gemma, dự đoán các vấn đề tiềm ẩn và cải thiện độ an toàn của nó.

Bạn có thể cài đặt LIT trên máy cục bộ, trong Colab hoặc trên Google Cloud. Để bắt đầu sử dụng LIT, hãy nhập mô hình của bạn và một tập dữ liệu liên kết (ví dụ: tập dữ liệu đánh giá an toàn) vào Colab. LIT sẽ tạo một tập hợp đầu ra cho tập dữ liệu bằng cách sử dụng mô hình của bạn và cung cấp cho bạn một giao diện người dùng để khám phá hành vi của mô hình.

Phân tích Mô hình Gemma bằng LIT

Bắt đầu lớp học lập trình Khởi động Google Colab

Ảnh động minh hoạ giao diện người dùng của Công cụ diễn giải trong học tập (LIT)

Hình ảnh này cho thấy giao diện người dùng của LIT. Trình chỉnh sửa Datapoint ở trên cùng cho phép người dùng chỉnh sửa câu lệnh của họ. Ở dưới cùng, mô-đun Salience LM cho phép họ kiểm tra kết quả về độ mặn.

Xác định lỗi trong các câu lệnh phức tạp

Hai trong số những kỹ thuật nhắc quan trọng nhất dành cho nguyên mẫu và ứng dụng dựa trên LLM chất lượng cao là lời nhắc nhanh (bao gồm cả ví dụ về hành vi mong muốn trong câu lệnh) và chuỗi suy nghĩ, bao gồm hình thức giải thích hoặc lập luận trước khi đưa ra kết quả cuối cùng của LLM. Tuy nhiên, việc tạo lời nhắc hiệu quả thường vẫn khó khăn.

Hãy xem xét ví dụ về cách giúp một người đánh giá xem họ có thích một món ăn dựa trên khẩu vị của họ hay không. Mẫu lời nhắc về chuỗi suy nghĩ ban đầu có thể có dạng như sau:

Analyze a menu item in a restaurant.


## For example:


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: You have to try it.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Baguette maison au levain
Analysis: Home-made leaven bread in France is usually great
Recommendation: Likely good.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Macaron in France
Analysis: Sweet with many kinds of flavours
Recommendation: You have to try it.


## Now analyse one more example:


Taste-likes: {{users-food-like-preferences}}
Taste-dislikes: {{users-food-dislike-preferences}}
Suggestion: {{menu-item-to-analyse}}
Analysis:

Bạn có phát hiện thấy vấn đề nào với câu lệnh này không? LIT sẽ giúp bạn kiểm tra lời nhắc bằng mô-đun Salience LM.

Sử dụng dữ liệu về trình tự để gỡ lỗi

Độ nổi bật được tính toán ở cấp nhỏ nhất có thể (tức là cho mỗi mã thông báo đầu vào), nhưng LIT có thể tổng hợp độ bền của mã thông báo thành các khoảng lớn hơn dễ hiểu hơn, chẳng hạn như dòng, câu hoặc từ. Hãy tìm hiểu thêm về độ mặn và cách sử dụng độ mặn để xác định độ thiên lệch ngoài ý muốn trong bài viết Khám phá mức độ mặn tương tác.

Hãy bắt đầu bằng cách cung cấp cho lời nhắc một dữ liệu đầu vào mới mẫu cho các biến mẫu lời nhắc:

{{users-food-like-preferences}} = Cheese
{{users-food-dislike-preferences}} = Can't eat eggs
{{menu-item-to-analyse}} = Quiche Lorraine

Sau khi hoàn tất việc này, bạn có thể nhận thấy một mô hình hoàn thành đầy bất ngờ:

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: A savoury tart with cheese and eggs
Recommendation: You might not like it, but it's worth trying.

Tại sao mô hình đề xuất bạn ăn món gì đó mà bạn đã cho biết rõ ràng là bạn không thể ăn?

Độ linh hoạt của trình tự có thể giúp làm nổi bật vấn đề gốc, có trong các ví dụ vài ảnh của chúng tôi. Trong ví dụ đầu tiên, cách lập luận theo chuỗi trong phần phân tích không phù hợp với đề xuất cuối cùng. Bản phân tích "Món này có hành tây nấu trong đó mà bạn không thích" đi kèm với đề xuất "Bạn phải thử".

Giao diện người dùng LIT hiển thị dữ liệu phân tích độ ngon của trình tự lời nhắc

Điều này làm nổi bật một lỗi trong lời nhắc ban đầu: đã vô tình sử dụng đề xuất (You have to try it!) cho ví dụ trong vài ảnh đầu tiên. Bạn có thể thấy độ mặn trong câu lệnh từ độ tối của phần đánh dấu màu tím. Độ mặn cao nhất là ở ví dụ trong một vài ảnh đầu tiên, và cụ thể là trên các dòng tương ứng với Taste-likes, AnalysisRecommendation. Điều này cho thấy mô hình đang sử dụng các dòng này nhiều nhất để đưa ra đề xuất không chính xác cuối cùng.

Ví dụ này cũng nhấn mạnh rằng việc tạo nguyên mẫu sớm có thể bộc lộ những rủi ro mà bạn có thể không nghĩ tới trước. Ngoài ra, bản chất dễ xảy ra lỗi của mô hình ngôn ngữ có nghĩa là bạn phải chủ động thiết kế để phát hiện lỗi. Điều này sẽ được thảo luận kỹ hơn trong Sách hướng dẫn về con người và AI thiết kế bằng AI.

Kiểm tra giả thuyết để cải thiện hành vi của mô hình

LIT cho phép bạn thử nghiệm các thay đổi đối với câu lệnh trong cùng một giao diện. Trong ví dụ này, hãy thử thêm một thành phần để cải thiện hành vi của mô hình. Hiến pháp đề cập đến các lời nhắc thiết kế với các nguyên tắc giúp định hướng việc tạo mô hình. Các phương thức gần đây thậm chí còn cho phép dẫn xuất tương tác các nguyên tắc lập hiến.

Hãy dùng ý tưởng này để giúp cải thiện thêm lời nhắc. Sử dụng Trình chỉnh sửa dữ liệu của LIT để thêm một mục có nguyên tắc tạo ở đầu lời nhắc của chúng tôi. Mục này sẽ bắt đầu như sau:

Analyze a menu item in a restaurant.

* The analysis should be brief and to the point.
* It should provide a clear statement of suitability for someone with
  specific dietary restrictions.
* It should reflect the person's tastes

## For example:

Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: Avoid.

Với bản cập nhật này, ví dụ có thể chạy lại và quan sát thấy một kết quả rất khác:

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: This dish contains eggs, which you can't eat.
Recommendation: Not suitable for you.

Sau đó, mức độ phù hợp của lời nhắc có thể được kiểm tra lại để giúp biết lý do tại sao thay đổi này xảy ra:

Giao diện người dùng LIT hiển thị số liệu phân tích mức độ phù hợp của lời nhắc

Trong ví dụ này, "Không phù hợp với bạn" chịu ảnh hưởng của nguyên tắc "Đưa ra tuyên bố rõ ràng về mức độ phù hợp với người có chế độ ăn uống cụ thể" và tuyên bố phân tích giải thích lưu ý rằng món ăn có trứng (gọi là chuỗi suy nghĩ).

Đưa các nhóm phi kỹ thuật vào hoạt động thăm dò và thăm dò mô hình

Khả năng diễn giải là một nỗ lực của một nhóm, bao gồm kiến thức chuyên môn về chính sách, pháp lý và các lĩnh vực khác. Như bạn đã thấy, khả năng tương tác và phương tiện trực quan của LIT để kiểm tra độ nổi bật và khám phá các ví dụ có thể giúp các bên liên quan khác nhau chia sẻ và truyền đạt thông tin phát hiện được. Nhờ đó, bạn có thể khai thác nhiều thành viên trong nhóm hơn để khám phá mô hình, thăm dò và gỡ lỗi. Việc giới thiệu cho họ các phương thức kỹ thuật này có thể giúp nâng cao hiểu biết của họ về cách hoạt động của các mô hình. Ngoài ra, một nhóm kiến thức chuyên môn đa dạng về việc kiểm thử mô hình ban đầu cũng có thể giúp phát hiện những kết quả không mong muốn có thể cải thiện.

Tóm tắt

Khi bạn tìm thấy các ví dụ có vấn đề trong quá trình đánh giá mô hình, hãy đưa các ví dụ đó vào LIT để gỡ lỗi. Hãy bắt đầu bằng cách phân tích đơn vị nội dung lớn nhất hợp lý mà bạn cho rằng có liên quan về mặt logic với tác vụ lập mô hình, sử dụng hình ảnh trực quan để xem vị trí mô hình đang tham gia đúng hay không chính xác đối với nội dung lời nhắc, sau đó xem chi tiết các đơn vị nội dung nhỏ hơn để mô tả thêm về hành vi không chính xác mà bạn đang thấy nhằm xác định cách khắc phục có thể xảy ra.

Tài nguyên dành cho nhà phát triển