Hướng dẫn về an toàn

Các mô hình trí tuệ nhân tạo tạo sinh là những công cụ mạnh mẽ, nhưng vẫn có những hạn chế. Tính linh hoạt và khả năng áp dụng của các mô hình này đôi khi có thể dẫn đến kết quả không mong muốn, chẳng hạn như kết quả không chính xác, thiên vị hoặc phản cảm. Việc xử lý hậu kỳ và đánh giá thủ công nghiêm ngặt là điều cần thiết để hạn chế nguy cơ gây hại từ những kết quả như vậy.

Bạn có thể sử dụng các mô hình do Gemini API cung cấp cho nhiều ứng dụng AI tạo sinh và xử lý ngôn ngữ tự nhiên (NLP). Bạn chỉ có thể sử dụng các chức năng này thông qua Gemini API hoặc ứng dụng web Google AI Studio. Việc bạn sử dụng Gemini API cũng phải tuân thủ Chính sách về các hành vi bị cấm khi sử dụng AI tạo sinhĐiều khoản dịch vụ của Gemini API.

Một phần lý do khiến mô hình ngôn ngữ lớn (LLM) trở nên hữu ích là vì đây là những công cụ sáng tạo có thể giải quyết nhiều nhiệm vụ khác nhau liên quan đến ngôn ngữ. Rất tiếc, điều này cũng có nghĩa là các mô hình ngôn ngữ lớn có thể tạo ra kết quả đầu ra mà bạn không mong muốn, bao gồm cả văn bản phản cảm, thiếu tế nhị hoặc không chính xác về mặt thực tế. Hơn nữa, tính linh hoạt đáng kinh ngạc của các mô hình này cũng là yếu tố khiến chúng ta khó dự đoán chính xác loại kết quả không mong muốn mà chúng có thể tạo ra. Mặc dù Gemini API được thiết kế dựa trên các nguyên tắc về AI của Google, nhưng nhà phát triển vẫn phải chịu trách nhiệm áp dụng các mô hình này một cách có trách nhiệm. Để hỗ trợ nhà phát triển tạo các ứng dụng an toàn và có trách nhiệm, Gemini API có một số tính năng lọc nội dung tích hợp sẵn cũng như các chế độ cài đặt an toàn có thể điều chỉnh trên 4 khía cạnh gây hại. Hãy tham khảo hướng dẫn về chế độ cài đặt an toàn để tìm hiểu thêm.

Tài liệu này nhằm giới thiệu cho bạn một số rủi ro về an toàn có thể phát sinh khi sử dụng LLM, đồng thời đề xuất các đề xuất mới về thiết kế và phát triển an toàn. (Xin lưu ý rằng luật và quy định cũng có thể áp đặt các hạn chế, nhưng những yếu tố như vậy nằm ngoài phạm vi của hướng dẫn này.)

Bạn nên làm theo các bước sau khi tạo ứng dụng bằng LLM:

  • Tìm hiểu về các rủi ro an toàn của ứng dụng
  • Cân nhắc việc điều chỉnh để giảm thiểu rủi ro về an toàn
  • Thực hiện kiểm thử an toàn phù hợp với trường hợp sử dụng của bạn
  • Thu thập ý kiến phản hồi của người dùng và theo dõi mức sử dụng

Các giai đoạn điều chỉnh và kiểm thử nên được thực hiện lặp đi lặp lại cho đến khi bạn đạt được hiệu suất phù hợp cho ứng dụng của mình.

Chu kỳ triển khai mô hình

Tìm hiểu về các rủi ro an toàn của ứng dụng

Trong bối cảnh này, an toàn được định nghĩa là khả năng của một LLM trong việc tránh gây hại cho người dùng, chẳng hạn như bằng cách tạo ra ngôn từ độc hại hoặc nội dung truyền bá định kiến. Các mô hình có trong Gemini API được thiết kế dựa trên các nguyên tắc về AI của Google và việc bạn sử dụng API này phải tuân thủ Chính sách về các hành vi bị cấm khi sử dụng AI tạo sinh. API này cung cấp các bộ lọc an toàn tích hợp sẵn để giúp giải quyết một số vấn đề thường gặp về mô hình ngôn ngữ, chẳng hạn như ngôn từ độc hại và lời nói hận thù, đồng thời nỗ lực hướng đến tính toàn diện và tránh định kiến. Tuy nhiên, mỗi ứng dụng có thể gây ra một loạt rủi ro khác nhau cho người dùng. Vì vậy, với tư cách là chủ sở hữu ứng dụng, bạn có trách nhiệm nắm rõ thông tin về người dùng và những tác hại tiềm ẩn mà ứng dụng của bạn có thể gây ra, đồng thời đảm bảo rằng ứng dụng của bạn sử dụng các LLM một cách an toàn và có trách nhiệm.

Trong quá trình đánh giá này, bạn nên xem xét khả năng xảy ra tác hại, đồng thời xác định mức độ nghiêm trọng và các bước giảm thiểu. Ví dụ: một ứng dụng tạo bài luận dựa trên các sự kiện có thật sẽ cần phải cẩn thận hơn để tránh thông tin sai lệch, so với một ứng dụng tạo các câu chuyện hư cấu để giải trí. Một cách hay để bắt đầu tìm hiểu các rủi ro tiềm ẩn về an toàn là nghiên cứu người dùng cuối và những người khác có thể bị ảnh hưởng bởi kết quả của ứng dụng. Việc này có thể diễn ra theo nhiều cách, chẳng hạn như nghiên cứu các nghiên cứu hiện đại trong lĩnh vực ứng dụng của bạn, quan sát cách mọi người sử dụng các ứng dụng tương tự hoặc tiến hành nghiên cứu người dùng, khảo sát hoặc phỏng vấn không chính thức với người dùng tiềm năng.

Mẹo nâng cao

  • Trao đổi với nhiều người dùng tiềm năng trong nhóm đối tượng mục tiêu về ứng dụng của bạn và mục đích dự kiến của ứng dụng để có được góc nhìn rộng hơn về các rủi ro tiềm ẩn và điều chỉnh các tiêu chí đa dạng khi cần.
  • Khung quản lý rủi ro liên quan đến AI do Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) của chính phủ Hoa Kỳ phát hành cung cấp hướng dẫn chi tiết hơn và các tài nguyên học tập bổ sung để quản lý rủi ro liên quan đến AI.
  • Ấn phẩm của DeepMind về các rủi ro đạo đức và xã hội gây hại từ các mô hình ngôn ngữ mô tả chi tiết những cách mà các ứng dụng mô hình ngôn ngữ có thể gây hại.

Cân nhắc điều chỉnh để giảm thiểu rủi ro về an toàn

Giờ đây, bạn đã hiểu rõ các rủi ro và có thể quyết định cách giảm thiểu chúng. Việc xác định những rủi ro cần ưu tiên và mức độ cần thiết để ngăn chặn những rủi ro đó là một quyết định quan trọng, tương tự như việc phân loại lỗi trong một dự án phần mềm. Sau khi xác định được các mức độ ưu tiên, bạn có thể bắt đầu nghĩ về các loại biện pháp giảm thiểu phù hợp nhất. Đôi khi, chỉ cần thay đổi đơn giản là bạn có thể tạo ra sự khác biệt và giảm rủi ro.

Ví dụ: khi thiết kế một ứng dụng, hãy cân nhắc:

  • Điều chỉnh đầu ra của mô hình để phản ánh chính xác hơn những gì có thể chấp nhận được trong bối cảnh ứng dụng của bạn. Việc điều chỉnh có thể giúp đầu ra của mô hình dễ dự đoán và nhất quán hơn, do đó có thể giúp giảm thiểu một số rủi ro.
  • Cung cấp một phương thức nhập giúp tạo ra kết quả an toàn hơn. Chính xác thì dữ liệu đầu vào mà bạn cung cấp cho một LLM có thể tạo ra sự khác biệt về chất lượng của đầu ra. Việc thử nghiệm các câu lệnh đầu vào để tìm ra câu lệnh hoạt động an toàn nhất trong trường hợp sử dụng của bạn là hoàn toàn xứng đáng, vì sau đó bạn có thể cung cấp một trải nghiệm người dùng hỗ trợ việc này. Ví dụ: bạn có thể hạn chế người dùng chỉ chọn trong danh sách thả xuống gồm các câu lệnh đầu vào hoặc đưa ra các đề xuất bật lên bằng các cụm từ mô tả mà bạn nhận thấy hoạt động an toàn trong bối cảnh ứng dụng của mình.
  • Chặn dữ liệu đầu vào không an toàn và lọc dữ liệu đầu ra trước khi hiển thị cho người dùng. Trong các tình huống đơn giản, danh sách chặn có thể được dùng để xác định và chặn các từ hoặc cụm từ không an toàn trong câu lệnh hoặc câu trả lời, hoặc yêu cầu nhân viên đánh giá thủ công sửa đổi hoặc chặn nội dung đó.

  • Sử dụng các bộ phân loại đã được huấn luyện để gắn nhãn cho từng câu lệnh bằng các tín hiệu có hại hoặc tín hiệu đối nghịch tiềm ẩn. Sau đó, bạn có thể áp dụng các chiến lược khác nhau về cách xử lý yêu cầu dựa trên loại nội dung gây hại được phát hiện. Ví dụ: Nếu đầu vào có bản chất công khai đối kháng hoặc sai trái, thì đầu vào đó có thể bị chặn và thay vào đó, đầu ra sẽ là một phản hồi được viết sẵn.

    Mẹo nâng cao

    • Nếu các tín hiệu xác định đầu ra là có hại, ứng dụng có thể sử dụng các lựa chọn sau:
      • Đưa ra thông báo lỗi hoặc đầu ra được viết sẵn.
      • Hãy thử lại câu lệnh đó để xem có thể tạo ra một kết quả an toàn khác hay không, vì đôi khi cùng một câu lệnh sẽ tạo ra các kết quả khác nhau.

  • Áp dụng các biện pháp bảo vệ để ngăn chặn hành vi cố ý sử dụng sai, chẳng hạn như chỉ định cho mỗi người dùng một mã nhận dạng duy nhất và áp đặt giới hạn về số lượng truy vấn của người dùng có thể được gửi trong một khoảng thời gian nhất định. Một biện pháp bảo vệ khác là cố gắng ngăn chặn việc có thể bị chèn câu lệnh. Tấn công bằng câu lệnh, tương tự như tấn công bằng SQL, là một cách để người dùng độc hại thiết kế một câu lệnh đầu vào nhằm thao túng đầu ra của mô hình, chẳng hạn như bằng cách gửi một câu lệnh đầu vào hướng dẫn mô hình bỏ qua mọi ví dụ trước đó. Hãy xem Chính sách về các hành vi bị cấm khi sử dụng AI tạo sinh để biết thông tin chi tiết về hành vi cố ý sử dụng sai mục đích.

  • Điều chỉnh chức năng thành một chức năng vốn có rủi ro thấp hơn. Những nhiệm vụ có phạm vi hẹp hơn (ví dụ: trích xuất từ khoá từ các đoạn văn bản) hoặc có sự giám sát chặt chẽ hơn của con người (ví dụ: tạo nội dung dạng ngắn sẽ được con người xem xét) thường có rủi ro thấp hơn. Ví dụ: thay vì tạo một ứng dụng để viết email trả lời từ đầu, bạn có thể giới hạn ứng dụng đó ở việc mở rộng một dàn ý hoặc đề xuất cách diễn đạt khác.

Thực hiện kiểm thử an toàn phù hợp với trường hợp sử dụng của bạn

Kiểm thử là một phần quan trọng trong việc xây dựng các ứng dụng mạnh mẽ và an toàn, nhưng mức độ, phạm vi và chiến lược kiểm thử sẽ khác nhau. Ví dụ: một trình tạo thơ hai câu chỉ để giải trí có thể gây ra ít rủi ro nghiêm trọng hơn so với một ứng dụng được thiết kế để các công ty luật sử dụng nhằm tóm tắt các tài liệu pháp lý và giúp soạn thảo hợp đồng. Nhưng nhiều người dùng có thể sử dụng trình tạo thơ hai câu, tức là khả năng xảy ra các hành vi cố ý gây hại hoặc thậm chí là đầu vào gây hại ngoài ý muốn có thể cao hơn. Ngữ cảnh triển khai cũng rất quan trọng. Ví dụ: một ứng dụng có đầu ra được các chuyên gia đánh giá trước khi thực hiện bất kỳ hành động nào có thể được coi là ít có khả năng tạo ra đầu ra có hại hơn so với ứng dụng tương tự nhưng không có sự giám sát như vậy.

Bạn có thể phải trải qua nhiều lần thay đổi và kiểm thử trước khi cảm thấy tự tin rằng mình đã sẵn sàng ra mắt, ngay cả đối với những ứng dụng có rủi ro tương đối thấp. Có 2 loại kiểm thử đặc biệt hữu ích cho các ứng dụng AI:

  • Đo điểm chuẩn về độ an toàn bao gồm việc thiết kế các chỉ số an toàn phản ánh những cách mà ứng dụng của bạn có thể không an toàn trong bối cảnh ứng dụng có khả năng được sử dụng như thế nào, sau đó kiểm tra hiệu suất của ứng dụng dựa trên các chỉ số bằng cách sử dụng các tập dữ liệu đánh giá. Bạn nên cân nhắc mức tối thiểu có thể chấp nhận của các chỉ số an toàn trước khi thử nghiệm để 1) bạn có thể đánh giá kết quả thử nghiệm dựa trên những kỳ vọng đó và 2) bạn có thể thu thập tập dữ liệu đánh giá dựa trên các thử nghiệm đánh giá những chỉ số mà bạn quan tâm nhất.

    Mẹo nâng cao

    • Hãy cẩn thận khi quá phụ thuộc vào các phương pháp "có sẵn" vì có thể bạn sẽ cần tạo bộ dữ liệu kiểm thử của riêng mình bằng cách sử dụng người đánh giá để hoàn toàn phù hợp với bối cảnh của ứng dụng.
    • Nếu có nhiều chỉ số, bạn sẽ cần quyết định cách đánh đổi nếu một thay đổi dẫn đến việc cải thiện một chỉ số nhưng lại làm giảm một chỉ số khác. Giống như các kỹ thuật khác về hiệu suất, bạn có thể muốn tập trung vào hiệu suất trong trường hợp xấu nhất trên bộ đánh giá thay vì hiệu suất trung bình.
  • Kiểm thử nghịch đảo là chủ động tìm cách phá vỡ ứng dụng của bạn. Mục tiêu là xác định các điểm yếu để bạn có thể thực hiện các bước khắc phục khi thích hợp. Kiểm thử đối kháng có thể tốn nhiều thời gian/công sức của những người đánh giá có chuyên môn về ứng dụng của bạn. Tuy nhiên, bạn càng kiểm thử nhiều thì càng có nhiều khả năng phát hiện ra vấn đề, đặc biệt là những vấn đề hiếm khi xảy ra hoặc chỉ xảy ra sau khi chạy ứng dụng nhiều lần.

    • Kiểm thử nghịch đảo là một phương pháp đánh giá có hệ thống một mô hình học máy nhằm tìm hiểu cách mô hình này hoạt động khi được cung cấp đầu vào độc hại hoặc vô tình gây hại:
      • Đầu vào có thể độc hại khi được thiết kế rõ ràng để tạo ra đầu ra không an toàn hoặc gây hại – ví dụ: yêu cầu mô hình tạo văn bản tạo ra một bài phát biểu thù hận về một tôn giáo cụ thể.
      • Đầu vào vô tình gây hại khi bản thân đầu vào có thể vô hại nhưng lại tạo ra đầu ra gây hại – ví dụ: yêu cầu mô hình tạo văn bản mô tả một người thuộc một sắc tộc cụ thể và nhận được đầu ra phân biệt chủng tộc.
    • Điều phân biệt kiểm thử đối nghịch với quy trình đánh giá tiêu chuẩn là thành phần của dữ liệu dùng để kiểm thử. Đối với các kiểm thử đối kháng, hãy chọn dữ liệu kiểm thử có khả năng cao nhất sẽ tạo ra đầu ra có vấn đề từ mô hình. Điều này có nghĩa là bạn cần kiểm tra hành vi của mô hình đối với tất cả các loại tác hại có thể xảy ra, bao gồm cả những ví dụ hiếm gặp hoặc bất thường và các trường hợp đặc biệt có liên quan đến chính sách an toàn. Tập dữ liệu này cũng phải đa dạng về nhiều khía cạnh của một câu, chẳng hạn như cấu trúc, ý nghĩa và độ dài. Bạn có thể tham khảo Các phương pháp sử dụng AI có trách nhiệm của Google về tính công bằng để biết thêm thông tin chi tiết về những điều cần cân nhắc khi tạo một tập dữ liệu kiểm thử.

      Mẹo nâng cao

      • Sử dụng kiểm thử tự động thay vì phương pháp truyền thống là tuyển dụng người vào "nhóm tấn công" để cố gắng xâm nhập ứng dụng của bạn. Trong kiểm thử tự động, "nhóm tấn công" là một mô hình ngôn ngữ khác tìm thấy văn bản đầu vào tạo ra kết quả có hại từ mô hình đang được kiểm thử.

Theo dõi các vấn đề

Dù bạn kiểm thử và giảm thiểu đến mức nào, bạn cũng không bao giờ có thể đảm bảo sự hoàn hảo. Vì vậy, hãy lên kế hoạch trước về cách bạn sẽ phát hiện và xử lý các vấn đề phát sinh. Các phương pháp phổ biến bao gồm thiết lập một kênh được giám sát để người dùng chia sẻ ý kiến phản hồi (ví dụ: đánh giá thích/không thích) và tiến hành một nghiên cứu về người dùng để chủ động thu thập ý kiến phản hồi từ nhiều người dùng đa dạng – đặc biệt có giá trị nếu các mẫu sử dụng khác với kỳ vọng.

Mẹo nâng cao

Các bước tiếp theo