Menilai risiko dan menetapkan kebijakan keselamatan

Kebijakan keamanan konten menentukan jenis konten berbahaya yang tidak diizinkan di platform online. Anda mungkin sudah memahami kebijakan konten dari platform seperti YouTube atau Google Play. Kebijakan konten untuk aplikasi AI generatif serupa: Kebijakan tersebut menentukan jenis konten yang tidak boleh dibuat oleh aplikasi Anda, serta memandu cara menyesuaikan model dan pengamanan mana yang sesuai untuk ditambahkan.

Kebijakan Anda harus mencerminkan kasus penggunaan aplikasi. Misalnya, produk AI generatif yang dimaksudkan untuk menawarkan ide untuk aktivitas keluarga berdasarkan saran komunitas mungkin memiliki kebijakan yang melarang pembuatan konten yang bersifat kekerasan, karena dapat membahayakan pengguna. Sebaliknya, aplikasi yang merangkum ide cerita fiksi ilmiah yang diajukan oleh pengguna mungkin ingin mengizinkan pembuatan kekerasan, karena merupakan subjek banyak cerita dalam genre ini.

Kebijakan keamanan Anda harus melarang pembuatan konten yang berbahaya bagi pengguna atau ilegal, dan harus menentukan jenis konten yang dihasilkan yang memenuhi persyaratan tersebut untuk aplikasi Anda. Anda juga dapat mempertimbangkan untuk menyertakan pengecualian untuk konten edukasional, dokumenter, ilmiah, atau artistik yang mungkin dianggap berbahaya.

Menetapkan kebijakan yang jelas dengan tingkat detail yang sangat terperinci, termasuk pengecualian kebijakan dengan contoh, sangat penting untuk membangun produk yang bertanggung jawab. Kebijakan Anda digunakan pada setiap langkah pengembangan model. Untuk pembersihan atau pelabelan data, ketidaktepatan dapat menyebabkan data yang salah diberi label, penghapusan berlebihan, atau penghapusan data yang akan memengaruhi respons keamanan model Anda. Untuk tujuan evaluasi, kebijakan yang tidak ditetapkan akan menyebabkan varian antar-pelabel yang tinggi, sehingga akan lebih sulit untuk mengetahui apakah model Anda memenuhi standar keamanan Anda.

Kebijakan hipotetis (hanya untuk ilustrasi)

Berikut ini beberapa contoh kebijakan yang dapat dipertimbangkan untuk digunakan aplikasi Anda, asalkan cocok dengan kasus penggunaan Anda.

Kategori kebijakan Kebijakan
Informasi Identitas Pribadi (SPII) yang Sensitif Aplikasi tidak akan membacakan informasi sensitif dan identitas pribadi (misalnya, email, nomor kartu kredit, atau nomor jaminan sosial individu).
Ujaran Kebencian Aplikasi tidak akan menghasilkan identitas penargetan konten yang negatif atau berbahaya dan/atau atribut yang dilindungi (misalnya, penghinaan rasial, promosi diskriminasi, ajakan untuk melakukan kekerasan terhadap kelompok yang dilindungi).
Pelecehan Aplikasi tidak akan membuat konten berbahaya, mengintimidasi, menindas, atau melecehkan yang menargetkan individu lain (misalnya, ancaman fisik, penyangkalan peristiwa tragis, meremehkan korban kekerasan).
Konten Berbahaya Aplikasi tidak akan memberikan petunjuk atau saran tentang menyakiti diri sendiri dan/atau orang lain (misalnya mengakses atau membuat senjata api dan alat peledak, mendukung terorisme, petunjuk untuk bunuh diri).
Seksual Vulgar Aplikasi ini tidak akan membuat konten yang berisi referensi ke tindakan seksual atau konten cabul lainnya (misalnya, deskripsi seksual vulgar, konten yang ditujukan untuk menimbulkan gairah).
Memungkinkan Akses ke Barang dan Jasa yang Berbahaya Aplikasi tidak akan menghasilkan konten yang mempromosikan atau memungkinkan akses ke barang, layanan, dan aktivitas yang berpotensi berbahaya (misalnya, memfasilitasi akses untuk mempromosikan perjudian, obat-obatan, kembang api, layanan seksual).
Konten Berbahaya Aplikasi tidak akan membuat petunjuk untuk melakukan aktivitas ilegal atau menipu (misalnya, membuat scam phishing, spam, atau konten yang ditujukan untuk permintaan massal atau metode jailbreak).

Resource untuk developer

Contoh kebijakan AI generatif:

  • Cloud Gemini API dan PaLM API menyediakan daftar atribut keamanan yang dapat berfungsi sebagai dasar untuk membuat kebijakan keamanan
  • Contoh kebijakan yang disertakan dalam Pembaruan Progres Prinsip AI Google 2023
  • Asosiasi MLCommons, sebuah konsorsium teknik yang dibangun berdasarkan filosofi kolaborasi terbuka untuk meningkatkan kualitas sistem AI, merujuk pada 6 bahaya yang membuat mereka mengevaluasi model terkait keamanan AI sebagai bagian dari Tolok Ukur Keamanan AI mereka.