Membuat pengamanan input dan output

Aplikasi AI generatif sering kali mengandalkan pemfilteran data input dan output, terkadang disebut sebagai safeguards, untuk membantu memastikan perilaku model yang bertanggung jawab. Teknik pemfilteran input dan output memeriksa data yang masuk atau keluar dari model.

Pengamanan dan pengklasifikasi keamanan siap pakai

Meskipun keamanan dan template perintah yang didesain dengan baik telah disesuaikan sebelumnya, model Anda masih dapat menghasilkan konten yang mengakibatkan bahaya yang tidak diinginkan. Untuk lebih memperbaiki masalah ini, pengklasifikasi konten dapat menambahkan lapisan perlindungan tambahan. Pengklasifikasi konten dapat diterapkan baik ke input maupun output.

Pengklasifikasi input biasanya digunakan untuk memfilter konten yang tidak dimaksudkan untuk digunakan dalam aplikasi dan yang dapat menyebabkan model Anda melanggar kebijakan keamanan Anda. Filter input sering kali menargetkan serangan serangan yang mencoba mengakali kebijakan konten Anda. Pengklasifikasi output dapat memfilter lebih lanjut output model, sehingga menangkap pembuatan yang tidak diinginkan yang mungkin melanggar kebijakan keamanan Anda. Sebaiknya Anda memiliki pengklasifikasi yang mencakup semua kebijakan konten.

Google telah mengembangkan pengklasifikasi siap pakai untuk keamanan konten yang dapat digunakan untuk memfilter input dan output:

  • Perspective API adalah API gratis yang menggunakan model machine learning untuk menilai dampak yang dirasakan dari komentar pada percakapan. Fitur ini memberikan skor yang menangkap probabilitas apakah suatu komentar negatif, mengancam, menghina, di luar topik, dll.
  • Layanan moderasi teks adalah Google Cloud API yang tersedia untuk digunakan di bawah batas penggunaan tertentu dan menggunakan machine learning untuk menganalisis dokumen berdasarkan daftar atribut keamanan, termasuk berbagai kategori dan topik yang berpotensi membahayakan yang dapat dianggap sensitif.

Penting untuk mengevaluasi seberapa baik pengklasifikasi siap pakai dalam memenuhi tujuan kebijakan Anda, dan mengevaluasi kasus kegagalan secara kualitatif. Penting juga untuk diketahui bahwa pemfilteran berlebihan juga dapat mengakibatkan bahaya yang tidak diinginkan serta mengurangi utilitas aplikasi. Artinya, penting juga untuk meninjau kasus yang memungkinkan pemfilteran berlebihan. Untuk mengetahui detail selengkapnya tentang metode evaluasi tersebut, lihat Mengevaluasi keamanan model dan sistem.

Membuat pengklasifikasi keamanan yang disesuaikan

Jika kebijakan Anda tidak tercakup oleh API standar atau jika Anda ingin membuat pengklasifikasi Anda sendiri, teknik penyesuaian parameter yang efisien seperti prompt-tuning dan LoRA akan menyediakan framework yang efektif. Dalam metode ini, daripada menyesuaikan seluruh model, Anda dapat menggunakan jumlah data yang terbatas untuk melatih sekumpulan kecil parameter penting model. Hal ini memungkinkan model Anda mempelajari perilaku baru, seperti cara mengklasifikasikan kasus penggunaan keamanan baru Anda, dengan data pelatihan dan daya komputasi yang relatif sedikit. Pendekatan ini memungkinkan Anda mengembangkan alat keamanan yang dipersonalisasi untuk pengguna dan tugas Anda sendiri.

Untuk menggambarkan cara kerjanya, codelab ini menunjukkan kode yang diperlukan untuk menyiapkan "pengklasifikasi tangkas". Codelab ini menampilkan langkah-langkah menyerap data, memformatnya untuk LLM, melatih bobot LoRA, dan kemudian mengevaluasi hasilnya. Gemma memungkinkan pembuatan pengklasifikasi yang canggih ini hanya dengan beberapa baris kode. Untuk ringkasan yang lebih mendetail, makalah riset kami "Towards Agile Text Classifiers for Everyone" menunjukkan cara menggunakan teknik ini untuk melatih berbagai tugas keamanan agar mencapai performa terbaik hanya dengan beberapa ratus contoh pelatihan.

Dalam contoh tutorial ini, Anda dapat melatih pengklasifikasi untuk ujaran kebencian, menggunakan set data EHOS, set data yang tersedia secara publik untuk mendeteksi ujaran kebencian, yang dibuat dari komentar YouTube dan Reddit. Saat dilatih pada model Gemma yang lebih kecil, hanya dengan 200 contoh (sedikit kurang dari 1⁄4 set data), skor F1: 0,80 dan ROC-AUC sebesar 0,78. Hasil ini lebih baik dengan hasil canggih yang dilaporkan di papan peringkat papan peringkat ini. Saat dilatih menggunakan 800 contoh, seperti pengklasifikasi lain di papan peringkat, pengklasifikasi tangkas berbasis Gemma mencapai skor F1 83,74 dan skor RoC-AUC sebesar 88,17. Anda dapat langsung menggunakan pengklasifikasi ini, atau menyesuaikannya menggunakan tutorial Pengklasifikasi Agile Gemma.

Tutorial Pengklasifikasi Gemma Agile

Mulai Codelab Mulai Google Colab

Praktik terbaik untuk menyiapkan pengamanan

Menggunakan pengklasifikasi keamanan sangat direkomendasikan. Namun, pagar pembatas dapat menyebabkan model generatif tidak menghasilkan apa pun untuk pengguna, jika konten diblokir. Aplikasi harus didesain untuk menangani kasus ini. Chatbot paling populer menangani hal ini dengan memberikan jawaban template ("Maaf, saya adalah model bahasa, saya tidak dapat membantu permintaan ini").

Menemukan keseimbangan yang tepat antara manfaat dan tidak berbahaya: Saat menggunakan klasifikasi keamanan, Anda harus memahami bahwa pengklasifikasi keamanan dapat melakukan kesalahan, termasuk positif palsu (misalnya, mengklaim output tidak aman jika tidak aman) dan negatif palsu (gagal memberi label output sebagai tidak aman, padahal seharusnya). Dengan mengevaluasi pengklasifikasi menggunakan metrik seperti F1, Precision, Recall, dan AUC-ROC, Anda dapat menentukan cara untuk menyeimbangkan antara positif palsu dan negatif palsu. Dengan mengubah batas pengklasifikasi, Anda membantu menemukan keseimbangan ideal yang menghindari output pemfilteran berlebihan sambil tetap memberikan keamanan yang sesuai.

Periksa pengklasifikasi Anda untuk mendeteksi bias yang tidak diinginkan: Pengklasifikasi keamanan, seperti model ML lainnya, dapat menyebarkan bias yang tidak diinginkan, seperti stereotip sosial budaya. Aplikasi perlu dievaluasi dengan tepat untuk mendeteksi perilaku yang berpotensi bermasalah. Secara khusus, pengklasifikasi keamanan konten dapat memicu secara berlebihan pada konten yang terkait dengan identitas yang lebih sering menjadi target bahasa yang melanggar di internet. Sebagai contoh, saat Perspective API pertama kali diluncurkan, model ini menampilkan skor toksisitas yang lebih tinggi dalam komentar yang merujuk ke grup identitas tertentu (blog). Perilaku yang memicu secara berlebihan ini dapat terjadi karena komentar yang menyebutkan istilah identitas untuk kelompok yang lebih sering ditargetkan (misalnya, kata-kata seperti "Kulit Hitam", "muslim", "feminis", "perempuan", "gay", dll.) lebih sering bersifat negatif. Jika set data yang digunakan untuk melatih pengklasifikasi memiliki ketidakseimbangan yang signifikan untuk komentar yang berisi kata-kata tertentu, pengklasifikasi dapat menggeneralisasi secara berlebihan dan menganggap semua komentar yang berisi kata tersebut kemungkinan tidak aman. Baca cara tim Jigsaw memitigasi bias yang tidak diinginkan ini.

Referensi untuk Developer