Membuat pengamanan input dan output

Aplikasi AI generatif sering kali mengandalkan pemfilteran data input dan output, terkadang disebut sebagai perlindungan, untuk membantu memastikan model perilaku model. Teknik pemfilteran input dan output memeriksa data yang masuk atau yang dihasilkan dari model mematuhi kebijakan yang dapat untuk aplikasi Anda.

Pengamanan siap pakai

Bahkan dengan penyesuaian sebelumnya untuk keamanan dan template prompt yang dirancang dengan baik, masih memungkinkan bagi model Anda untuk menghasilkan konten yang mengakibatkan bahaya yang tidak diinginkan. Untuk mengatasinya, pengklasifikasi konten dapat menambahkan lapisan tambahan perlindungan data. Pengklasifikasi konten dapat diterapkan ke input dan output.

Pengklasifikasi input biasanya digunakan untuk memfilter konten yang tidak dimaksudkan untuk digunakan dalam aplikasi Anda dan yang dapat menyebabkan model melanggar kebijakan keamanan kami. Filter {i>input<i} sering menargetkan serangan penyerang yang mencoba mengakali kebijakan konten Anda. Pengklasifikasi output dapat memfilter model lebih lanjut output, menangkap generasi yang tidak diinginkan, yang mungkin melanggar kebijakan keamanan Anda. Sebaiknya Anda memiliki pengklasifikasi yang mencakup semua kebijakan konten Anda.

Google menyediakan pengklasifikasi berbasis API untuk keamanan konten yang dapat digunakan untuk filter input dan output sistem:

  • Perspective API adalah API gratis yang menggunakan model pembelajaran untuk menilai dampak yang dirasakan dari komentar percakapan. Diagram ini memberikan skor yang mencatat probabilitas apakah komentar negatif, mengancam, menghina, atau di luar topik.
  • Layanan Moderasi Teks adalah Google Cloud API yang tersedia untuk digunakan di bawah batas penggunaan tertentu dan menggunakan machine learning untuk menganalisis dokumen berdasarkan daftar keamanan yang berpotensi membahayakan, termasuk berbagai kategori dan topik yang berpotensi berbahaya yang mungkin dianggap sensitif.

Anda harus mengevaluasi seberapa baik pengklasifikasi siap pakai dalam memenuhi kebijakan Anda tujuan, dan mengevaluasi kasus kegagalan secara kualitatif. Penting juga untuk perhatikan bahwa filter yang berlebihan juga dapat mengakibatkan bahaya yang tidak diinginkan serta mengurangi kegunaan aplikasi. Artinya, penting juga untuk meninjau kasus di mana filter yang berlebihan mungkin terjadi. Untuk detail selengkapnya tentang evaluasi tersebut lainnya, lihat Mengevaluasi model dan sistem untuk keamanan.

Membuat pengklasifikasi keamanan yang disesuaikan

Ada beberapa alasan mengapa pengamanan yang siap pakai mungkin tidak cocok untuk kasus penggunaan Anda, seperti memiliki kebijakan yang tidak didukung, atau ingin sesuaikan pengamanan Anda dengan data yang teramati memengaruhi sistem Anda. Di beberapa dalam hal ini, pengklasifikasi yang tangkas memberikan model framework fleksibel untuk membuat perlindungan kustom dengan menyesuaikan model, seperti Gemma, sesuai dengan kebutuhan Anda. Mereka juga memungkinkan Anda untuk memiliki kendali penuh atas di mana dan cara deployment mereka.

Tutorial Pengklasifikasi Gemma Agile

Mulai Codelab Mulai Google Colab

codelab dan pengklasifikasi yang fleksibel tutorial menggunakan LoRA untuk meningkatkan kualitas Gemma model untuk bertindak sebagai pengklasifikasi moderasi konten menggunakan KerasNLP library. Dengan hanya menggunakan 200 contoh dari set data ETHOS, pengklasifikasi mendapatkan skor F1 sebesar 0,80 dan skor ROC-AUC sebesar 0,78, yang lebih baik dibandingkan dengan hasil papan peringkat. Saat dilatih dengan 800 contoh, seperti pengklasifikasi lain di papan peringkat, pengklasifikasi tangkas berbasis Gemma mencapai skor F1 83,74 dan skor ROC-AUC 88,17. Anda dapat mengadaptasi petunjuk tutorial untuk meningkatkan kualitas pengklasifikasi ini, atau untuk membuat pengklasifikasi Anda sendiri pengamanan pengklasifikasi keamanan khusus.

Praktik terbaik untuk menyiapkan pengamanan

Penggunaan pengklasifikasi keamanan sebagai pengamanan sangat direkomendasikan. Namun, batasan dapat menyebabkan model generatif tidak menghasilkan apa pun untuk jika konten tersebut diblokir. Aplikasi harus dirancang untuk menangani hal ini ini masalahnya atau bukan. Chatbot paling populer menangani hal ini dengan memberikan jawaban instan ("Saya adalah Maaf, saya adalah model bahasa, saya tidak dapat membantu Anda terkait permintaan ini").

Menemukan keseimbangan yang tepat antara manfaat dan tindakan tidak berbahaya: Saat menggunakan pengklasifikasi keamanan, penting untuk memahami bahwa mereka akan membuat kesalahan, termasuk positif palsu (misalnya, mengklaim output tidak aman padahal not) dan negatif palsu (gagal melabeli output sebagai tidak aman, padahal sebenarnya demikian). Menurut mengevaluasi pengklasifikasi dengan metrik seperti F1, Presisi, Recall, dan AUC-ROC, Anda dapat menentukan bagaimana Anda ingin mengatasi positif palsu versus palsu (PP) error negatif. Dengan mengubah batas pengklasifikasi, Anda membantu menemukan keseimbangan ideal yang menghindari output filter berlebihan sambil tetap memberikan keamanan yang memadai.

Periksa pengklasifikasi Anda untuk menemukan bias yang tidak diinginkan: Pengklasifikasi keamanan, seperti model ML lainnya, dapat menyebarkan bias yang tidak diinginkan, seperti sosial-budaya stereotip. Aplikasi perlu dievaluasi dengan tepat untuk mengetahui perilaku bermasalah. Secara khusus, pengklasifikasi keamanan konten dapat pemicu berlebihan pada konten yang terkait dengan identitas yang lebih sering target dari bahasa yang tidak pantas di internet. Misalnya, saat Perspective API pertama kali diluncurkan, model ini menampilkan skor toksisitas yang lebih tinggi dalam komentar merujuk ke kelompok identitas tertentu (blog). Pemicuan yang berlebihan ini perilaku ini dapat terjadi karena komentar yang menyebutkan istilah identitas untuk kelompok yang sering ditargetkan (mis., kata-kata seperti "Kulit Hitam", "muslim", "feminis", "perempuan", "gay", dll.) lebih sering bersifat racun. Ketika {i>dataset <i}digunakan untuk pengklasifikasi pelatihan memiliki ketidakseimbangan yang signifikan untuk komentar yang berisi kata-kata, pengklasifikasi dapat menggeneralisasi secara berlebihan dan mempertimbangkan semua komentar dengan kata-kata tersebut sebagai hal yang cenderung tidak aman. Baca cara tim Jigsaw memitigasi bias yang tidak disengaja ini.

Resource Developer