Produk kecerdasan buatan generatif (GenAI) relatif baru dan perilakunya dapat bervariasi lebih banyak daripada bentuk software sebelumnya. Pengamanan yang melindungi produk Anda dari penyalahgunaan kemampuan AI Generatif harus beradaptasi baik. Panduan ini menjelaskan cara menerapkan kepatuhan terhadap kebijakan konten pemeriksa dan alat watermark untuk melindungi produk berkemampuan AI Generatif.
Kepatuhan terhadap kebijakan konten
Meskipun telah melakukan penyesuaian untuk keamanan sebelumnya dan template perintah yang didesain dengan baik, produk GenAI Anda mungkin menghasilkan konten yang menyebabkan bahaya yang tidak disengaja. Produk AI Generatif sering mengandalkan pemfilteran input dan output untuk memastikan perilaku model yang bertanggung jawab. Ini yang memeriksa data yang masuk atau keluar dari model sesuai dengan kebijakan Anda, biasanya dengan melakukan pelatihan keamanan untuk membuat model pengklasifikasi konten.
Pengklasifikasi input digunakan untuk memfilter konten yang secara langsung atau yang mungkin menyebabkan model Anda menghasilkan konten yang melanggar kebijakan konten Anda. Filter input sering kali menargetkan serangan yang mencoba mengakali kebijakan konten Anda.
Pengklasifikasi output memfilter output model, yang menangkap konten yang dihasilkan yang melanggar kebijakan keamanan Anda. Pemantauan perilaku penolakan konten Anda dengan cermat dapat menampilkan class perintah baru yang dapat digunakan untuk menambah atau meningkatkan filter input.
Sebaiknya miliki pengklasifikasi yang mencakup semua kebijakan konten Anda. Anda mungkin dapat melakukannya menggunakan klasifikasi siap pakai, atau Anda mungkin perlu membuat klasifikasi kustom yang mendukung kebijakan tertentu.
Keseimbangan juga sangat penting. Pemfilteran berlebihan dapat mengakibatkan bahaya yang tidak diinginkan, atau mengurangi kegunaan aplikasi; pastikan untuk meninjau kasus di mana {i>over-filtering <i}dapat apa yang akan terjadi. Lihat panduan evaluasi keamanan untuk informasi selengkapnya.
Pengklasifikasi kebijakan konten siap pakai
Pengklasifikasi konten siap pakai memberikan lapisan perlindungan tambahan ke model keamanan bawaan, yang selanjutnya mengurangi potensi jenis-jenis pelanggaran kebijakan. Umumnya, ada dua jenis:
- Pengklasifikasi yang dihosting sendiri, seperti ShieldGemma, dapat didownload dan dihosting di berbagai arsitektur, termasuk platform Cloud seperti Google Cloud, hardware milik pribadi, dan beberapa pengklasifikasi bahkan dapat berjalan di perangkat untuk aplikasi seluler.
- Pengklasifikasi berbasis API disediakan sebagai layanan yang menawarkan klasifikasi bervolume tinggi
dan latensi rendah terhadap berbagai kebijakan. Google menyediakan
tiga layanan yang mungkin menarik:
- Checks AI Safety menyediakan penilaian kepatuhan dan dasbor yang mendukung evaluasi dan pemantauan model. Alat Keselamatan AI masih dalam versi beta terbuka. Daftar untuk mendapatkan berita, akses, dan demo.
- Layanan Moderasi Teks adalah Google Cloud API yang menganalisis teks untuk menemukan pelanggaran keamanan, termasuk kategori berbahaya dan topik sensitif, yang tunduk pada tarif penggunaan.
- Perspective API adalah API gratis yang menggunakan model machine learning untuk menilai dampak yang dianggap dapat muncul dari suatu komentar dalam percakapan. Alat ini memberikan skor yang menunjukkan kemungkinan apakah komentar bersifat negatif, mengancam, menghina, atau di luar topik.
Penting untuk mengevaluasi seberapa baik pengklasifikasi siap pakai memenuhi tujuan kebijakan Anda, dan mengevaluasi kasus kegagalan secara kualitatif.
Pengklasifikasi kebijakan konten kustom
Pengklasifikasi kebijakan konten siap pakai adalah awal yang bagus, tetapi memiliki batasan, termasuk:
- Taksonomi kebijakan tetap yang mungkin tidak dipetakan ke atau mencakup semua konten Anda kebijakan izin yang relevan.
- Persyaratan hardware dan konektivitas yang mungkin tidak sesuai untuk lingkungan tempat aplikasi yang didukung GenAI akan di-deploy.
- Harga dan batasan penggunaan lainnya.
Pengklasifikasi kebijakan konten kustom dapat menjadi salah satu cara untuk mengatasi keterbatasan ini, dan metode pengklasifikasi yang cerdas memberikan yang efisien dan fleksibel untuk membuatnya. Saat metode ini men-tuning model demi keamanan, pastikan untuk meninjau dasar-dasar tuning model.
Mengidentifikasi konten buatan AI dengan watermark Teks SynthID
GenAI dapat menghasilkan lebih banyak konten yang sangat beragam dengan skala sebelumnya tak terbayangkan. Meskipun sebagian besar penggunaan ini adalah untuk tujuan yang sah, ada kekhawatiran bahwa hal itu dapat menyebabkan masalah misinformasi dan kesalahan atribusi. Pemberian watermark adalah salah satu teknik untuk mengurangi potensi dampak ini. Watermark yang tidak terlihat oleh manusia dapat diterapkan pada konten buatan AI, dan model deteksi dapat menilai konten arbitrer untuk menunjukkan kemungkinannya telah diberi watermark.
SynthID adalah teknologi Google DeepMind yang memberikan watermark dan mengidentifikasi konten buatan AI dengan menyematkan watermark digital secara langsung ke dalam gambar, audio, teks, atau video buatan AI. SynthID Text kini tersedia untuk diproduksi di Hugging Face Transformers, lihat makalah penelitian dan dokumen untuk mempelajari lebih lanjut tentang cara menggunakan SynthID di aplikasi Anda.
Google Cloud menyediakan kemampuan pemberian watermark SynthID untuk modalitas lain, seperti gambar buatan Imagen, kepada pelanggan Vertex AI.
Praktik terbaik untuk menyiapkan pengamanan
Penggunaan pengklasifikasi keamanan sebagai pengamanan sangat direkomendasikan. Namun, pembatasan dapat menyebabkan model generatif tidak menghasilkan apa pun untuk pengguna, jika konten diblokir. Aplikasi harus dirancang untuk menangani hal ini ini masalahnya atau bukan. Chatbot paling populer menangani hal ini dengan memberikan jawaban instan ("Saya adalah Maaf, saya adalah model bahasa, saya tidak dapat membantu Anda terkait permintaan ini").
Menemukan keseimbangan yang tepat antara kegunaan dan keamanan: Saat menggunakan pengklasifikasi keamanan, penting untuk memahami bahwa pengklasifikasi tersebut akan melakukan kesalahan, termasuk positif palsu (misalnya, mengklaim output tidak aman padahal aman) dan negatif palsu (gagal melabeli output sebagai tidak aman, padahal tidak). Dengan mengevaluasi pengklasifikasi dengan metrik seperti F1, Presisi, Recall, dan AUC-ROC, Anda dapat menentukan bagaimana Anda ingin mengorbankan error positif palsu versus error negatif palsu. Dengan mengubah nilai minimum pengklasifikasi, Anda membantu menemukan keseimbangan ideal yang menghindari pemfilteran output yang berlebihan sekaligus tetap memberikan keamanan yang sesuai.
Periksa pengklasifikasi Anda untuk menemukan bias yang tidak diinginkan: Pengklasifikasi keamanan, seperti model ML lainnya, dapat menyebarkan bias yang tidak diinginkan, seperti sosial-budaya stereotip. Aplikasi perlu dievaluasi dengan tepat untuk perilaku yang berpotensi bermasalah. Secara khusus, pengklasifikasi keamanan konten dapat memicu secara berlebihan konten yang terkait dengan identitas yang lebih sering menjadi target bahasa kasar secara online. Misalnya, saat Perspective API pertama kali diluncurkan, model ini menampilkan skor toksisitas yang lebih tinggi dalam komentar merujuk ke kelompok identitas tertentu (blog). Perilaku pemicu berlebih ini dapat terjadi karena komentar yang menyebutkan istilah identitas untuk grup yang lebih sering ditargetkan (misalnya, kata-kata seperti "Hitam", "muslim", "feminis", "perempuan", "gay", dll.) sering kali bersifat beracun. Ketika {i>dataset <i}digunakan untuk pengklasifikasi pelatihan memiliki ketidakseimbangan yang signifikan untuk komentar yang berisi kata-kata, pengklasifikasi dapat menggeneralisasi secara berlebihan dan mempertimbangkan semua komentar dengan kata-kata tersebut sebagai hal yang cenderung tidak aman. Baca cara tim Jigsaw memitigasi bias yang tidak disengaja ini.
Resource Developer
- SynthID: Alat untuk memberi watermark dan mengidentifikasi konten buatan AI.
- Memeriksa Keamanan AI: Kepatuhan keamanan AI.
- Perspective API: Untuk mengidentifikasi konten negatif.
- Layanan moderasi teks: Untuk pelanggan Google Cloud.