Kecerdasan buatan generatif (GenAI) dapat menghasilkan berbagai konten yang sangat beragam dalam skala yang sebelumnya tidak terbayangkan. Meskipun sebagian besar penggunaan ini adalah untuk tujuan yang sah, ada kekhawatiran bahwa hal ini dapat berkontribusi pada masalah misinformasi dan misattribution. Pemberian watermark adalah salah satu teknik untuk memitigasi potensi dampak ini. Watermark yang tidak terlihat oleh manusia dapat diterapkan pada konten buatan AI, dan model deteksi dapat menilai konten arbitrer untuk menunjukkan kemungkinan konten tersebut telah diberi watermark.
SynthID adalah teknologi dari Google DeepMind yang memberi watermark dan mengidentifikasi konten buatan AI dengan menyematkan watermark digital secara langsung ke dalam gambar, audio, teks, atau video buatan AI. SynthID Text telah di-open source untuk menyediakan pembuatan watermark untuk pembuatan teks bagi developer. Anda dapat membaca makalah di Nature untuk mengetahui deskripsi teknis metode yang lebih lengkap.
Implementasi SynthID Text tingkat produksi tersedia di Hugging Face Transformers v4.46.0+, yang dapat Anda coba di SynthID Text Space resmi. Implementasi referensi juga tersedia di GitHub yang mungkin berguna bagi pengelola dan kontributor open source yang ingin menerapkan teknik ini ke framework lain.
Penerapan watermark
Secara praktis, SynthID Text adalah pemroses logit, yang diterapkan ke pipeline pembuatan model Anda setelah Top-K dan Top-P, yang meningkatkan logit model menggunakan fungsi g pseudorandom untuk mengenkode informasi watermarking dengan cara yang membantu Anda menentukan apakah teks dibuat oleh model Anda, tanpa memengaruhi kualitas teks secara signifikan. Baca makalah untuk mengetahui deskripsi teknis lengkap tentang algoritma dan analisis tentang pengaruh nilai konfigurasi yang berbeda terhadap performa.
Stempel air dikonfigurasi untuk memparametrisasi fungsi g dan cara penerapannya selama pembuatan. Setiap konfigurasi watermark yang Anda gunakan harus disimpan dengan aman dan secara pribadi. Jika tidak, watermark Anda dapat direplikasi dengan mudah oleh orang lain.
Anda harus menentukan dua parameter dalam setiap konfigurasi watermark:
- Parameter
keys
adalah daftar bilangan bulat acak yang unik yang digunakan untuk menghitung skor fungsi g di seluruh kosakata model. Panjang daftar ini menentukan jumlah lapisan watermark yang diterapkan. Lihat Lampiran C.1 dalam makalah untuk mengetahui detail selengkapnya. - Parameter
ngram_len
digunakan untuk menyeimbangkan keandalan dan keterdeteksian; makin besar nilainya, makin besar watermark yang dapat dideteksi, tetapi akibatnya Anda akan lebih rentan terhadap perubahan. Panjang 5 adalah nilai default yang baik.
Anda dapat mengonfigurasi watermark lebih lanjut berdasarkan kebutuhan performa:
- Tabel sampling dikonfigurasi oleh dua properti,
sampling_table_size
dansampling_table_seed
. Anda ingin menggunakansampling_table_size
minimal \( 2^{16} \) untuk memastikan fungsi g yang tidak bias dan stabil saat mengambil sampel, tetapi perlu diketahui bahwa ukuran tabel sampling memengaruhi jumlah memori yang diperlukan pada waktu inferensi. Anda dapat menggunakan bilangan bulat apa pun yang diinginkan sebagaisampling_table_seed
. - n-gram berulang dalam token
context_history_size
sebelumnya tidak diberi watermark untuk meningkatkan kemampuan deteksi.
Tidak diperlukan pelatihan tambahan untuk membuat teks dengan watermark Teks
SynthID menggunakan model Anda, hanya
konfigurasi watermark yang diteruskan ke metode
.generate()
model untuk mengaktifkan pemroses logit Teks
SynthID. Lihat postingan blog dan Spasi untuk melihat contoh kode yang menunjukkan cara menerapkan watermark di library Transformers.
Deteksi dan verifikasi watermark
Deteksi watermark bersifat probabilistik. Detektor Bayesian dilengkapi dengan Hugging Face Transformers dan di GitHub. Detektor ini dapat menghasilkan tiga kemungkinan status deteksi—dengan watermark, tanpa watermark, atau tidak pasti—dan perilakunya dapat disesuaikan dengan menetapkan dua nilai nilai minimum untuk mencapai rasio positif palsu dan negatif palsu tertentu. Lihat Lampiran C.8 dalam makalah untuk mengetahui detail selengkapnya.
Model yang menggunakan tokenizer yang sama juga dapat berbagi konfigurasi dan detector watermarking, sehingga berbagi watermark yang sama, selama set pelatihan detector menyertakan contoh dari semua model yang berbagi watermark.
Setelah memiliki detektor terlatih, Anda memiliki pilihan untuk menentukan apakah dan bagaimana Anda mengeksposnya kepada pengguna, dan publik secara umum.
- Opsi sepenuhnya pribadi tidak merilis atau mengekspos detektor dengan cara apa pun.
- Opsi semi-pribadi tidak merilis detektor, tetapi mengeksposnya melalui API.
- Opsi publik merilis detektor agar dapat didownload dan digunakan oleh orang lain.
Anda dan organisasi Anda perlu memutuskan pendekatan verifikasi deteksi mana yang paling sesuai dengan kebutuhan Anda, berdasarkan kemampuan Anda untuk mendukung infrastruktur dan proses terkait.
Batasan
Stempel air Teks SynthID tahan terhadap beberapa transformasi—memotong bagian teks, mengubah beberapa kata, atau parafrase ringan—tetapi metode ini memiliki batasan.
- Penerapan watermark kurang efektif pada respons faktual, karena ada lebih sedikit peluang untuk meningkatkan pembuatan tanpa mengurangi akurasi.
- Skor keyakinan pendeteksi dapat sangat berkurang jika teks yang dihasilkan AI ditulis ulang secara menyeluruh, atau diterjemahkan ke bahasa lain.
Teks SynthID tidak dirancang untuk secara langsung menghentikan penyerang yang termotivasi agar tidak menyebabkan bahaya. Namun, hal ini dapat mempersulit penggunaan konten buatan AI untuk tujuan jahat, dan dapat digabungkan dengan pendekatan lain untuk memberikan cakupan yang lebih baik di seluruh jenis dan platform konten.