SynthID: Alat untuk menambahkan watermark dan mendeteksi Teks yang dihasilkan LLM

Kecerdasan buatan generatif (GenAI) dapat menghasilkan beragam beragam konten dengan skala yang tak terbayangkan sebelumnya. Meskipun sebagian besar penggunaan ini adalah untuk tujuan yang sah, ada kekhawatiran bahwa hal ini dapat berkontribusi pada masalah misinformasi dan misattribution. Pemberian watermark adalah salah satu teknik untuk memitigasi potensi dampak ini. Watermark yang tidak terlihat oleh manusia dapat diterapkan ke konten buatan AI, dan model deteksi dapat menilai konten arbitrer untuk menunjukkan kemungkinan bahwa konten tersebut telah diberi watermark.

SynthID adalah teknologi dari Google DeepMind yang memberikan watermark dan mengidentifikasi konten buatan AI dengan menyematkan watermark digital secara langsung ke dalam gambar, audio, teks, atau video buatan AI. SynthID Text telah di-open source untuk menyediakan pembuatan watermark untuk pembuatan teks bagi developer. Anda dapat membaca makalah di Alam untuk penjelasan teknis yang lebih lengkap deskripsi metode.

Implementasi SynthID Text tingkat produksi tersedia di Hugging Face Transformers v4.46.0+, yang dapat Anda coba SynthID Text Space resmi. Penerapan referensi juga tersedia di GitHub yang mungkin berguna untuk project open source pengelola dan kontributor yang ingin menerapkan teknik ini ke pihak lain framework.

Aplikasi watermark

Secara praktis, SynthID Text adalah pemroses logit, yang diterapkan ke pipeline pembuatan model Anda setelah Top-K dan Top-P, yang meningkatkan logit model menggunakan fungsi g pseudorandom untuk mengenkode informasi watermarking dengan cara yang menyeimbangkan kualitas pembuatan dengan deteksi watermark. Baca makalah untuk mengetahui deskripsi teknis algoritma dan analisis tentang bagaimana perbedaan nilai konfigurasi akan memengaruhi performa.

Watermark dikonfigurasi untuk memparametrisasi fungsi g dan cara penerapannya selama pembuatan. Setiap model yang Anda gunakan harus memiliki konfigurasi pemberian watermark sendiri yang harus disimpan secara aman dan pribadi. Jika tidak, watermark Anda dapat mudah direplikasi oleh orang lain.

Anda harus menentukan dua parameter dalam setiap konfigurasi watermark:

  • Parameter keys adalah daftar bilangan bulat acak yang unik dan digunakan untuk menghitung skor fungsi g di seluruh kosakata model. Panjang daftar ini menentukan jumlah lapisan watermark yang diterapkan. Lihat Lampiran C.1 dalam makalah untuk mengetahui detail selengkapnya.
  • Parameter ngram_len digunakan untuk menyeimbangkan keandalan dan kemampuan deteksi; semakin besar nilainya, semakin mudah watermark terdeteksi, dengan konsekuensi menjadi lebih rapuh terhadap perubahan. Panjang 5 adalah nilai default yang baik.

Anda dapat mengonfigurasi watermark lebih lanjut berdasarkan kebutuhan performa:

  • Tabel sampling dikonfigurasi oleh dua properti, sampling_table_size dan sampling_table_seed. Anda ingin menggunakan sampling_table_size dari setidaknya \( 2^{16} \) untuk memastikan fungsi g yang tidak bias dan stabil saat pengambilan sampel, tetapi perlu diketahui bahwa ukuran tabel {i>sampling <i}berdampak pada jumlah memori yang diperlukan pada waktu inferensi. Anda dapat menggunakan bilangan bulat apa pun yang Anda suka sebagai sampling_table_seed.
  • n-gram berulang dalam token context_history_size sebelumnya tidak diberi watermark untuk meningkatkan kemampuan deteksi.

Tidak diperlukan pelatihan tambahan untuk menghasilkan teks dengan Teks SynthID menggunakan model Anda, hanya konfigurasi watermark yang diteruskan ke konfigurasi Metode .generate() untuk mengaktifkan Teks SynthID pemroses logit. Lihat postingan blog dan Ruang untuk contoh kode yang menunjukkan cara menerapkan watermark di library Transformers.

Deteksi dan verifikasi watermark

Deteksi watermark bersifat probabilistik. Detektor Bayesian dilengkapi dengan Pelukan Transformer Wajah dan aktif di GitHub. Pendeteksi ini dapat menghasilkan tiga kemungkinan deteksi negara bagian—dengan watermark, tidak diberi watermark, atau tidak pasti—dan perilakunya dapat disesuaikan dengan menetapkan dua nilai minimum. Lihat Lampiran C.8 di kertas untuk mengetahui detail selengkapnya.

Anda dapat menyesuaikan nilai minimum untuk mencapai positif palsu dan positif palsu tertentu tingkat negatif pada serangkaian dialog atau durasi. Lihat Lampiran C.8 dalam makalah untuk mengetahui detailnya.

Setelah memiliki detektor terlatih, Anda memiliki pilihan untuk menentukan apakah dan bagaimana Anda mengeksposnya kepada pengguna, dan publik secara umum.

  • Opsi sepenuhnya pribadi tidak melepaskan atau mengekspos detektor dalam sebelumnya.
  • Opsi semi-pribadi tidak merilis detektor, tetapi mengeksposnya melalui API.
  • Opsi public merilis detektor untuk didownload dan digunakan oleh orang lain.

Anda dan organisasi Anda perlu menentukan pendekatan verifikasi deteksi yang terbaik bagi kebutuhan Anda, berdasarkan kemampuan Anda dalam mendukung infrastruktur dan proses.

Batasan

Watermark Teks SynthID kuat untuk beberapa transformasi, yakni pemangkasan bagian teks, memodifikasi beberapa kata, atau parafrase ringan—tetapi metode ini memiliki keterbatasan.

  • Penerapan watermark kurang efektif pada respons faktual, karena lebih sedikit peluang untuk meningkatkan pembuatan tanpa mengurangi akurasi.
  • Skor keyakinan pendeteksi dapat sangat berkurang jika teks yang dihasilkan AI ditulis ulang secara menyeluruh, atau diterjemahkan ke bahasa lain.

Teks SynthID tidak dirancang untuk secara langsung menghentikan penyerang yang termotivasi agar tidak menyebabkan bahaya. Namun, penggunaan konten buatan AI dapat mempersulit penggunaan tujuan, dan dapat dikombinasikan dengan pendekatan lain untuk memberikan liputan yang lebih baik lintas jenis konten dan platform.