SynthID: Filigranlama ve LLM tarafından oluşturulmuş metinleri algılama araçları

Üretken yapay zeka (üretken yapay zeka), çok daha geniş bir yelpazede çeşitlilik içeren içerikler üretmeye devam edin. Bu kullanımların çoğu meşru amaçlarla olsa da yanlış bilgilendirme ve yanlış ilişkilendirme sorunlarına yol açabileceğinden endişe duyulmaktadır. Filigran, kaliteyi artırmak için riskleri azaltmaya yardımcı olur. İnsanların göremediği filigranlar Yapay zeka tarafından üretilmiş içeriklere uygulanabilir ve algılama modelleri rastgele puan verebilir Bu işlem, filigran olarak eklenme olasılığını belirtir.

SynthID, Google DeepMind'ın geliştirdiği bir teknolojidir. dijital filigranlar yerleştirerek yapay zeka tarafından üretilmiş Yapay zeka tarafından üretilmiş resim, ses, metin veya videolar. SynthID Metni açık kaynaklı metin oluşturma için filigran oluşturmayı geliştiricilerin kullanımına sunduk. Yöntemin daha kapsamlı bir teknik açıklamasını Nature dergisinde yayınlanan makalede bulabilirsiniz.

SynthID Text'in üretim sınıfı bir uygulaması, Hugging Face Transformers v4.46.0+'ta mevcuttur. Bu uygulamayı resmi SynthID Text Space'te deneyebilirsiniz. GitHub'da, açık kaynak geliştiricileri ve bu tekniği diğer çerçevelere uygulamak isteyen katkıda bulunanlar için yararlı olabilecek bir referans uygulama da mevcuttur.

Filigran uygulaması

Pratikte söyleyecek olursak, SynthID Metni, Top-K ve Top-P'den sonra model oluşturma ardışık düzeninizi kodlamak için sözde rastgele bir g işlevi kullanarak modelin logitlerini büyüten ve filigran ekleme bilgilerinde, üretim kalitesini göz önünde bulunduracak şekilde filigran algılanabilirliği sağlar. Algoritmanın teknik açıklamasının tamamı ve farklı yapılandırma değerlerinin performansı nasıl etkilediğine dair analizler için makaleye bakın.

Filigranlar, g işlevini ve bu işlevin oluşturma sırasında nasıl uygulandığını parametrelendirecek şekilde yapılandırılır. Kullandığınız her modelin kendi filigran yapılandırması olmalıdır. Bu yapılandırma güvenli ve gizli bir şekilde saklanmalıdır. Aksi takdirde filigranınız diğer kullanıcılar tarafından kolayca kopyalanabilir.

Her filigran yapılandırmasında iki parametre tanımlamanız gerekir:

  • keys parametresi, rastgele bir sayı oluşturmak için kullanılan modelin sözlüğünde g işlevi puanlarını hesaplama. Bağlantının uzunluğu bu liste, kaç filigran katmanının uygulandığını belirler. Görüntüleyin Daha ayrıntılı bilgi için makaledeki Ek C.1'e bakın.
  • ngram_len parametresi, sağlamlığı ve algılanabilirliği dengelemek için kullanılır. Değer ne kadar büyük olursa filigran o kadar kolay algılanabilir ancak değişikliklere karşı daha hassas olur. 5 uzunluğu iyi bir varsayılan değerdir.

Filigranı performans ihtiyaçlarınıza göre daha ayrıntılı şekilde yapılandırabilirsiniz:

  • Örnekleme tablosu, sampling_table_size ve sampling_table_seed olmak üzere iki mülkle yapılandırılır. En az şu kadar bir sampling_table_size kullanmak istiyorsunuz: \( 2^{16} \) Örnekleme sırasında tarafsız ve istikrarlı bir g işlevi sağlamak için Ancak örnekleme tablosunun boyutunun Çıkarım zamanında gereken bellek. sampling_table_seed olarak istediğiniz tam sayıyı kullanabilirsiniz.
  • Önceki context_history_size jetonda tekrarlanan n-gramlar eşit değildir için filigran eklenir.

Modellerinizi kullanarak SynthID metin filigranı içeren metin oluşturmak için ek eğitim gerekmez. Bunun için tek gereken, SynthID metin mantıksal işlemcisini etkinleştirmek üzere modelin .generate() yöntemine iletilen bir filigran oluşturma yapılandırmasıdır. Transformers kitaplığında filigranın nasıl uygulanacağını gösteren kod örnekleri için blog yayınına ve Space'e bakın.

Filigran algılama ve doğrulanabilirlik

Filigran algılama olasılığa dayalı bir işlemdir. Bayes algılayıcı, Hugging Face Transformers ile birlikte ve GitHub'da sağlanır. Bu algılayıcı, üç olası algılama çıktısı verebilir durumu (filigranlı, filigranlı veya belirsiz) ve davranışı iki eşik değeri ayarlanarak özelleştirilebilir. Daha fazla ayrıntı için makaledeki Ek C.8'e bakın.

Bir istem grubu veya uzunluk için belirli bir yanlış pozitif ve yanlış negatif oranına ulaşmak üzere eşikleri ayarlayabilirsiniz. Ek C.8'e bakın. makalede bulabilirsiniz.

Eğitilmiş bir algılayıcınız olduğunda, bunu kullanıcılarınıza ve daha genel olarak halka göstermeyi ve göstermemeyi seçebilirsiniz.

  • Full-private seçeneği, algılayıcıyı hiçbir zaman serbest bırakmaz ya da açığa çıkarmaz. sağlar.
  • Yarı özel seçeneği, dedektörü serbest bırakmaz ancak bir API aracılığıyla gösterir.
  • Herkese açık seçeneği, algılayıcıyı başkalarının indirip kullanması için serbest bırakır.

Hangi algılama doğrulaması yaklaşımının benimseneceğine siz ve kuruluşunuz karar vermeniz gerekir. ihtiyacınıza en uygun olanıdır. Bunun için, daha iyi anlamanızı sağlar.

Sınırlamalar

SynthID metin filigranları, metin parçalarının kırpılması, birkaç kelimenin değiştirilmesi veya hafif bir şekilde başka bir şekilde ifade edilmesi gibi bazı dönüşümlere karşı dayanıklıdır ancak bu yöntemin sınırlamaları vardır.

  • Doğruluğu düşürmeden üretkenliği artırma fırsatı daha az olduğu için filigran uygulaması, gerçek yanıtlar için daha az etkilidir.
  • Yapay zeka tarafından oluşturulan bir metin tamamen yeniden yazıldığı veya başka bir dile çevrildiğinde algılayıcı güven puanları büyük ölçüde düşebilir.

SynthID Metni, motivasyonu yüksek olan saldırganların bu tür davranışlara neden oluşturur. Ancak yapay zeka tarafından üretilen içeriğin kötü amaçlı kullanımının önüne geçebilir ve içerik türleri ile platformlar arasında daha iyi kapsam sunmak için diğer yaklaşımlarla birleştirilebilir.