SynthID: Filigranlama ve LLM tarafından oluşturulmuş metinleri algılama araçları

Üretken yapay zeka (GenAI), daha önce hayal bile edilemeyecek ölçeklerde çok daha çeşitli içerikler üretebilir. Bu kullanımların çoğu meşru amaçlarla olsa da yanlış bilgilendirme ve yanlış ilişkilendirme sorunlarına yol açabileceğinden endişe duyulmaktadır. Filigran, bu olası etkileri azaltmaya yönelik tekniklerden biridir. İnsanların göremediği filigranlar, yapay zeka tarafından üretilmiş içeriklere uygulanabilir. Algılama modelleri ise filigran olarak eklenmiş olma olasılığını belirtmek için rastgele içerikleri puanlayabilir.

SynthID, doğrudan yapay zeka tarafından üretilmiş resimlere, seslere, metinlere veya videolara dijital filigranlar yerleştirerek yapay zeka tarafından üretilen içeriklere filigran ve kimlik bilgisi ekleyen bir Google DeepMind teknolojisidir. SynthID Text, metin oluşturma için filigran ekleme özelliğini geliştiricilerin kullanımına sunmak amacıyla açık kaynak olarak yayınlandı. Yöntemin daha kapsamlı bir teknik açıklamasını Nature dergisinde yayınlanan makalede bulabilirsiniz.

SynthID Text'in üretim sınıfı bir uygulaması, Hugging Face Transformers v4.46.0+'ta mevcuttur. Bu uygulamayı resmi SynthID Text Space'te deneyebilirsiniz. GitHub'da, açık kaynak geliştiricileri ve bu tekniği diğer çerçevelere uygulamak isteyen katkıda bulunanlar için yararlı olabilecek bir referans uygulama da mevcuttur.

Filigran uygulaması

SynthID Text, Top-K ve Top-P'den sonra modelinizin oluşturma ardışık düzenine uygulanan bir logit işlemcisidir. Bu işlem, metin kalitesini önemli ölçüde etkilemeden metnin modeliniz tarafından oluşturulup oluşturulmadığını belirlemenize yardımcı olacak şekilde filigran bilgilerini kodlamak için belirsiz bir g işleviyle modelin logitini büyütür. Algoritmanın teknik açıklamasının tamamı ve farklı yapılandırma değerlerinin performansı nasıl etkilediğiyle ilgili analizler için makaleye bakın.

Filigranlar, g işlevini ve bu işlevin oluşturma sırasında nasıl uygulandığını parametre haline getirmek için yapılandırılır. Kullandığınız her filigran yapılandırması güvenli ve gizli bir şekilde saklanmalıdır. Aksi takdirde filigranınız diğer kullanıcılar tarafından kolayca kopyalanabilir.

Her filigran yapılandırmasında iki parametre tanımlamanız gerekir:

  • keys parametresi, modelin kelime hazinesinde g işlevi puanlarını hesaplamak için kullanılan benzersiz, rastgele tam sayıların bir listesidir. Bu listenin uzunluğu, kaç katman filigran uygulanacağını belirler. Daha fazla ayrıntı için makaledeki Ek C.1'e bakın.
  • ngram_len parametresi, sağlamlığı ve algılanabilirliği dengelemek için kullanılır. Değer ne kadar büyük olursa filigran o kadar kolay algılanabilir ancak değişikliklere karşı daha hassas olur. 5 uzunluğu iyi bir varsayılan değerdir.

Filigranı performans ihtiyaçlarınıza göre daha da yapılandırabilirsiniz:

  • Örnekleme tablosu, sampling_table_size ve sampling_table_seed olmak üzere iki mülkle yapılandırılır. Örnekleme yaparken tarafsız ve kararlı bir g işlevi sağlamak için en az\( 2^{16} \) boyutunda bir sampling_table_size kullanmak istersiniz ancak örnekleme tablosunun boyutunun, çıkarım sırasında gereken bellek miktarını etkilediğini unutmayın. sampling_table_seed olarak istediğiniz tam sayıyı kullanabilirsiniz.
  • context_history_size önceki jetonlarında tekrarlanan n gramlar, algılanabilirliği artırmak için filigranla işaretlenmez.

Modellerinizi kullanarak SynthID metin filigranı içeren metin oluşturmak için ek eğitim gerekmez. Bunun için tek gereken, SynthID metin mantıksal işlemcisini etkinleştirmek üzere modelin .generate() yöntemine iletilen bir filigran oluşturma yapılandırmasıdır. Transformers kitaplığında filigranın nasıl uygulanacağını gösteren kod örnekleri için blog yayınına ve Space'e bakın.

Filigran algılama ve doğrulanabilirlik

Filigran algılama olasılığa dayalı bir işlemdir. Bayes algılayıcı, Hugging Face Transformers ile birlikte ve GitHub'da sağlanır. Bu algılayıcı, üç olası algılama durumu (filigranlı, filigransız veya belirsiz) döndürebilir. Belirli bir yanlış pozitif ve yanlış negatif oranına ulaşmak için iki eşik değeri ayarlayarak davranışı özelleştirebilirsiniz. Daha fazla ayrıntı için makaledeki Ek C.8'e bakın.

Aynı parçalayıcıyı kullanan modeller, filigran oluşturma yapılandırmasını ve algılayıcıyı da paylaşabilir. Böylece, algılayıcının eğitim veri kümesi filigranı paylaşan tüm modellerden örnekler içerdiği sürece ortak bir filigran paylaşabilir.

Eğitimli bir algılayıcıya sahip olduktan sonra, bunu kullanıcılarınıza ve daha genel olarak kamuya gösterip göstermeyeceğinize ve bunu nasıl yapacağınıza karar verebilirsiniz.

  • Tamamen gizli seçeneği, dedektörü hiçbir şekilde serbest bırakmaz veya göstermez.
  • Yarı özel seçeneği, dedektörü serbest bırakmaz ancak bir API aracılığıyla gösterir.
  • Herkese açık seçeneği, dedektörün diğer kullanıcılar tarafından indirilip kullanılmasını sağlar.

Sizin ve kuruluşunuzun, ilgili altyapıyı ve süreçleri destekleme kapasitenize göre ihtiyaçlarınıza en uygun algılama doğrulama yaklaşımına karar vermesi gerekir.

Sınırlamalar

SynthID metin filigranları, metin parçalarının kırpılması, birkaç kelimenin değiştirilmesi veya hafif bir şekilde başka bir şekilde ifade edilmesi gibi bazı dönüşümlere karşı dayanıklıdır ancak bu yöntemin sınırlamaları vardır.

  • Filigran uygulaması, doğruluğu azaltmadan oluşturma oranını artırma fırsatı olduğundan gerçeğe dayalı yanıtlar üzerinde daha az etkilidir.
  • Yapay zeka tarafından oluşturulan bir metin tamamen yeniden yazıldığı veya başka bir dile çevrildiğinde algılayıcı güven puanları büyük ölçüde düşebilir.

SynthID Text, kötü niyetli kişilerin zarar vermesini doğrudan engellemek için tasarlanmamıştır. Ancak yapay zeka tarafından üretilen içeriğin kötü amaçlı kullanımının önüne geçebilir ve içerik türleri ile platformlar arasında daha iyi kapsam sağlamak için diğer yaklaşımlarla birleştirilebilir.