Bu sayfa, Cloud Translation API ile çevrilmiştir.

SynthID: Filigranlama ve LLM tarafından oluşturulmuş metinleri algılama araçları

Üretken yapay zeka (GenAI), daha önce hayal bile edilemeyecek ölçeklerde çok daha çeşitli içerikler üretebilir. Bu kullanımların çoğu meşru amaçlarla olsa da yanlış bilgilendirme ve yanlış ilişkilendirme sorunlarına yol açabileceğinden endişe duyulmaktadır. Filigran, bu olası etkileri azaltmaya yönelik tekniklerden biridir. İnsanlar tarafından algılanamayan filigranlar yapay zeka tarafından üretilen içeriğe uygulanabilir ve algılama modelleri, filigran eklenme olasılığını belirtmek için rastgele içeriği puanlayabilir.

SynthID, Google DeepMind'ın geliştirdiği bir teknolojidir. Yapay zeka tarafından üretilmiş görsellere, seslere, metinlere veya videolara doğrudan dijital filigran yerleştirerek yapay zeka tarafından üretilmiş içeriklere filigran ekler ve bu içerikleri tanımlar. SynthID Text, metin oluşturma için filigran ekleme özelliğini geliştiricilerin kullanımına sunmak amacıyla açık kaynak olarak yayınlandı. Yöntemin daha kapsamlı bir teknik açıklamasını Nature dergisinde yayınlanan makalede bulabilirsiniz.

SynthID metninin üretim sınıfı bir uygulaması, Hugging Face Transformers v4.46.0+'ta mevcuttur. Bu uygulamayı resmi SynthID metin alanında deneyebilirsiniz. GitHub'da, açık kaynak geliştiricileri ve bu tekniği diğer çerçevelere uygulamak isteyen katkıda bulunanlar için yararlı olabilecek bir referans uygulama da mevcuttur.

Filigran uygulaması

Pratikte SynthID Text, Top-K ve Top-P'den sonra modelinizin oluşturma ardışık düzenine uygulanan bir mantıksal işlemcidir. Bu işlemci, metnin modeliniz tarafından oluşturulup oluşturulmadığını belirlemenize yardımcı olacak şekilde filigran bilgilerini kodlamak için sözde rastgele bir g işlevi kullanarak modelin mantıksal ifadelerini geliştirir. Bu işlem, metin kalitesini önemli ölçüde etkilemez. Algoritmanın teknik açıklamasının tamamı ve farklı yapılandırma değerlerinin performansı nasıl etkilediğiyle ilgili analizler için makaleye bakın.

Filigranlar, g işlevini ve oluşturma sırasında nasıl uygulandığını parametre haline getirmek için yapılandırılır. Kullandığınız her filigran yapılandırması güvenli ve gizli bir şekilde saklanmalıdır. Aksi takdirde filigranınız diğer kullanıcılar tarafından kolayca kopyalanabilir.

Her filigran yapılandırmasında iki parametre tanımlamanız gerekir:

keys parametresi, modelin kelime haznesinde g işlevi puanlarını hesaplamak için kullanılan benzersiz, rastgele tam sayıların bir listesidir. Bu listenin uzunluğu, kaç katman filigran uygulanacağını belirler. Daha fazla ayrıntı için makaledeki Ek C.1'e bakın.
ngram_len parametresi, sağlamlığı ve algılanabilirliği dengelemek için kullanılır. Değer ne kadar büyük olursa filigran o kadar kolay algılanabilir ancak değişikliklere karşı daha hassas olur. 5 uzunluğu iyi bir varsayılan değerdir.

Filigranı performans ihtiyaçlarınıza göre daha da yapılandırabilirsiniz:

Örnekleme tablosu, sampling_table_size ve sampling_table_seed olmak üzere iki mülkle yapılandırılır. Örnekleme yaparken tarafsız ve kararlı bir g işlevi sağlamak için en az $2^{16}$ boyutunda bir sampling_table_size kullanmak istersiniz. Ancak örnekleme tablosunun boyutunun, çıkarım sırasında gereken bellek miktarını etkilediğini unutmayın. sampling_table_seed olarak istediğiniz tam sayıyı kullanabilirsiniz.
context_history_size önceki jetonlarında tekrarlanan n gramlar, algılanabilirliği artırmak için filigranla işaretlenmez.

Modellerinizi kullanarak SynthID metin filigranı içeren metin oluşturmak için ek eğitim gerekmez. Bunun için yalnızca SynthID metin mantıksal işlemcisini etkinleştirmek üzere modelin .generate() yöntemine iletilen bir filigran oluşturma yapılandırması gerekir. Transformers kitaplığında filigranın nasıl uygulanacağını gösteren kod örnekleri için blog yayınına ve Space'e bakın.

Filigran algılama ve doğrulanabilirlik

Filigran algılama olasılığa dayalı bir işlemdir. Bayes algılayıcı, Hugging Face Transformers ile birlikte ve GitHub'da sağlanır. Bu algılayıcı, üç olası algılama durumu (filigranlı, filigransız veya belirsiz) döndürebilir. Belirli bir yanlış pozitif ve yanlış negatif oranına ulaşmak için iki eşik değeri ayarlayarak davranışı özelleştirebilirsiniz. Daha fazla ayrıntı için makaledeki Ek C.8'e bakın.

Aynı parçalayıcıyı kullanan modeller, filigran oluşturma yapılandırmasını ve algılayıcıyı da paylaşabilir. Böylece, algılayıcının eğitim veri kümesi filigranı paylaşan tüm modellerden örnekler içerdiği sürece ortak bir filigran paylaşabilir.

Eğitilmiş bir algılayıcınız olduğunda, bunu kullanıcılarınıza ve daha genel olarak halka göstermeyi ve göstermemeyi seçebilirsiniz.

Tamamen gizli seçeneği, dedektörü hiçbir şekilde serbest bırakmaz veya göstermez.
Yarı özel seçeneği, dedektörü serbest bırakmaz ancak bir API aracılığıyla gösterir.
Herkese açık seçeneği, dedektörün diğer kullanıcılar tarafından indirilip kullanılmasını sağlar.

Sizin ve kuruluşunuzun, ilgili altyapıyı ve süreçleri destekleme kapasitenize göre ihtiyaçlarınız için en uygun algılama doğrulama yaklaşımına karar vermesi gerekir.

Sınırlamalar

SynthID metin filigranları, metin parçalarının kırpılması, birkaç kelimenin değiştirilmesi veya hafif bir şekilde başka bir şekilde ifade edilmesi gibi bazı dönüşümlere karşı dayanıklıdır ancak bu yöntemin sınırlamaları vardır.

Doğruluğu düşürmeden üretkenliği artırma fırsatı daha az olduğu için filigran uygulaması, gerçek yanıtlar için daha az etkilidir.
Yapay zeka tarafından oluşturulan bir metin tamamen yeniden yazıldığı veya başka bir dile çevrildiğinde algılayıcı güven puanları büyük ölçüde düşebilir.

SynthID Text, kötü niyetli kişilerin zarar vermesini doğrudan engellemek için tasarlanmamıştır. Ancak yapay zeka tarafından üretilen içeriğin kötü amaçlı kullanımının önüne geçebilir ve içerik türleri ile platformlar arasında daha iyi kapsam sunmak için diğer yaklaşımlarla birleştirilebilir.