Modellerinizin güvenliğini sağlama

Üretken yapay zeka (üretken yapay zeka) ürünleri nispeten yenidir ve davranışları önceki yazılım biçimlerinden daha fazla değişiklik gösterebilir. Ürününüzü üretken yapay zeka özelliklerinin kötüye kullanımına karşı koruyan önlemler de buna göre uyarlanmalıdır. Bu kılavuzda, üretken yapay zeka özellikli ürünlerinizi korumak için içerik politikası uygunluk kontrol araçlarını ve filigran araçlarını nasıl kullanabileceğiniz açıklanmaktadır.

İçerik politikasına uygunluk

Önceden güvenlik için ayarlanmış ve iyi tasarlanmış bir istem şablonu olsa bile üretken yapay zeka ürününüz, istenmeyen zararlara neden olan içerikler oluşturabilir. Üretken yapay zeka ürünleri Sorumlu model davranışı sağlamak için giriş ve çıkış filtrelemeden yararlanın. Bu ve çıkarım tekniklerinin, modele giren veya modelden çıkan verilerin, politikalarınızı kontrol edin. Bunun için genellikle güvenlik eğitimini inceleyebilirsiniz.

Giriş sınıflandırıcıları, doğrudan ziyaret edilen veya içerik politikalarınızı ihlal eden içerikler üretmesine neden olabilir. Giriş filtreleri genellikle içerik politikalarınızı atlatmaya çalışan düşmanca saldırıları hedefler.

Çıkış sınıflandırıcıları, model çıktısını filtreleyerek politikaları ihlal eden oluşturulmuş içerikleri yakalar güvenlik politikalarınız. İçerik reddetme davranışlarınızı dikkatli bir şekilde izlemek, girişi artırmak veya iyileştirmek için kullanılabilecek yeni istem sınıflarını ortaya çıkarma filtrelerine dokunun.

Tüm içerik politikalarınızı kapsayan sınıflandırıcılara sahip olmanız önerilir. Bunu hazır sınıflandırıcılar kullanarak başarabilirsiniz veya belirli politikalarınızı destekleyen özel sınıflandırıcılar oluşturmanız gerekebilir.

Bakiye de önemlidir. Aşırı filtreleme, istenmeyen zararlara neden olabilir veya uygulamanın kullanılması; aşırı filtrelemenin neden olabileceği, anlamak önemlidir. Daha fazla bilgi için güvenlik değerlendirme kılavuzuna göz atın.

Hazır içerik politikası sınıflandırıcıları

Hazır içerik sınıflandırıcılar, modelin doğal güvenlik eğitimine ek bir koruma katmanı ekleyerek belirli türde politika ihlallerinin olasılığını daha da azaltır. Bu yöntemler genellikle iki şekilde sunulur:

  1. ShieldGemma gibi kendi kendine barındırılan sınıflandırıcılar, Google Cloud gibi bulut platformları ve özel donanım da dahil olmak üzere çeşitli mimarilerde indirilip barındırılabilir. Hatta bazı sınıflandırıcılar mobil uygulamalarda cihaz üzerinde çalışabilir.
  2. API tabanlı sınıflandırıcılar, yüksek hacimli, sınıf odaklı ve çeşitli politikalara göre düşük gecikmeli sınıflandırma. Google, ilginizi çekebilecek üç hizmet sunar:
    • Checks AI Safety, model değerlendirme ve izlemeyi destekleyen uyumluluk değerlendirmeleri ve kontrol panelleri sağlar. Yapay Zeka Güvenliği araç açık beta sürümündedir, haberlere kaydolun, ve demolar var.
    • Metin Denetleme Hizmeti bir Google Cloud API'dir zararlı kategoriler de dahil olmak üzere güvenlik ihlalleri açısından metinleri analiz eden ve hassas konularda, kullanım oranlarına tabidir.
    • Perspective API, makine öğrenimi ve veri için bir yorumun olası satış üzerindeki olası etkisini puanlamak için yardımcı olur. Bir yorumun rahatsız edici, tehditkar, hakaret edici veya konu dışı olma olasılığını gösteren puanlar sağlar.

Hazır sınıflandırıcıların politikanıza ne kadar uygun olduğunu değerlendirmek önemlidir. ve başarısızlık durumlarını nitel olarak değerlendirebilirsiniz.

Özel içerik politikası sınıflandırıcıları

Hazır içerik politikası sınıflandırıcılar mükemmel bir başlangıçtır ancak aşağıdakiler gibi sınırlamaları vardır:

  • Tüm içeriğinizle eşleşmeyebilen veya tüm içeriğinizi kapsamayabilecek sabit bir politika sınıflandırması politikalar.
  • GenAI destekli uygulamanızın dağıtılacağı ortam için uygun olmayabilecek donanım ve bağlantı koşulları.
  • Fiyatlandırma ve diğer kullanım kısıtlamaları

Özel içerik politikası sınıflandırıcıları, bu sınırlamaları gidermenin bir yolu olabilir. Çevik sınıflandırıcılar yöntemi ise verimli ve esnek bir çerçeve oluşturmanıza yardımcı olur. Bu yöntem, güvenlik amacıyla bir modeli ayarlar. Bu nedenle, model ayarlamanın temellerini inceleyin.

SynthID metin filigranlarıyla yapay zeka tarafından üretilen içeriği tanımlama

Üretken yapay zeka daha önce geniş ölçekte çok çeşitli içerikler üretmeye devam edebilir. daha iyi olur. Bu kullanımların çoğu meşru amaçlarla olsa da yanlış bilgilendirme ve yanlış ilişkilendirme sorunlarına yol açabileceğinden endişe duyulmaktadır. Filigran, bu potansiyel etkileri azaltmak için kullanılan tekniklerden biridir. Yapay zeka tarafından üretilen içeriklere, insanlar tarafından algılanamayan filigranlar uygulanabilir. Tespit modelleri, filigran eklenme olasılığını belirtmek için rastgele içerikleri puanlayabilir.

SynthID, yapay zeka tarafından üretilmiş görsellere, seslere, metinlere veya videolara doğrudan dijital filigran yerleştirerek yapay zeka tarafından üretilmiş içeriklere filigran ekleyip bu içerikleri tanımlayan bir Google DeepMind teknolojisidir. SynthID metni, Hugging Face Transformers'da üretim için kullanılabilir. SynthID'yi uygulamanızda nasıl kullanacağınız hakkında daha fazla bilgi edinmek için araştırma makalesine ve dokümanlara göz atın.

Google Cloud, Imagen tarafından oluşturulan görüntüler gibi diğer modlar için Vertex AI müşterilerine SynthID filigranlama özellikleri sunar.

Güvenli önlemler oluşturmaya yönelik en iyi uygulamalar

Güvenlik sınıflandırıcılarının güvenlik önlemi olarak kullanılması önemle tavsiye edilir. Ancak içerik engellenirse güvenlik önlemleri, üretken modelin kullanıcı için hiçbir şey üretmemesine neden olabilir. Uygulamaların bunu işleyecek şekilde tasarlanması gerekir. dava açın. Çoğu popüler chatbot'lar bunu hazır yanıtlar vererek ("Ben "Ben bir dil modeliyim, bu istek konusunda size yardımcı olamıyorum").

Faydalı olma ve zarar vermeme arasında doğru dengeyi bulun: Güvenlik sınıflandırıcıları kullanırken hem yanlış pozitifler (ör. güvenli olmayan bir çıktının güvenli olduğunu iddia etme) hem de yanlış negatifler (güvenli olmayan bir çıktının güvenli olarak etiketlenmemesi) dahil olmak üzere hata yapacaklarını anlamak önemlidir. Sınıflandırıcıları F1, Hassasiyet, Geri Çağırma ve AUC-ROC gibi metriklerle değerlendirerek yanlış pozitif ve yanlış negatif hataları nasıl dengelemek istediğinizi belirleyebilirsiniz. Sınıflandırıcıların eşiğini değiştirerek, çıkışların aşırı filtrelenmesini önlerken uygun düzeyde güvenlik sağlayan ideal bir denge bulmaya yardımcı olursunuz.

Sınıflandırıcılarınızı istenmeyen önyargılar açısından kontrol edin: Diğer tüm makine öğrenimi modelleri gibi güvenlik sınıflandırıcıları da sosyo-kültürel klişeler gibi istenmeyen önyargıları yayabilir. Uygulamaların potansiyel olarak sorunlu davranışlara işaret eder. Özellikle içerik güvenliği sınıflandırıcıları, internette taciz amaçlı dilin daha sık hedefi olan kimliklerle ilgili içeriklerde aşırı tetikleyici olabilir. Örneğin, Perspective API, Model, ilk kullanıma sunulduğunda daha yüksek toksik etki puanları döndürdü. Belirli kimlik gruplarına referans verme (blog). Bu aşırı tetikleyici davranış, daha sık hedef alınan grupların kimlik terimlerinden bahseden yorumların (ör. "Siyah", "Müslüman", "Feminist", "Kadın", "Eşcinsel" vb. kelimeler) genellikle toksik olmasından kaynaklanabilir. Veri kümeleri, sınıflandırıcıları, bazı özel öğeleri içeren yorumlar için sınıflandırıcılar, aşırı genelleme yapabilir ve bu kelimeleri içeren tüm yorumları riskleri kabul eder. Jigsaw ekibinin nasıl çalıştığını öğrenin azaltmalarını sağlayabilir.

Geliştirici Kaynakları