Giriş ve çıkış önlemleri oluşturun

Üretken yapay zeka uygulamaları genellikle giriş ve çıkış veri filtrelemesine dayanır. sorumlu bir model sunmaya yardımcı olmak için bazen güvenlik önlemleri olarak adlandırılır gösterir. Giriş ve çıkış filtreleme teknikleri, belirli bir sayfaya giden veya gerçekleştirdiğiniz politikalara uygun olması, tanımlamanız gerekir.

Hazır teminatlar

Güvenlik için yapılan önceki ayarlamalarda ve iyi tasarlanmış bir istem şablonuyla bile, yine de modelinizin istenmeyen zarara neden olacak içerikler üretmesi mümkündür. İçerik sınıflandırıcıları, bunu daha da iyileştirmek için ve korur. İçerik sınıflandırıcılar hem girişlere hem de çıkışlara uygulanabilir.

Giriş sınıflandırıcıları, genellikle olabilir ve modelinizin Google Analytics 4'ü ihlal etmesine neden olabilir. . Giriş filtreleri, çoğu zaman bir hedefin kullanılmasına yönelik yanıltıcı saldırıları politikadaki boşluklardan yararlanmasına yardımcı olur. Çıkış sınıflandırıcıları modele daha fazla filtre uygulayabilir güvenlik politikalarınızı ihlal edebilecek istenmeyen nesilleri yakalamak. Tüm içerik politikalarınızı kapsayan sınıflandırıcılara sahip olmanız önerilir.

Google, içerik güvenliği için API tabanlı sınıflandırıcılar sunar. sistem giriş ve çıkışlarını filtreleyin:

  • Perspective API, makine öğrenimi ve veri için bir yorumun olası satış üzerindeki olası etkisini puanlamak için yardımcı olur. Bir tahminin belirli bir hedefe ulaşma olasılığını Yorum toksik, tehdit edici, aşağılayıcı veya konu dışı.
  • Metin Denetleme Hizmeti bir Google Cloud API'dir. belirli bir sınırın altında kullanılabilir ve makine öğrenimini kullanarak bir belgeyi güvenlik listesindeki zararlı olabilecek çeşitli kategoriler ve konular dahil olmak üzere hassas olarak değerlendirilebilir.

Hazır sınıflandırıcıların politikanıza ne kadar uygun olduğunu değerlendirmek önemlidir. ve başarısızlık durumlarını nitel olarak değerlendirebilirsiniz. Proje hedeflerinizin aşırı filtrelemenin istenmeyen zararlara neden olabileceğini yardımcı olduğunu gösterir; bu nedenle, uygulamayı kullanmak için bazı durumlara örnek olarak verilebilir. Bu tür değerlendirmeler hakkında Modeli ve sistemi güvenlik açısından değerlendirme bölümüne bakın.

Özelleştirilmiş güvenlik sınıflandırıcıları oluşturma

Hazır koruma yöntemlerinin aşağıdakiler için uygun olmamasının birkaç nedeni vardır: örneğin desteklenmeyen bir politikaya sahip olma veya desteklenmeyen bir politikaya sahip olma sisteminizi etkilediğini gözlemlediğiniz verilerle güvenlik önlemlerinizi daha ayrıntılı hale getirin. İçinde Bu durumda, çevik sınıflandırıcılar, başarılı ve Bu gibi modellerde ince ayarlar yaparak özel koruma önlemleri oluşturmaya yönelik esnek çerçeve Gemma'yı tercih edebilirsiniz. Ayrıca, kontrollerin nerede ve ne zaman nasıl dağıtıldıklarını öğreneceğiz.

Gemma Çevik Sınıflandırıcı Eğiticileri

Codelab'i Başlat Google Colab'i başlat

Çevik sınıflandırıcılar, codelab ve bir Gemma'da ince ayar yapmak için LoRA kullanımı eğitim KerasNLP kullanarak bir içerik moderasyonu sınıflandırıcısı işlevi görecek bir model oluşturun. kitaplığını tanıtır. ETHOS veri kümesinden yalnızca 200 örnek kullanıldığında, sınıflandırıcının F1 puanı 0,80 ve ROC-AUC puanı elde etmesi bu, son teknolojiye göre olumlu yönde bir fark yaratıyor. Skor tablosu sonuçları. 800 örnekle eğitildiğinde, Leaderboard'daki diğer sınıflandırıcılar, yani Gemma tabanlı çevik sınıflandırıcı, F1 puanı 83,74, ROC-AUC puanı ise 88,17'dir. Her bir tablodaki bu sınıflandırıcıyı daha da hassaslaştırmak veya kendi sınıflandırıcınızı oluşturmak için eğitim talimatları özel güvenlik sınıflandırıcı teminatları.

Güvenlik önlemleri ayarlamayla ilgili en iyi uygulamalar

Önlem olarak güvenlik sınıflandırıcılarının kullanılması önemle tavsiye edilir. Ancak, üretken modelin olası her şey için hiçbir şey (içerik engellenmişse) kullanıcı tarafından belirlenir. Uygulamaların bunu işleyecek şekilde tasarlanması gerekir. dava açın. Çoğu popüler chatbot'lar bunu hazır yanıtlar vererek ("Ben "Ben bir dil modeliyim, bu istek konusunda size yardımcı olamıyorum").

Faydalı olma ve zararsızlık arasında doğru dengeyi bulun: bu sınıflandırıcıların hata yapabileceğini, İki yanlış pozitif de dahil olmak üzere (ör. bir çıktıyı almak için değil) ve yanlış negatifler (güvenli değil) olarak etiketlenmemesi. Ölçüt sınıflandırıcıları F1, Hassasiyet, Geri çağırma ve AUC-ROC gibi metriklerle değerlendirerek yanlış pozitif ve yanlış seçiminden nasıl uzak duracağınızı belirleyebilirsiniz negatif hatalar oluşturabilir. Sınıflandırıcıların eşiğini değiştirerek çıktıları aşırı filtrelemeden kaçınarak aynı zamanda etkili bir denge yardımcı olur.

Sınıflandırıcılarınızı istenmeyen sapmalara karşı kontrol edin: sosyo-kültürel ve teknikler gibi istenmeyen önyargıları yayabilirler. klişeler var. Uygulamaların potansiyel olarak sorunlu davranışlara işaret eder. Özellikle, içerik güvenliği sınıflandırıcıları, daha fazla ilişkili olan kimliklerle alakalı içeriklerde internette kötüye kullanım dili hedefi. Örneğin, Perspective API, model ilk kullanıma sunulduğunda, yorumlarda daha yüksek toksisite puanları döndürdü. Belirli kimlik gruplarına referans verme (blog). Aşırı tetikleyici Örneğin, daha fazlası için kimlik terimlerinden bahseden yorumlar, sık sık hedeflenen gruplar (ör. "Siyah", "Müslüman", "feminist", "kadın", "gay" vb.) doğaları gereği genellikle toksikdir. Veri kümeleri, sınıflandırıcılar, bazı öğeler içeren yorumlarda önemli dengesizliklere sahiptir. sınıflandırıcılar, aşırı genelleme yapabilir ve bu kelimeleri içeren tüm yorumları riskleri kabul eder. Jigsaw ekibinin nasıl çalıştığını öğrenin azaltmalarını sağlayabilir.

Geliştirici Kaynakları