Giriş ve çıkış önlemleri oluşturun

Üretken yapay zeka uygulamaları, sorumlu model davranışı sağlamak için genellikle giriş ve çıkış verisi filtrelemesini (bazen safeguards olarak da adlandırılır) kullanır. Giriş ve çıkış filtreleme teknikleri, modele giren veya modelden çıkan verileri kontrol eder.

Korumalar ve kullanıma hazır güvenlik sınıflandırıcıları

Güvenlik için daha önce ince ayar yapılmış ve iyi tasarlanmış bir istem şablonu olsa bile modelinizin istenmeyen zararlara yol açabilecek içerikler üretmesi mümkündür. İçerik sınıflandırıcılar, bu durumu daha da düzeltmek için ilave bir koruma katmanı ekleyebilir. İçerik sınıflandırıcıları hem girişlere hem de çıkışlara uygulanabilir.

Giriş sınıflandırıcıları genellikle uygulamanızda kullanılması amaçlanmamış olan ve modelinizin güvenlik politikalarınızı ihlal etmesine neden olabilecek içerikleri filtrelemek için kullanılır. Giriş filtreleri, genellikle içerik politikalarınızı atlatmaya çalışan düşman saldırılarını hedefler. Çıkış sınıflandırıcıları, güvenlik politikalarınızı ihlal edebilecek istenmeyen nesilleri yakalayarak model çıkışını daha ayrıntılı bir şekilde filtreleyebilir. Tüm içerik politikalarınızı kapsayan sınıflandırıcılarınızın olması önerilir.

Google, içerik güvenliği için girişleri ve çıkışları filtrelemek üzere kullanılabilecek hazır sınıflandırıcılar geliştirmiştir:

  • Perspective API, bir yorumun görüşme üzerinde oluşturabileceği algılanan etkiyi puanlamak için makine öğrenimi modellerini kullanan ücretsiz bir API'dir. Bir yorumun sakıncalı, tehdit edici, aşağılayıcı, konu dışı vb. olup olmadığı olasılığını gösteren puanlar sağlar.
  • Metin moderasyon hizmeti, belirli bir kullanım sınırının altında kullanılabilen bir Google Cloud API'dir ve bir dokümanı, zararlı olabilecek çeşitli kategori ve konular dahil olmak üzere hassas kabul edilen çeşitli güvenlik özellikleri listesine göre analiz etmek için makine öğrenimini kullanır.

Kullanıma hazır sınıflandırıcıların politika hedeflerinizi ne kadar iyi karşıladığını değerlendirmek ve başarısız olan durumları nitel olarak değerlendirmek önemlidir. Aşırı filtrelemenin istenmeyen zararlara yol açabileceğini ve uygulamanın faydasını azaltabileceğini unutmayın. Bu nedenle, aşırı filtrelemenin meydana gelebileceği durumları da incelemek önemlidir. Bu tür değerlendirme yöntemleri hakkında daha fazla bilgi için Modeli ve sistemi güvenlik açısından değerlendirme bölümüne bakın.

Özelleştirilmiş güvenlik sınıflandırıcıları oluşturma

Politikanız kullanıma hazır bir API'nin kapsamında değilse veya kendi sınıflandırıcınızı oluşturmak istiyorsanız istem ayarlama ve LoRA gibi parametre açısından verimli ayarlama teknikleri etkili bir çerçeve sağlar. Bu yöntemlerde, modelin tamamına ince ayar yapmak yerine sınırlı miktarda veri kullanarak modelin küçük bir önemli parametre grubunu eğitebilirsiniz. Bu, modelinizin nispeten az eğitim verisi ve bilgi işlem gücüyle, yeni güvenlik kullanım alanınız için sınıflandırma gibi yeni davranışları öğrenmesini sağlar. Bu yaklaşım, kendi kullanıcılarınız ve görevleriniz için kişiselleştirilmiş güvenlik araçları geliştirmenize olanak tanır.

Bu codelab'de, bunun nasıl çalıştığını açıklamak için "çevik sınıflandırıcı" ayarlamak için gereken kod gösterilmektedir. Codelab'de verileri kullanma, LLM için biçimlendirme, LoRA ağırlıklarını eğitme ve sonuçlarınızı değerlendirme adımları gösterilmektedir. Gemma, bu güçlü sınıflandırıcıları yalnızca birkaç satır kodla oluşturmayı mümkün kılar. Daha ayrıntılı bir genel bakış için "Towards Agile Text Classifiers for Everyone" (Herkes İçin Çevik Metin Sınıflandırıcılarına Doğru) adlı araştırma belgemizde yalnızca birkaç yüz eğitim örneğiyle en üst düzey performansı elde etmek üzere çeşitli güvenlik görevlerini eğitmek üzere bu teknikleri nasıl kullanabileceğiniz gösterilmektedir.

Bu örnek eğitimde, YouTube ve Reddit yorumlarından oluşturulan, nefret söylemini tespit etmeye yönelik herkese açık bir veri kümesi olan ETHOS veri kümesini kullanarak nefret söylemi konusunda bir sınıflandırıcı eğitebilirsiniz. Daha küçük olan Gemma modeliyle eğitildiğinde, yalnızca 200 örnekte (veri kümesinin 1⁄4'ünden küçük bir kısmı) F1 puanına 0,80 ve ROC-AUC puanına (0,78) ulaşmaktadır. Bu sonuç, bu skor tablosunda raporlanan son teknolojinin sonuçlarıyla karşılaştırılmaktadır. Skor tablosundaki diğer sınıflandırıcılar gibi 800 örnekle eğitildiğinde Gemma tabanlı çevik sınıflandırıcı F1 puanına 83,74, ROC-AUC puanına ise 88,17 ulaştı. Bu sınıflandırıcıyı hemen kullanabilir veya Gemma Çevik Sınıflandırıcı eğiticisini kullanarak uyarlayabilirsiniz.

Gemma Çevik Sınıflandırıcı Eğiticileri

Codelab'i Başlat Google Colab'i başlat

Güvenlik önlemlerinin ayarlanmasıyla ilgili en iyi uygulamalar

Güvenlik sınıflandırıcılarının kullanılması kesinlikle önerilir. Bununla birlikte, korumalar, içerik engellenmişse üretici modelin kullanıcı için hiçbir şey üretmemesine yol açabilir. Uygulamaların bu durumu ele alacak şekilde tasarlanması gerekir. Popüler sohbet botlarının çoğu bunu hazır yanıtlar sağlayarak çözer ("Üzgünüm, ben bir dil modeliyim, bu istek konusunda size yardımcı olamıyorum").

Yardımcı olma ile zararsızlık arasında doğru dengeyi bulun: Güvenlik sınıflandırıcılarını kullanırken hem yanlış pozitifler (ör. bir çıkışın güvenli olmadığını iddia etmek, hem de yanlış negatifler) (bir çıktıyı güvenli olmadığı halde güvenli olmadığını iddia etmek) dahil olmak üzere hata yapabileceklerini anlamak önemlidir. Sınıflandırıcıları F1, Hassasiyet, Geri Çağırma ve AUC-ROC gibi metriklerle değerlendirerek yanlış pozitif hataları ve yanlış negatif hataları nasıl dengelemek istediğinizi belirleyebilirsiniz. Sınıflandırıcıların eşiğini değiştirerek, çıktıların aşırı filtrelenmesini önleyen ve uygun güvenlik sağlamaya devam eden ideal dengenin korunmasına yardımcı olursunuz.

Sınıflandırıcılarınızı istenmeyen sapmalara karşı kontrol edin: Diğer makine öğrenimi modelleri gibi güvenlik sınıflandırıcıları da sosyo-kültürel stereotipler gibi istenmeyen önyargıları yayabilir. Uygulamaların, potansiyel sorunlar açısından uygun şekilde değerlendirilmesi gerekir. Özellikle, içerik güvenliği sınıflandırıcıları internette kötüye kullanım amaçlı dilin hedefi daha sık olan kimliklerle ilgili içeriklerde aşırı tetikleme yapabilir. Örneğin, Perspective API ilk kullanıma sunulduğunda model, belirli kimlik gruplarına (blog) referans veren yorumlarda daha yüksek toksiklik puanları döndürdü. Bu aşırı tetikleyici davranış, daha sık hedeflenen gruplar (ör. "Siyahi", "müslüman", "feminist", "kadın", "gey" vb.) için kimlikten bahseden yorumların daha çok zehirli olmasından kaynaklanabilir. Sınıflandırıcıları eğitmek için kullanılan veri kümeleri, belirli kelimeleri içeren yorumlar için önemli dengesizliklere sahip olduğunda, sınıflandırıcılar aşırı genelleme yapabilir ve bu kelimeleri içeren tüm yorumları güvenli olmayabilecek olarak değerlendirebilir. Jigsaw ekibinin bu kasıtsız ön yargıyı nasıl azalttığını okuyun.

Geliştirici Kaynakları