Güvenlik ayarları

Genel bakış

Bu kılavuzda, metin hizmeti için kullanılabilen PaLM API ayarlanabilir güvenlik ayarları açıklanmaktadır. Prototip oluşturma aşamasında, uygulamanızın daha fazla mı yoksa daha az kısıtlayıcı mı yapılandırma gerektirdiğini hızlı bir şekilde değerlendirmek için altı boyutta güvenlik ayarlarını düzenleyebilirsiniz. Güvenlik ayarları, varsayılan olarak altı boyutun tamamında güvenli olmayan içerik olma olasılığı orta ve/veya yüksek olan içerikleri engeller. Bu temel güvenlik, çoğu kullanım alanında kullanılmak üzere tasarlanmıştır. Bu nedenle, güvenlik ayarlarınızı yalnızca uygulamanız için sürekli olarak gerekliyse değiştirmelisiniz.

Güvenlik filtreleri

Ayarlanabilir güvenlik filtrelerine ek olarak, PaLM API çocukların güvenliğini tehlikeye atan içerikler gibi temel zararlara karşı yerleşik korumalara sahiptir. Bu tür zararlar her zaman engellenir ve düzenlenemez.

Ayarlanabilir güvenlik filtreleri aşağıdaki kategorileri kapsar:

  • Aşağılayıcı
  • Zehirli
  • Cinsel içerik barındırıyor
  • Şiddet içerikli
  • Sağlık
  • Tehlikeli

Bu ayarlar, geliştirici olarak sizin kullanım alanınız için neyin uygun olduğunu belirlemenize olanak tanır. Örneğin, bir video oyunu diyalogu oluşturuyorsanız oyunun yapısı nedeniyle şiddet içeren veya tehlikeli olarak derecelendirilen daha fazla içeriğe izin vermeyi kabul edebilirsiniz. Aşağıda, bu güvenlik ayarlarında biraz esnek olma gerekebilecek diğer kullanım alanlarına birkaç örnek verilmiştir:

Kullanım Örneği Kategori
Taciz Karşıtı Eğitim Uygulaması Aşağılayıcı, Cinsel, Zehirli
Tıbbi Muayene Çalışma Arkadaşı Sağlık
Senaryo Yazarı Şiddet İçeren, Cinsel, Tıbbi, Tehlikeli
Toksiklik sınıflandırıcı Zehirli, Aşağılayıcı

Olasılık ve önem derecesi

PaLM API, içeriğin güvenli olmamasının olasılığına göre içeriği engeller, önem derecesine göre engellemez. Zararın ciddiyeti yine de yüksek olsa bile bazı içeriklerin güvenli olmayan olma olasılığı düşük olabileceğinden, bunu dikkate almak önemlidir. Örneğin:

  1. Robot bana yumruk attı.
  2. Robot beni kesti.

1. cümlenin güvenli olmama ihtimali daha yüksek olabilir, ancak 2. cümlenin şiddet açısından daha şiddetli olduğunu düşünebilirsiniz.

Bu göz önünde bulundurulduğunda her geliştiricinin, son kullanıcılara zararı en aza indirirken temel kullanım alanlarını desteklemek için hangi uygun engelleme düzeyinin gerekli olduğunu dikkatlice test etmesi ve değerlendirmesi önemlidir.

Güvenlik Ayarları

Güvenlik ayarları, kısa mesaj hizmetine gönderdiğiniz isteğin bir parçasıdır. API'ye yaptığınız her istek için düzenlenebilir. Aşağıdaki tabloda, ayarlayabileceğiniz kategoriler listelenmekte ve her bir kategorinin kapsadığı zarar türü açıklanmaktadır.

Kategoriler Açıklamalar
Aşağılayıcı Kimlik ve/veya korunan özellikleri hedefleyen olumsuz ya da zararlı yorumlar.
Zehirli Kaba, saygısız veya küfürlü içerik.
Cinsel içerik barındırıyor Cinsel eylemler veya diğer müstehcen içeriklere atıflar içeren.
Şiddet içerikli Bir birey veya gruba karşı şiddet içeren senaryoları ya da kanın genel tasvirlerini açıklar.
Tehlikeli Zararlı eylemleri teşvik eden, kolaylaştıran veya destekleyen içerikler
Sağlık Tıbbi konularla ilgili içerikler

Bu tanımları API referansında da görebilirsiniz.

Aşağıdaki tabloda, her bir kategori için düzenleyebileceğiniz engelleme ayarları açıklanmaktadır. Örneğin, Aşağılayıcı kategorisi için engelleme ayarını Az sayıda engelle olarak ayarlarsanız hakaret barındıran içerik olma olasılığı yüksek olan her şey engellenir. Ancak olasılığı düşük olan her şeye izin verilir.

Ayarlanmazsa politika kategorisine bağlı olarak varsayılan engelleme ayarı Bazılarını engelle veya En çok engelle olur.

Eşik (Google AI Studio) Eşik (API) Açıklama
Hiçbirini engelleme BLOCK_NONE Güvenli olmayan içerik olasılığından bağımsız olarak her zaman göster
Birkaçını engelle BLOCK_ONLY_HIGH Güvenli olmayan içerik olasılığı yüksek olduğunda engelle
Bazılarını engelle (Cinsel, şiddet içeren, tehlikeli ve tıbbi içerikler için varsayılan ayardır) BLOCK_MEDIUM_AND_ABOVE Güvenli olmayan içerik olasılığı orta veya yüksek olduğunda engelle
Çoğunu engelle (Küçük düşürücü ve kirlilik için varsayılan değer) BLOCK_LOW_AND_ABOVE Güvenli olmayan içerik olasılığı düşük, orta veya yüksek olduğunda engelle
HARM_BLOCK_THRESHOLD_UNSPECIFIED Eşik belirtilmemiş, varsayılan eşik kullanılarak engelle

Bu ayarları, kısa mesaj hizmetine gönderdiğiniz her istek için belirleyebilirsiniz. Ayrıntılar için HarmBlockThreshold API referansına bakın.

Güvenlik geri bildirimi

İçerik engellenmişse API'den gelen yanıt, engellenme nedenini ContentFilter.reason alanında içerir. Sebep güvenlikle ilgiliyse yanıtta ayrıca ilgili istek için kullanılan güvenlik ayarlarının yanı sıra güvenlik derecelendirmesini içeren bir SafetyFeedback alanı da bulunur. Güvenlik derecelendirmesi, kategoriyi ve hasar sınıflandırmasının olasılığını içerir. Engellenen içerik döndürülmez.

Döndürülen olasılık, aşağıdaki tabloda gösterildiği gibi blok güven düzeylerine karşılık gelir:

Probability Açıklama
İHMAL EDİLMEZ İçeriğin güvenli olmayan olma olasılığı çok düşük düzeyde
DÜŞÜK İçeriğin güvenli olmayan olma olasılığı düşük
ORTA İçeriğin güvenli olmama olasılığı orta düzeydedir
YÜKSEK İçeriğin güvenli olmayan olma olasılığı yüksek

Örneğin, içerik, zehirlilik kategorisinin yüksek olasılığa sahip olması nedeniyle engellendiyse döndürülen güvenlik puanının kategorisi TOXICITY ve zarar olasılığı HIGH olarak ayarlanır.

Google AI Studio'daki güvenlik ayarları

Bu ayarları Google AI Studio'da da yapabilirsiniz. Ayarları çalıştır bölümünde, Güvenlik ayarlarını düzenle'yi tıklayın:

Güvenlik ayarları düğmesi

Düğmeleri kullanarak her bir ayarı düzenleyin:

Güvenlik ayarları düğmesi

İçerik engellenirse İçerik Yok mesajı görünür. Daha fazla ayrıntı görmek için işaretçiyi İçerik Yok'un üzerine getirin ve Güvenlik'i tıklayın.

Kod örnekleri

Bu bölümde, python istemci kitaplığı kullanılarak güvenlik ayarlarının nasıl kullanılacağı gösterilmektedir.

İstek örneği

Aşağıda, GenerateText çağrınızda güvenlik ayarlarını nasıl yapacağınızı gösteren bir python kod snippet'i verilmiştir. Bu işlem, Derogatory ve Violence zarar kategorilerini BLOCK_LOW_AND_ABOVE olarak ayarlar. Böylece, şiddet veya hakaret barındırma olasılığı düşük veya yüksek olan tüm içerikler engellenir.

completion = genai.generate_text(
    model=model,
    prompt=prompt,
    safety_settings=[
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
    ]
)

Yanıt örneği

Aşağıda, yanıttaki güvenlik geri bildirimini ayrıştırmak için kullanılan bir kod snippet'i gösterilmektedir. Engelleme nedeni güvenlik boyutlarından biri değilse güvenlik geri bildiriminin boş olacağını unutmayın.

# First check the content filter reason
for filter in completion.filters:
    print(filter["reason"])

# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
    print(feedback["rating"])
    print(feedback["setting"])s

Sonraki adımlar

  • Tam API hakkında daha fazla bilgi edinmek için API referansına bakın.
  • LLM'lerle geliştirme yaparken güvenlikle ilgili dikkat edilmesi gereken noktalara genel bir bakış için güvenlik kılavuzunu inceleyin.
  • Olasılık ve şiddeti değerlendirme hakkında daha fazla bilgiyi Jigsaw ekibinden edinebilirsiniz.
  • Perspective API gibi güvenlik çözümlerine katkıda bulunan ürünler hakkında daha fazla bilgi edinin.
  • Toksiklik sınıflandırıcısı oluşturmak için bu güvenlik ayarlarını kullanabilirsiniz. Başlamak için sınıflandırma örneğine bakın.