Genel bakış
Bu kılavuzda, metin hizmeti için kullanılabilen PaLM API ayarlanabilir güvenlik ayarları açıklanmaktadır. Prototip oluşturma aşamasında, uygulamanızın daha fazla mı yoksa daha az kısıtlayıcı mı yapılandırma gerektirdiğini hızlı bir şekilde değerlendirmek için altı boyutta güvenlik ayarlarını düzenleyebilirsiniz. Güvenlik ayarları, varsayılan olarak altı boyutun tamamında güvenli olmayan içerik olma olasılığı orta ve/veya yüksek olan içerikleri engeller. Bu temel güvenlik, çoğu kullanım alanında kullanılmak üzere tasarlanmıştır. Bu nedenle, güvenlik ayarlarınızı yalnızca uygulamanız için sürekli olarak gerekliyse değiştirmelisiniz.
Güvenlik filtreleri
Ayarlanabilir güvenlik filtrelerine ek olarak, PaLM API çocukların güvenliğini tehlikeye atan içerikler gibi temel zararlara karşı yerleşik korumalara sahiptir. Bu tür zararlar her zaman engellenir ve düzenlenemez.
Ayarlanabilir güvenlik filtreleri aşağıdaki kategorileri kapsar:
- Aşağılayıcı
- Zehirli
- Cinsel içerik barındırıyor
- Şiddet içerikli
- Sağlık
- Tehlikeli
Bu ayarlar, geliştirici olarak sizin kullanım alanınız için neyin uygun olduğunu belirlemenize olanak tanır. Örneğin, bir video oyunu diyalogu oluşturuyorsanız oyunun yapısı nedeniyle şiddet içeren veya tehlikeli olarak derecelendirilen daha fazla içeriğe izin vermeyi kabul edebilirsiniz. Aşağıda, bu güvenlik ayarlarında biraz esnek olma gerekebilecek diğer kullanım alanlarına birkaç örnek verilmiştir:
Kullanım Örneği | Kategori |
---|---|
Taciz Karşıtı Eğitim Uygulaması | Aşağılayıcı, Cinsel, Zehirli |
Tıbbi Muayene Çalışma Arkadaşı | Sağlık |
Senaryo Yazarı | Şiddet İçeren, Cinsel, Tıbbi, Tehlikeli |
Toksiklik sınıflandırıcı | Zehirli, Aşağılayıcı |
Olasılık ve önem derecesi
PaLM API, içeriğin güvenli olmamasının olasılığına göre içeriği engeller, önem derecesine göre engellemez. Zararın ciddiyeti yine de yüksek olsa bile bazı içeriklerin güvenli olmayan olma olasılığı düşük olabileceğinden, bunu dikkate almak önemlidir. Örneğin:
- Robot bana yumruk attı.
- Robot beni kesti.
1. cümlenin güvenli olmama ihtimali daha yüksek olabilir, ancak 2. cümlenin şiddet açısından daha şiddetli olduğunu düşünebilirsiniz.
Bu göz önünde bulundurulduğunda her geliştiricinin, son kullanıcılara zararı en aza indirirken temel kullanım alanlarını desteklemek için hangi uygun engelleme düzeyinin gerekli olduğunu dikkatlice test etmesi ve değerlendirmesi önemlidir.
Güvenlik Ayarları
Güvenlik ayarları, kısa mesaj hizmetine gönderdiğiniz isteğin bir parçasıdır. API'ye yaptığınız her istek için düzenlenebilir. Aşağıdaki tabloda, ayarlayabileceğiniz kategoriler listelenmekte ve her bir kategorinin kapsadığı zarar türü açıklanmaktadır.
Kategoriler | Açıklamalar |
---|---|
Aşağılayıcı | Kimlik ve/veya korunan özellikleri hedefleyen olumsuz ya da zararlı yorumlar. |
Zehirli | Kaba, saygısız veya küfürlü içerik. |
Cinsel içerik barındırıyor | Cinsel eylemler veya diğer müstehcen içeriklere atıflar içeren. |
Şiddet içerikli | Bir birey veya gruba karşı şiddet içeren senaryoları ya da kanın genel tasvirlerini açıklar. |
Tehlikeli | Zararlı eylemleri teşvik eden, kolaylaştıran veya destekleyen içerikler |
Sağlık | Tıbbi konularla ilgili içerikler |
Bu tanımları API referansında da görebilirsiniz.
Aşağıdaki tabloda, her bir kategori için düzenleyebileceğiniz engelleme ayarları açıklanmaktadır. Örneğin, Aşağılayıcı kategorisi için engelleme ayarını Az sayıda engelle olarak ayarlarsanız hakaret barındıran içerik olma olasılığı yüksek olan her şey engellenir. Ancak olasılığı düşük olan her şeye izin verilir.
Ayarlanmazsa politika kategorisine bağlı olarak varsayılan engelleme ayarı Bazılarını engelle veya En çok engelle olur.
Eşik (Google AI Studio) | Eşik (API) | Açıklama |
---|---|---|
Hiçbirini engelleme | BLOCK_NONE | Güvenli olmayan içerik olasılığından bağımsız olarak her zaman göster |
Birkaçını engelle | BLOCK_ONLY_HIGH | Güvenli olmayan içerik olasılığı yüksek olduğunda engelle |
Bazılarını engelle (Cinsel, şiddet içeren, tehlikeli ve tıbbi içerikler için varsayılan ayardır) | BLOCK_MEDIUM_AND_ABOVE | Güvenli olmayan içerik olasılığı orta veya yüksek olduğunda engelle |
Çoğunu engelle (Küçük düşürücü ve kirlilik için varsayılan değer) | BLOCK_LOW_AND_ABOVE | Güvenli olmayan içerik olasılığı düşük, orta veya yüksek olduğunda engelle |
HARM_BLOCK_THRESHOLD_UNSPECIFIED | Eşik belirtilmemiş, varsayılan eşik kullanılarak engelle |
Bu ayarları, kısa mesaj hizmetine gönderdiğiniz her istek için belirleyebilirsiniz. Ayrıntılar için HarmBlockThreshold
API referansına bakın.
Güvenlik geri bildirimi
İçerik engellenmişse API'den gelen yanıt, engellenme nedenini ContentFilter.reason
alanında içerir. Sebep güvenlikle ilgiliyse yanıtta ayrıca ilgili istek için kullanılan güvenlik ayarlarının yanı sıra güvenlik derecelendirmesini içeren bir SafetyFeedback
alanı da bulunur. Güvenlik derecelendirmesi, kategoriyi ve hasar sınıflandırmasının
olasılığını içerir. Engellenen içerik döndürülmez.
Döndürülen olasılık, aşağıdaki tabloda gösterildiği gibi blok güven düzeylerine karşılık gelir:
Probability | Açıklama |
---|---|
İHMAL EDİLMEZ | İçeriğin güvenli olmayan olma olasılığı çok düşük düzeyde |
DÜŞÜK | İçeriğin güvenli olmayan olma olasılığı düşük |
ORTA | İçeriğin güvenli olmama olasılığı orta düzeydedir |
YÜKSEK | İçeriğin güvenli olmayan olma olasılığı yüksek |
Örneğin, içerik, zehirlilik kategorisinin yüksek olasılığa sahip olması nedeniyle engellendiyse döndürülen güvenlik puanının kategorisi TOXICITY
ve zarar olasılığı HIGH
olarak ayarlanır.
Google AI Studio'daki güvenlik ayarları
Bu ayarları Google AI Studio'da da yapabilirsiniz. Ayarları çalıştır bölümünde, Güvenlik ayarlarını düzenle'yi tıklayın:
Düğmeleri kullanarak her bir ayarı düzenleyin:
İçerik engellenirse
İçerik Yok mesajı görünür. Daha fazla ayrıntı görmek için işaretçiyi İçerik Yok'un üzerine getirin ve Güvenlik'i tıklayın.Kod örnekleri
Bu bölümde, python istemci kitaplığı kullanılarak güvenlik ayarlarının nasıl kullanılacağı gösterilmektedir.
İstek örneği
Aşağıda, GenerateText
çağrınızda güvenlik ayarlarını nasıl yapacağınızı gösteren bir python kod snippet'i verilmiştir. Bu işlem, Derogatory
ve Violence
zarar kategorilerini BLOCK_LOW_AND_ABOVE
olarak ayarlar. Böylece, şiddet veya hakaret barındırma olasılığı düşük veya yüksek olan tüm içerikler engellenir.
completion = genai.generate_text(
model=model,
prompt=prompt,
safety_settings=[
{
"category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
{
"category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
]
)
Yanıt örneği
Aşağıda, yanıttaki güvenlik geri bildirimini ayrıştırmak için kullanılan bir kod snippet'i gösterilmektedir. Engelleme nedeni güvenlik boyutlarından biri değilse güvenlik geri bildiriminin boş olacağını unutmayın.
# First check the content filter reason
for filter in completion.filters:
print(filter["reason"])
# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
print(feedback["rating"])
print(feedback["setting"])s
Sonraki adımlar
- Tam API hakkında daha fazla bilgi edinmek için API referansına bakın.
- LLM'lerle geliştirme yaparken güvenlikle ilgili dikkat edilmesi gereken noktalara genel bir bakış için güvenlik kılavuzunu inceleyin.
- Olasılık ve şiddeti değerlendirme hakkında daha fazla bilgiyi Jigsaw ekibinden edinebilirsiniz.
- Perspective API gibi güvenlik çözümlerine katkıda bulunan ürünler hakkında daha fazla bilgi edinin.
- Toksiklik sınıflandırıcısı oluşturmak için bu güvenlik ayarlarını kullanabilirsiniz. Başlamak için sınıflandırma örneğine bakın.