Opis
W tym przewodniku opisano dostępne w usłudze tekstowej ustawienia bezpieczeństwa z możliwością dostosowania przez interfejs PaLM API. Na etapie prototypowania możesz dostosować ustawienia zabezpieczeń w 6 wymiarach, aby szybko ocenić, czy aplikacja wymaga mniej czy bardziej restrykcyjnej konfiguracji. Domyślnie ustawienia bezpieczeństwa blokują treści o średnim lub wysokim prawdopodobieństwie zaklasyfikowania do nich we wszystkich 6 wymiarach. To podstawowe bezpieczeństwo zostało zaprojektowane tak, aby sprawdzało się w większości przypadków, więc dostosowuj ustawienia bezpieczeństwa tylko wtedy, gdy są one spójnie wymagane w danej aplikacji.
Filtry bezpieczeństwa
Oprócz możliwych do dostosowania filtrów bezpieczeństwa interfejs PaLM API ma wbudowane zabezpieczenia przed uszkodzeniami ciała, takimi jak treści zagrażające bezpieczeństwu dzieci. Tego typu szkody są zawsze blokowane i nie można ich dostosować.
Regulowane filtry bezpieczeństwa obejmują te kategorie:
- Treści poniżające
- Toksyczny
- Treści o charakterze erotycznym
- Pełen przemocy
- Placówki medyczne
- Treści niebezpieczne
Te ustawienia pozwalają Ci, jako deweloperowi, określić, co jest odpowiednie w Twoim przypadku użycia. Na przykład podczas tworzenia dialogu z gry wideo możesz uznać, że dozwolone jest publikowanie większej ilości treści, które ze względu na charakter gry są zaklasyfikowane jako zawierające przemoc lub niebezpieczne. Oto kilka innych przykładowych przypadków użycia, które mogą wymagać pewnej elastyczności w zakresie tych ustawień bezpieczeństwa:
Przykład zastosowania | Kategoria |
---|---|
Aplikacja do nauki przeciwdziałania nękaniu | Obraźliwe, seksualne, toksyczne |
Osoba do badania lekarskiego | Placówki medyczne |
Autor scenariusza filmowego | Przemoc, treści erotyczne, medyczne, niebezpieczne |
Klasyfikator toksyczności | Toksyczny, poniżający |
Prawdopodobieństwo a wagę
Interfejs PaLM API blokuje treści na podstawie prawdopodobieństwa, że treści są niebezpieczne, a nie poziomu ważności. Warto o tym pamiętać, ponieważ niektóre treści mogą być niskie prawdopodobieństwo zagrożenia, mimo że istotność szkód może być nadal duża. Na przykład porównując zdania:
- Robot mnie uderzył.
- Robot mnie przecięł.
Zdanie 1 może zwiększyć prawdopodobieństwo zagrożenia, ale dla zdania 2 można uznać, że jest ono bardziej rażące w odniesieniu do przemocy.
Z tego względu każdy deweloper powinien uważnie przetestować i zastanowić się, jaki poziom blokowania jest potrzebny do obsługi jego kluczowych przypadków użycia przy jednoczesnym zminimalizowaniu szkód dla użytkowników.
Ustawienia bezpieczeństwa
Ustawienia bezpieczeństwa stanowią część żądania wysyłanego do usługi tekstowej. Możesz ją dostosować do każdego żądania wysyłanego do interfejsu API. W tabeli poniżej znajdziesz listę kategorii, które możesz ustawić, oraz opisane rodzaje krzywd, jakie występują w poszczególnych kategoriach.
Kategorie | teksty reklamy; |
---|---|
Treści poniżające | Negatywne lub szkodliwe komentarze dotyczące tożsamości lub atrybutów chronionych. |
Toksyczny | Treści, które są nieuprzejme, obraźliwe lub obraźliwe. |
Treści o charakterze erotycznym | Zawiera odniesienia do aktów seksualnych lub inne nieprzyzwoite treści. |
Pełen przemocy | Scenariusz zawiera opis przemocy wobec osoby lub grupy albo ogólny opis okrucieństwa. |
Treści niebezpieczne | Promowanie i ułatwianie szkodliwych działań bądź zachęcanie do takich działań. |
Placówki medyczne | Treści związane z medycyną |
Te definicje znajdziesz też w dokumentacji interfejsu API.
W tabeli poniżej opisujemy ustawienia blokowania, które możesz dostosować w przypadku poszczególnych kategorii. Jeśli na przykład w kategorii Poniżające ustawisz blokowanie na Blokuj kilka treści, które z dużym prawdopodobieństwem mogą zostać uznane za obraźliwe, będą blokowane. Dozwolone są wszystkie elementy o niższym prawdopodobieństwie.
Jeśli jej nie skonfigurujesz, domyślnym ustawieniem blokowania będzie Blokuj niektóre lub Blokuj najczęściej w zależności od kategorii zasad.
Próg (Google AI Studio) | Próg (interfejs API) | Opis |
---|---|---|
Nie blokuj niczego | BLOCK_NONE | Zawsze pokazuj, niezależnie od prawdopodobieństwa wystąpienia niebezpiecznej treści |
Blokuj niektóre | BLOCK_ONLY_HIGH | Blokuj, gdy istnieje duże prawdopodobieństwo pojawienia się niebezpiecznych treści |
Blokuj część (Domyślnie dla treści o charakterze seksualnym, przemocy, niebezpiecznych i medycznych) | BLOCK_MEDIUM_AND_ABOVE | Blokuj, gdy treści niebezpieczne są średnie lub wysokie |
Blokuj większość (ustawienie domyślne w przypadku treści obraźliwych i toksycznych treści) | BLOCK_LOW_AND_ABOVE | Blokuj, gdy treści mogą zawierać niebezpieczne treści (niskie, średnie lub wysokie) |
HARM_BLOCK_THRESHOLD_UNSPECIFIED | Próg nie jest określony; blokuj z użyciem domyślnego progu |
Możesz skonfigurować te ustawienia dla każdego żądania wysyłanego do usługi tekstowej. Więcej informacji znajdziesz w dokumentacji interfejsu API HarmBlockThreshold
.
Opinia na temat bezpieczeństwa
Jeśli treść została zablokowana, odpowiedź interfejsu API zawiera w polu ContentFilter.reason
przyczynę zablokowania. Jeśli przyczyna była związana z bezpieczeństwem, odpowiedź zawiera też pole SafetyFeedback
z ustawieniami bezpieczeństwa użytymi w żądaniu i oceną bezpieczeństwa. Ocena bezpieczeństwa obejmuje kategorię
i prawdopodobieństwo zaistnienia danej szkody. Zawartość, która została zablokowana, nie jest zwracana.
Zwrócone prawdopodobieństwo odpowiada poziomom ufności bloków, jak pokazano w tej tabeli:
Probability, | Opis |
---|---|
NIEWAŻNY | Treści z niewielkim prawdopodobieństwem są niebezpieczne |
NISKI | Treści z niskim prawdopodobieństwem są niebezpieczne |
ŚREDNIE | Treść z średnim prawdopodobieństwem jest niebezpieczna |
WYSOKA | Treści z dużym prawdopodobieństwem są niebezpieczne |
Jeśli na przykład treści zostały zablokowane z powodu wysokiego prawdopodobieństwa, że kategoria toksyczności jest duża, zwracana ocena bezpieczeństwa miałaby kategorię równą TOXICITY
, a prawdopodobieństwo zagrożenia – HIGH
.
Ustawienia bezpieczeństwa w Google AI Studio
Te ustawienia możesz też skonfigurować w Google AI Studio. W sekcji Ustawienia uruchamiania kliknij Edytuj ustawienia zabezpieczeń:
Użyj pokrętła, aby dostosować poszczególne ustawienia:
Jeśli treść zostanie zablokowana, pojawi się komunikat
Brak treści. Aby wyświetlić więcej szczegółów, najedź kursorem na Brak treści i kliknij Bezpieczeństwo.Przykłady kodu
Ta sekcja pokazuje, jak używać ustawień zabezpieczeń w kodzie za pomocą biblioteki klienta Pythona.
Przykład żądania
Poniżej znajdziesz fragment kodu Pythona, który pokazuje, jak skonfigurować ustawienia bezpieczeństwa w wywołaniu GenerateText
. Spowoduje to ustawienie kategorii szkody Derogatory
i Violence
na BLOCK_LOW_AND_ABOVE
, co spowoduje blokowanie wszystkich treści, w przypadku których prawdopodobieństwo wystąpienia przemocy lub poniżenia jest niskie lub większe.
completion = genai.generate_text(
model=model,
prompt=prompt,
safety_settings=[
{
"category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
{
"category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
]
)
Przykładowa odpowiedź
Poniżej znajdziesz fragment kodu służący do analizowania opinii o bezpieczeństwie z odpowiedzi. Uwaga: komentarz dotyczący bezpieczeństwa będzie pusty, chyba że powodem zablokowania był jeden z wymiarów bezpieczeństwa.
# First check the content filter reason
for filter in completion.filters:
print(filter["reason"])
# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
print(feedback["rating"])
print(feedback["setting"])s
Dalsze kroki
- Aby dowiedzieć się więcej o pełnym interfejsie API, zapoznaj się z dokumentacją interfejsu API.
- Zapoznaj się ze wskazówkami dotyczącymi bezpieczeństwa, aby uzyskać ogólne informacje na temat bezpieczeństwa podczas tworzenia modeli LLM.
- Dowiedz się więcej o ocenie prawdopodobieństwa od wagi problemu przygotowany przez zespół Jigsaw
- Dowiedz się więcej o usługach, które przyczyniają się do powstania rozwiązań zabezpieczających, takich jak Perspective API.
- Możesz użyć tych ustawień bezpieczeństwa do utworzenia klasyfikatora toksyczności. Na początek zapoznaj się z przykładem klasyfikacji.