Ustawienia bezpieczeństwa

Opis

W tym przewodniku opisano dostępne w usłudze tekstowej ustawienia bezpieczeństwa z możliwością dostosowania przez interfejs PaLM API. Na etapie prototypowania możesz dostosować ustawienia zabezpieczeń w 6 wymiarach, aby szybko ocenić, czy aplikacja wymaga mniej czy bardziej restrykcyjnej konfiguracji. Domyślnie ustawienia bezpieczeństwa blokują treści o średnim lub wysokim prawdopodobieństwie zaklasyfikowania do nich we wszystkich 6 wymiarach. To podstawowe bezpieczeństwo zostało zaprojektowane tak, aby sprawdzało się w większości przypadków, więc dostosowuj ustawienia bezpieczeństwa tylko wtedy, gdy są one spójnie wymagane w danej aplikacji.

Filtry bezpieczeństwa

Oprócz możliwych do dostosowania filtrów bezpieczeństwa interfejs PaLM API ma wbudowane zabezpieczenia przed uszkodzeniami ciała, takimi jak treści zagrażające bezpieczeństwu dzieci. Tego typu szkody są zawsze blokowane i nie można ich dostosować.

Regulowane filtry bezpieczeństwa obejmują te kategorie:

  • Treści poniżające
  • Toksyczny
  • Treści o charakterze erotycznym
  • Pełen przemocy
  • Placówki medyczne
  • Treści niebezpieczne

Te ustawienia pozwalają Ci, jako deweloperowi, określić, co jest odpowiednie w Twoim przypadku użycia. Na przykład podczas tworzenia dialogu z gry wideo możesz uznać, że dozwolone jest publikowanie większej ilości treści, które ze względu na charakter gry są zaklasyfikowane jako zawierające przemoc lub niebezpieczne. Oto kilka innych przykładowych przypadków użycia, które mogą wymagać pewnej elastyczności w zakresie tych ustawień bezpieczeństwa:

Przykład zastosowania Kategoria
Aplikacja do nauki przeciwdziałania nękaniu Obraźliwe, seksualne, toksyczne
Osoba do badania lekarskiego Placówki medyczne
Autor scenariusza filmowego Przemoc, treści erotyczne, medyczne, niebezpieczne
Klasyfikator toksyczności Toksyczny, poniżający

Prawdopodobieństwo a wagę

Interfejs PaLM API blokuje treści na podstawie prawdopodobieństwa, że treści są niebezpieczne, a nie poziomu ważności. Warto o tym pamiętać, ponieważ niektóre treści mogą być niskie prawdopodobieństwo zagrożenia, mimo że istotność szkód może być nadal duża. Na przykład porównując zdania:

  1. Robot mnie uderzył.
  2. Robot mnie przecięł.

Zdanie 1 może zwiększyć prawdopodobieństwo zagrożenia, ale dla zdania 2 można uznać, że jest ono bardziej rażące w odniesieniu do przemocy.

Z tego względu każdy deweloper powinien uważnie przetestować i zastanowić się, jaki poziom blokowania jest potrzebny do obsługi jego kluczowych przypadków użycia przy jednoczesnym zminimalizowaniu szkód dla użytkowników.

Ustawienia bezpieczeństwa

Ustawienia bezpieczeństwa stanowią część żądania wysyłanego do usługi tekstowej. Możesz ją dostosować do każdego żądania wysyłanego do interfejsu API. W tabeli poniżej znajdziesz listę kategorii, które możesz ustawić, oraz opisane rodzaje krzywd, jakie występują w poszczególnych kategoriach.

Kategorie teksty reklamy;
Treści poniżające Negatywne lub szkodliwe komentarze dotyczące tożsamości lub atrybutów chronionych.
Toksyczny Treści, które są nieuprzejme, obraźliwe lub obraźliwe.
Treści o charakterze erotycznym Zawiera odniesienia do aktów seksualnych lub inne nieprzyzwoite treści.
Pełen przemocy Scenariusz zawiera opis przemocy wobec osoby lub grupy albo ogólny opis okrucieństwa.
Treści niebezpieczne Promowanie i ułatwianie szkodliwych działań bądź zachęcanie do takich działań.
Placówki medyczne Treści związane z medycyną

Te definicje znajdziesz też w dokumentacji interfejsu API.

W tabeli poniżej opisujemy ustawienia blokowania, które możesz dostosować w przypadku poszczególnych kategorii. Jeśli na przykład w kategorii Poniżające ustawisz blokowanie na Blokuj kilka treści, które z dużym prawdopodobieństwem mogą zostać uznane za obraźliwe, będą blokowane. Dozwolone są wszystkie elementy o niższym prawdopodobieństwie.

Jeśli jej nie skonfigurujesz, domyślnym ustawieniem blokowania będzie Blokuj niektóre lub Blokuj najczęściej w zależności od kategorii zasad.

Próg (Google AI Studio) Próg (interfejs API) Opis
Nie blokuj niczego BLOCK_NONE Zawsze pokazuj, niezależnie od prawdopodobieństwa wystąpienia niebezpiecznej treści
Blokuj niektóre BLOCK_ONLY_HIGH Blokuj, gdy istnieje duże prawdopodobieństwo pojawienia się niebezpiecznych treści
Blokuj część (Domyślnie dla treści o charakterze seksualnym, przemocy, niebezpiecznych i medycznych) BLOCK_MEDIUM_AND_ABOVE Blokuj, gdy treści niebezpieczne są średnie lub wysokie
Blokuj większość (ustawienie domyślne w przypadku treści obraźliwych i toksycznych treści) BLOCK_LOW_AND_ABOVE Blokuj, gdy treści mogą zawierać niebezpieczne treści (niskie, średnie lub wysokie)
HARM_BLOCK_THRESHOLD_UNSPECIFIED Próg nie jest określony; blokuj z użyciem domyślnego progu

Możesz skonfigurować te ustawienia dla każdego żądania wysyłanego do usługi tekstowej. Więcej informacji znajdziesz w dokumentacji interfejsu API HarmBlockThreshold.

Opinia na temat bezpieczeństwa

Jeśli treść została zablokowana, odpowiedź interfejsu API zawiera w polu ContentFilter.reason przyczynę zablokowania. Jeśli przyczyna była związana z bezpieczeństwem, odpowiedź zawiera też pole SafetyFeedback z ustawieniami bezpieczeństwa użytymi w żądaniu i oceną bezpieczeństwa. Ocena bezpieczeństwa obejmuje kategorię i prawdopodobieństwo zaistnienia danej szkody. Zawartość, która została zablokowana, nie jest zwracana.

Zwrócone prawdopodobieństwo odpowiada poziomom ufności bloków, jak pokazano w tej tabeli:

Probability, Opis
NIEWAŻNY Treści z niewielkim prawdopodobieństwem są niebezpieczne
NISKI Treści z niskim prawdopodobieństwem są niebezpieczne
ŚREDNIE Treść z średnim prawdopodobieństwem jest niebezpieczna
WYSOKA Treści z dużym prawdopodobieństwem są niebezpieczne

Jeśli na przykład treści zostały zablokowane z powodu wysokiego prawdopodobieństwa, że kategoria toksyczności jest duża, zwracana ocena bezpieczeństwa miałaby kategorię równą TOXICITY, a prawdopodobieństwo zagrożenia – HIGH.

Ustawienia bezpieczeństwa w Google AI Studio

Te ustawienia możesz też skonfigurować w Google AI Studio. W sekcji Ustawienia uruchamiania kliknij Edytuj ustawienia zabezpieczeń:

Przycisk ustawień bezpieczeństwa

Użyj pokrętła, aby dostosować poszczególne ustawienia:

Przycisk ustawień bezpieczeństwa

Jeśli treść zostanie zablokowana, pojawi się komunikat Brak treści. Aby wyświetlić więcej szczegółów, najedź kursorem na Brak treści i kliknij Bezpieczeństwo.

Przykłady kodu

Ta sekcja pokazuje, jak używać ustawień zabezpieczeń w kodzie za pomocą biblioteki klienta Pythona.

Przykład żądania

Poniżej znajdziesz fragment kodu Pythona, który pokazuje, jak skonfigurować ustawienia bezpieczeństwa w wywołaniu GenerateText. Spowoduje to ustawienie kategorii szkody Derogatory i Violence na BLOCK_LOW_AND_ABOVE, co spowoduje blokowanie wszystkich treści, w przypadku których prawdopodobieństwo wystąpienia przemocy lub poniżenia jest niskie lub większe.

completion = genai.generate_text(
    model=model,
    prompt=prompt,
    safety_settings=[
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
    ]
)

Przykładowa odpowiedź

Poniżej znajdziesz fragment kodu służący do analizowania opinii o bezpieczeństwie z odpowiedzi. Uwaga: komentarz dotyczący bezpieczeństwa będzie pusty, chyba że powodem zablokowania był jeden z wymiarów bezpieczeństwa.

# First check the content filter reason
for filter in completion.filters:
    print(filter["reason"])

# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
    print(feedback["rating"])
    print(feedback["setting"])s

Dalsze kroki

  • Aby dowiedzieć się więcej o pełnym interfejsie API, zapoznaj się z dokumentacją interfejsu API.
  • Zapoznaj się ze wskazówkami dotyczącymi bezpieczeństwa, aby uzyskać ogólne informacje na temat bezpieczeństwa podczas tworzenia modeli LLM.
  • Dowiedz się więcej o ocenie prawdopodobieństwa od wagi problemu przygotowany przez zespół Jigsaw
  • Dowiedz się więcej o usługach, które przyczyniają się do powstania rozwiązań zabezpieczających, takich jak Perspective API.
  • Możesz użyć tych ustawień bezpieczeństwa do utworzenia klasyfikatora toksyczności. Na początek zapoznaj się z przykładem klasyfikacji.