Sicherheits­einstellungen

Überblick

In diesem Leitfaden werden die anpassbaren Sicherheitseinstellungen der PaLM API beschrieben, die für den Textdienst verfügbar sind. Während der Prototyping-Phase können Sie die Sicherheitseinstellungen für sechs Dimensionen anpassen, um schnell zu beurteilen, ob Ihre Anwendung mehr oder weniger restriktive Konfiguration erfordert. Standardmäßig werden Inhalte mit mittlerer und/oder hoher Wahrscheinlichkeit in allen sechs Dimensionen als unsicher eingestuft. Diese Sicherheitsgrundlage wurde für die meisten Anwendungsfälle entwickelt. Daher sollten Sie Ihre Sicherheitseinstellungen nur dann anpassen, wenn sie für Ihre Anwendung immer erforderlich sind.

Sicherheitsfilter

Zusätzlich zu den anpassbaren Sicherheitsfiltern verfügt die PaLM API über integrierte Schutzmaßnahmen gegen Kernschäden, z. B. vor Inhalten, die den Schutz von Kindern gefährden. Solche Schäden werden immer blockiert und können nicht korrigiert werden.

Die anpassbaren Sicherheitsfilter umfassen die folgenden Kategorien:

  • Hassreden
  • Unangemessen
  • Sexuelle Inhalte
  • Gewaltverherrlichend
  • Medizinische Versorgungseinrichtung
  • Gefährlich

Mit diesen Einstellungen können Sie als Entwickler bestimmen, was für Ihren Anwendungsfall geeignet ist. Wenn Sie beispielsweise ein Videospieldialog erstellen, können Sie es für akzeptabel halten, mehr Inhalte zuzulassen, die aufgrund der Art des Spiels als gewalttätig oder gefährlich eingestuft werden. Hier sind einige weitere Beispielanwendungsfälle, die bei diesen Sicherheitseinstellungen möglicherweise etwas Flexibilität erfordern:

Anwendungsfall Kategorie
Trainings-App gegen Belästigung Abwertend, sexuell, unangemessen
Medizinische Prüfungsvorbereitung Medizinische Versorgungseinrichtung
Drehbuchautor Gewaltverherrlichend, sexuell, medizinisch, gefährlich
Klassifikator für unangemessene Äußerungen Unangemessen, abwertend

Wahrscheinlichkeit vs. Schweregrad

Die PaLM API blockiert Inhalte auf Grundlage der Wahrscheinlichkeit, dass die Inhalte unsicher sind, und nicht aufgrund ihres Schweregrads. Das ist wichtig, da die Wahrscheinlichkeit, unsicher zu sein, bei manchen Inhalten gering ist, auch wenn der Schweregrad des Schadens weiterhin hoch sein kann. Zum Beispiel können Sie die Sätze vergleichen:

  1. Der Roboter hat mich geboxt.
  2. Der Roboter hat mich in Stücke geschnitten.

Satz 1 kann zu einer höheren Wahrscheinlichkeit führen, dass er unsicher ist, aber Satz 2 könnte eine höhere Gewalt in Bezug auf Gewalt haben.

Daher ist es wichtig, dass alle Entwickler sorgfältig testen und überlegen, welche Blockierung erforderlich ist, um die wichtigsten Anwendungsfälle abzudecken und gleichzeitig den Schaden für Endnutzer so gering wie möglich zu halten.

Sicherheitseinstellungen

Die Sicherheitseinstellungen sind Teil der Anfrage, die Sie an den SMS-Dienst senden. Sie kann für jede Anfrage an die API angepasst werden. In der folgenden Tabelle sind die Kategorien aufgeführt, die du festlegen kannst, sowie die Art des Schadens, den jede Kategorie betrifft.

Kategorien Beschreibungen
Hassreden Negative oder schädliche Kommentare, die auf Identität und/oder geschützte Merkmale abzielen.
Unangemessen Unhöfliche, respektlose oder vulgäre Inhalte.
Sexuelle Inhalte Verweise auf sexuelle Handlungen oder andere anzügliche Inhalte.
Gewalttätig Beschreibt Szenarien, in denen Gewalt gegen eine Person oder Gruppe dargestellt wird, oder allgemein blutrünstige Inhalte.
Gefährlich Inhalte, die schädliche Handlungen fördern, erleichtern oder dazu aufrufen.
Medizinische Versorgungseinrichtung Inhalte im Zusammenhang mit medizinischen Themen

Diese Definitionen finden Sie auch in der API-Referenz.

In der folgenden Tabelle werden die Blockeinstellungen beschrieben, die Sie für jede Kategorie anpassen können. Wenn Sie beispielsweise die Einstellung zum Blockieren für die Kategorie Hassrede auf Nur wenige blockieren setzen, werden alle Elemente blockiert, die mit hoher Wahrscheinlichkeit abwertende Inhalte sind. Alles mit einer geringeren Wahrscheinlichkeit ist jedoch zulässig.

Wenn die Richtlinie nicht konfiguriert ist, wird je nach Richtlinienkategorie die Standardeinstellung Einige blockieren oder Die meisten blockieren verwendet.

Grenzwert (Google AI Studio) Grenzwert (API) Beschreibung
Keine blockieren BLOCK_NONE Immer anzeigen, unabhängig von der Wahrscheinlichkeit von unsicheren Inhalten
Wenige blockieren BLOCK_ONLY_HIGH Blockieren, wenn die Wahrscheinlichkeit für unsichere Inhalte hoch ist
Einige blockieren (Standardeinstellung für sexuelle, gewalttätige, gefährliche und medizinische Inhalte) BLOCK_MEDIUM_AND_ABOVE Blockieren, wenn die Wahrscheinlichkeit für unsichere Inhalte mittel oder hoch ist
Meiste blockieren (Standardeinstellung für abwertende und unangemessene Äußerungen) BLOCK_LOW_AND_ABOVE Blockieren, wenn die Wahrscheinlichkeit für unsichere Inhalte gering, mittel oder hoch ist
HARM_BLOCK_THRESHOLD_UNSPECIFIED Grenzwert ist nicht angegeben; Standardgrenzwert wird verwendet

Sie können diese Einstellungen für jede Anfrage an den SMS-Dienst festlegen. Weitere Informationen finden Sie in der API-Referenz HarmBlockThreshold.

Feedback zur Sicherheit

Wenn Inhalte blockiert wurden, enthält die Antwort der API im Feld ContentFilter.reason den Grund für die Blockierung. Wenn der Grund mit der Sicherheit zusammenhängt, enthält die Antwort auch das Feld SafetyFeedback mit den Sicherheitseinstellungen, die für diese Anfrage verwendet wurden, sowie eine Sicherheitsbewertung. Die Sicherheitsbewertung umfasst die Kategorie und die Wahrscheinlichkeit der Schadensklassifizierung. Die blockierten Inhalte werden nicht zurückgegeben.

Die zurückgegebene Wahrscheinlichkeit entspricht den Blockkonfidenzniveaus, wie in der folgenden Tabelle dargestellt:

Probability Beschreibung
VERTRAULICH Inhalte haben eine vernachlässigbare Wahrscheinlichkeit, dass sie unsicher sind
LOW Inhalte haben eine geringe Wahrscheinlichkeit, unsicher zu sein
MITTEL Inhalte haben eine mittlere Wahrscheinlichkeit, unsicher zu sein
HOCH Inhalte sind mit hoher Wahrscheinlichkeit unsicher

Wenn der Inhalt beispielsweise blockiert wurde, weil die Kategorie „Toxicity“ eine hohe Wahrscheinlichkeit hat, hätte die zurückgegebene Sicherheitsbewertung die Kategorie TOXICITY und die Schadenswahrscheinlichkeit auf HIGH gesetzt.

Sicherheitseinstellungen in Google AI Studio

Sie können diese Einstellungen auch in Google AI Studio vornehmen. Klicken Sie unter Ausführungseinstellungen auf Sicherheitseinstellungen bearbeiten:

Schaltfläche „Sicherheitseinstellungen“

Über die Regler kannst du die einzelnen Einstellungen anpassen:

Schaltfläche „Sicherheitseinstellungen“

Wenn der Inhalt blockiert ist, wird die Meldung Kein Inhalt angezeigt. Bewegen Sie den Mauszeiger über Kein Inhalt und klicken Sie auf Sicherheit, um weitere Details zu sehen.

Codebeispiele

In diesem Abschnitt wird gezeigt, wie Sie die Sicherheitseinstellungen im Code mithilfe der Python-Clientbibliothek verwenden.

Beispiel für Anfrage

Das folgende Python-Code-Snippet zeigt, wie Sicherheitseinstellungen in einem GenerateText-Aufruf festgelegt werden. Dadurch werden die Schadenskategorien Derogatory und Violence auf BLOCK_LOW_AND_ABOVE gesetzt. Dadurch werden alle Inhalte blockiert, die mit einer geringen oder höheren Wahrscheinlichkeit gewalttätig oder abwertend sind.

completion = genai.generate_text(
    model=model,
    prompt=prompt,
    safety_settings=[
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
    ]
)

Antwortbeispiel

Im Folgenden sehen Sie ein Code-Snippet zum Parsen des Sicherheitsfeedbacks aus der Antwort. Das Sicherheitsfeedback ist leer, es sei denn, der Grund für die Blockierung war eine der Sicherheitsdimensionen.

# First check the content filter reason
for filter in completion.filters:
    print(filter["reason"])

# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
    print(feedback["rating"])
    print(feedback["setting"])s

Nächste Schritte

  • Weitere Informationen zur vollständigen API finden Sie in der API-Referenz.
  • In den Sicherheitsrichtlinien finden Sie allgemeine Informationen zu Sicherheitsaspekten bei der Entwicklung mit LLMs.
  • Weitere Informationen zum Bewerten des Schweregrads von Wahrscheinlichkeit und Schweregrad erhalten Sie vom Jigsaw-Team.
  • Weitere Informationen zu Produkten, die zu Sicherheitslösungen wie der Perspective API beitragen
  • Anhand dieser Sicherheitseinstellungen können Sie einen Klassifikator für unangemessene Äußerungen erstellen. Sehen Sie sich zum Einstieg das Klassifizierungsbeispiel an.