Warnung:Die PaLM API wurde außer Betrieb genommen. Die PaLM API von Vertex AI wird im Oktober 2024 außer Betrieb genommen. Führen Sie ein Upgrade auf die Gemini API aus. Weitere Informationen finden Sie im Leitfaden zur Einstellung der PaLM API.

Diese Seite wurde von der Cloud Translation API übersetzt.

Sicherheitseinstellungen

Überblick

In diesem Leitfaden werden die anpassbaren Sicherheitseinstellungen der PaLM API beschrieben, die für den Textdienst verfügbar sind. Während der Prototyping-Phase können Sie die Sicherheitseinstellungen für sechs Dimensionen anpassen, um schnell zu beurteilen, ob Ihre Anwendung mehr oder weniger restriktive Konfiguration erfordert. Standardmäßig werden Inhalte mit mittlerer und/oder hoher Wahrscheinlichkeit in allen sechs Dimensionen als unsicher eingestuft. Diese Sicherheitsgrundlage wurde für die meisten Anwendungsfälle entwickelt. Daher sollten Sie Ihre Sicherheitseinstellungen nur dann anpassen, wenn sie für Ihre Anwendung immer erforderlich sind.

Sicherheitsfilter

Zusätzlich zu den anpassbaren Sicherheitsfiltern verfügt die PaLM API über integrierte Schutzmaßnahmen gegen Kernschäden, z. B. vor Inhalten, die den Schutz von Kindern gefährden. Solche Schäden werden immer blockiert und können nicht korrigiert werden.

Die anpassbaren Sicherheitsfilter umfassen die folgenden Kategorien:

Hassreden
Unangemessen
Sexuelle Inhalte
Gewaltverherrlichend
Medizinische Versorgungseinrichtung
Gefährlich

Mit diesen Einstellungen können Sie als Entwickler bestimmen, was für Ihren Anwendungsfall geeignet ist. Wenn Sie beispielsweise ein Videospieldialog erstellen, können Sie es für akzeptabel halten, mehr Inhalte zuzulassen, die aufgrund der Art des Spiels als gewalttätig oder gefährlich eingestuft werden. Hier sind einige weitere Beispielanwendungsfälle, die bei diesen Sicherheitseinstellungen möglicherweise etwas Flexibilität erfordern:

Anwendungsfall	Kategorie
Trainings-App gegen Belästigung	Abwertend, sexuell, unangemessen
Medizinische Prüfungsvorbereitung	Medizinische Versorgungseinrichtung
Drehbuchautor	Gewaltverherrlichend, sexuell, medizinisch, gefährlich
Klassifikator für unangemessene Äußerungen	Unangemessen, abwertend

Wahrscheinlichkeit vs. Schweregrad

Die PaLM API blockiert Inhalte auf Grundlage der Wahrscheinlichkeit, dass die Inhalte unsicher sind, und nicht aufgrund ihres Schweregrads. Das ist wichtig, da die Wahrscheinlichkeit, unsicher zu sein, bei manchen Inhalten gering ist, auch wenn der Schweregrad des Schadens weiterhin hoch sein kann. Zum Beispiel können Sie die Sätze vergleichen:

Der Roboter hat mich geboxt.
Der Roboter hat mich in Stücke geschnitten.

Satz 1 kann zu einer höheren Wahrscheinlichkeit führen, dass er unsicher ist, aber Satz 2 könnte eine höhere Gewalt in Bezug auf Gewalt haben.

Daher ist es wichtig, dass alle Entwickler sorgfältig testen und überlegen, welche Blockierung erforderlich ist, um die wichtigsten Anwendungsfälle abzudecken und gleichzeitig den Schaden für Endnutzer so gering wie möglich zu halten.

Sicherheitseinstellungen

Die Sicherheitseinstellungen sind Teil der Anfrage, die Sie an den SMS-Dienst senden. Sie kann für jede Anfrage an die API angepasst werden. In der folgenden Tabelle sind die Kategorien aufgeführt, die du festlegen kannst, sowie die Art des Schadens, den jede Kategorie betrifft.

Kategorien	Beschreibungen
Hassreden	Negative oder schädliche Kommentare, die auf Identität und/oder geschützte Merkmale abzielen.
Unangemessen	Unhöfliche, respektlose oder vulgäre Inhalte.
Sexuelle Inhalte	Verweise auf sexuelle Handlungen oder andere anzügliche Inhalte.
Gewalttätig	Beschreibt Szenarien, in denen Gewalt gegen eine Person oder Gruppe dargestellt wird, oder allgemein blutrünstige Inhalte.
Gefährlich	Inhalte, die schädliche Handlungen fördern, erleichtern oder dazu aufrufen.
Medizinische Versorgungseinrichtung	Inhalte im Zusammenhang mit medizinischen Themen

Diese Definitionen finden Sie auch in der API-Referenz.

In der folgenden Tabelle werden die Blockeinstellungen beschrieben, die Sie für jede Kategorie anpassen können. Wenn Sie beispielsweise die Einstellung zum Blockieren für die Kategorie Hassrede auf Nur wenige blockieren setzen, werden alle Elemente blockiert, die mit hoher Wahrscheinlichkeit abwertende Inhalte sind. Alles mit einer geringeren Wahrscheinlichkeit ist jedoch zulässig.

Wenn die Richtlinie nicht konfiguriert ist, wird je nach Richtlinienkategorie die Standardeinstellung Einige blockieren oder Die meisten blockieren verwendet.

Grenzwert (Google AI Studio)	Grenzwert (API)	Beschreibung
Keine blockieren	BLOCK_NONE	Immer anzeigen, unabhängig von der Wahrscheinlichkeit von unsicheren Inhalten
Wenige blockieren	BLOCK_ONLY_HIGH	Blockieren, wenn die Wahrscheinlichkeit für unsichere Inhalte hoch ist
Einige blockieren (Standardeinstellung für sexuelle, gewalttätige, gefährliche und medizinische Inhalte)	BLOCK_MEDIUM_AND_ABOVE	Blockieren, wenn die Wahrscheinlichkeit für unsichere Inhalte mittel oder hoch ist
Meiste blockieren (Standardeinstellung für abwertende und unangemessene Äußerungen)	BLOCK_LOW_AND_ABOVE	Blockieren, wenn die Wahrscheinlichkeit für unsichere Inhalte gering, mittel oder hoch ist
	HARM_BLOCK_THRESHOLD_UNSPECIFIED	Grenzwert ist nicht angegeben; Standardgrenzwert wird verwendet

Sie können diese Einstellungen für jede Anfrage an den SMS-Dienst festlegen. Weitere Informationen finden Sie in der API-Referenz HarmBlockThreshold.

Feedback zur Sicherheit

Wenn Inhalte blockiert wurden, enthält die Antwort der API im Feld ContentFilter.reason den Grund für die Blockierung. Wenn der Grund mit der Sicherheit zusammenhängt, enthält die Antwort auch das Feld SafetyFeedback mit den Sicherheitseinstellungen, die für diese Anfrage verwendet wurden, sowie eine Sicherheitsbewertung. Die Sicherheitsbewertung umfasst die Kategorie und die Wahrscheinlichkeit der Schadensklassifizierung. Die blockierten Inhalte werden nicht zurückgegeben.

Die zurückgegebene Wahrscheinlichkeit entspricht den Blockkonfidenzniveaus, wie in der folgenden Tabelle dargestellt:

Probability	Beschreibung
VERTRAULICH	Inhalte haben eine vernachlässigbare Wahrscheinlichkeit, dass sie unsicher sind
LOW	Inhalte haben eine geringe Wahrscheinlichkeit, unsicher zu sein
MITTEL	Inhalte haben eine mittlere Wahrscheinlichkeit, unsicher zu sein
HOCH	Inhalte sind mit hoher Wahrscheinlichkeit unsicher

Wenn der Inhalt beispielsweise blockiert wurde, weil die Kategorie „Toxicity“ eine hohe Wahrscheinlichkeit hat, hätte die zurückgegebene Sicherheitsbewertung die Kategorie TOXICITY und die Schadenswahrscheinlichkeit auf HIGH gesetzt.

Sicherheitseinstellungen in Google AI Studio

Sie können diese Einstellungen auch in Google AI Studio vornehmen. Klicken Sie unter Ausführungseinstellungen auf Sicherheitseinstellungen bearbeiten:

Schaltfläche „Sicherheitseinstellungen“

Über die Regler kannst du die einzelnen Einstellungen anpassen:

Schaltfläche „Sicherheitseinstellungen“

Wenn der Inhalt blockiert ist, wird die Meldung Kein Inhalt angezeigt. Bewegen Sie den Mauszeiger über Kein Inhalt und klicken Sie auf Sicherheit, um weitere Details zu sehen.

Codebeispiele

In diesem Abschnitt wird gezeigt, wie Sie die Sicherheitseinstellungen im Code mithilfe der Python-Clientbibliothek verwenden.

Beispiel für Anfrage

Das folgende Python-Code-Snippet zeigt, wie Sicherheitseinstellungen in einem GenerateText-Aufruf festgelegt werden. Dadurch werden die Schadenskategorien Derogatory und Violence auf BLOCK_LOW_AND_ABOVE gesetzt. Dadurch werden alle Inhalte blockiert, die mit einer geringen oder höheren Wahrscheinlichkeit gewalttätig oder abwertend sind.

completion = genai.generate_text(
    model=model,
    prompt=prompt,
    safety_settings=[
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
    ]
)

Antwortbeispiel

Im Folgenden sehen Sie ein Code-Snippet zum Parsen des Sicherheitsfeedbacks aus der Antwort. Das Sicherheitsfeedback ist leer, es sei denn, der Grund für die Blockierung war eine der Sicherheitsdimensionen.

# First check the content filter reason
for filter in completion.filters:
    print(filter["reason"])

# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
    print(feedback["rating"])
    print(feedback["setting"])s

Nächste Schritte

Weitere Informationen zur vollständigen API finden Sie in der API-Referenz.
In den Sicherheitsrichtlinien finden Sie allgemeine Informationen zu Sicherheitsaspekten bei der Entwicklung mit LLMs.
Weitere Informationen zum Bewerten des Schweregrads von Wahrscheinlichkeit und Schweregrad erhalten Sie vom Jigsaw-Team.
Weitere Informationen zu Produkten, die zu Sicherheitslösungen wie der Perspective API beitragen
Anhand dieser Sicherheitseinstellungen können Sie einen Klassifikator für unangemessene Äußerungen erstellen. Sehen Sie sich zum Einstieg das Klassifizierungsbeispiel an.

Sicherheits­einstellungen

Überblick

Sicherheitsfilter

Wahrscheinlichkeit vs. Schweregrad

Sicherheitseinstellungen

Feedback zur Sicherheit

Sicherheitseinstellungen in Google AI Studio

Codebeispiele

Beispiel für Anfrage

Antwortbeispiel

Nächste Schritte

Sicherheitseinstellungen