Überblick
In diesem Leitfaden werden die anpassbaren Sicherheitseinstellungen der PaLM API beschrieben, die für den Textdienst verfügbar sind. Während der Prototyping-Phase können Sie die Sicherheitseinstellungen für sechs Dimensionen anpassen, um schnell zu beurteilen, ob Ihre Anwendung mehr oder weniger restriktive Konfiguration erfordert. Standardmäßig werden Inhalte mit mittlerer und/oder hoher Wahrscheinlichkeit in allen sechs Dimensionen als unsicher eingestuft. Diese Sicherheitsgrundlage wurde für die meisten Anwendungsfälle entwickelt. Daher sollten Sie Ihre Sicherheitseinstellungen nur dann anpassen, wenn sie für Ihre Anwendung immer erforderlich sind.
Sicherheitsfilter
Zusätzlich zu den anpassbaren Sicherheitsfiltern verfügt die PaLM API über integrierte Schutzmaßnahmen gegen Kernschäden, z. B. vor Inhalten, die den Schutz von Kindern gefährden. Solche Schäden werden immer blockiert und können nicht korrigiert werden.
Die anpassbaren Sicherheitsfilter umfassen die folgenden Kategorien:
- Hassreden
- Unangemessen
- Sexuelle Inhalte
- Gewaltverherrlichend
- Medizinische Versorgungseinrichtung
- Gefährlich
Mit diesen Einstellungen können Sie als Entwickler bestimmen, was für Ihren Anwendungsfall geeignet ist. Wenn Sie beispielsweise ein Videospieldialog erstellen, können Sie es für akzeptabel halten, mehr Inhalte zuzulassen, die aufgrund der Art des Spiels als gewalttätig oder gefährlich eingestuft werden. Hier sind einige weitere Beispielanwendungsfälle, die bei diesen Sicherheitseinstellungen möglicherweise etwas Flexibilität erfordern:
Anwendungsfall | Kategorie |
---|---|
Trainings-App gegen Belästigung | Abwertend, sexuell, unangemessen |
Medizinische Prüfungsvorbereitung | Medizinische Versorgungseinrichtung |
Drehbuchautor | Gewaltverherrlichend, sexuell, medizinisch, gefährlich |
Klassifikator für unangemessene Äußerungen | Unangemessen, abwertend |
Wahrscheinlichkeit vs. Schweregrad
Die PaLM API blockiert Inhalte auf Grundlage der Wahrscheinlichkeit, dass die Inhalte unsicher sind, und nicht aufgrund ihres Schweregrads. Das ist wichtig, da die Wahrscheinlichkeit, unsicher zu sein, bei manchen Inhalten gering ist, auch wenn der Schweregrad des Schadens weiterhin hoch sein kann. Zum Beispiel können Sie die Sätze vergleichen:
- Der Roboter hat mich geboxt.
- Der Roboter hat mich in Stücke geschnitten.
Satz 1 kann zu einer höheren Wahrscheinlichkeit führen, dass er unsicher ist, aber Satz 2 könnte eine höhere Gewalt in Bezug auf Gewalt haben.
Daher ist es wichtig, dass alle Entwickler sorgfältig testen und überlegen, welche Blockierung erforderlich ist, um die wichtigsten Anwendungsfälle abzudecken und gleichzeitig den Schaden für Endnutzer so gering wie möglich zu halten.
Sicherheitseinstellungen
Die Sicherheitseinstellungen sind Teil der Anfrage, die Sie an den SMS-Dienst senden. Sie kann für jede Anfrage an die API angepasst werden. In der folgenden Tabelle sind die Kategorien aufgeführt, die du festlegen kannst, sowie die Art des Schadens, den jede Kategorie betrifft.
Kategorien | Beschreibungen |
---|---|
Hassreden | Negative oder schädliche Kommentare, die auf Identität und/oder geschützte Merkmale abzielen. |
Unangemessen | Unhöfliche, respektlose oder vulgäre Inhalte. |
Sexuelle Inhalte | Verweise auf sexuelle Handlungen oder andere anzügliche Inhalte. |
Gewalttätig | Beschreibt Szenarien, in denen Gewalt gegen eine Person oder Gruppe dargestellt wird, oder allgemein blutrünstige Inhalte. |
Gefährlich | Inhalte, die schädliche Handlungen fördern, erleichtern oder dazu aufrufen. |
Medizinische Versorgungseinrichtung | Inhalte im Zusammenhang mit medizinischen Themen |
Diese Definitionen finden Sie auch in der API-Referenz.
In der folgenden Tabelle werden die Blockeinstellungen beschrieben, die Sie für jede Kategorie anpassen können. Wenn Sie beispielsweise die Einstellung zum Blockieren für die Kategorie Hassrede auf Nur wenige blockieren setzen, werden alle Elemente blockiert, die mit hoher Wahrscheinlichkeit abwertende Inhalte sind. Alles mit einer geringeren Wahrscheinlichkeit ist jedoch zulässig.
Wenn die Richtlinie nicht konfiguriert ist, wird je nach Richtlinienkategorie die Standardeinstellung Einige blockieren oder Die meisten blockieren verwendet.
Grenzwert (Google AI Studio) | Grenzwert (API) | Beschreibung |
---|---|---|
Keine blockieren | BLOCK_NONE | Immer anzeigen, unabhängig von der Wahrscheinlichkeit von unsicheren Inhalten |
Wenige blockieren | BLOCK_ONLY_HIGH | Blockieren, wenn die Wahrscheinlichkeit für unsichere Inhalte hoch ist |
Einige blockieren (Standardeinstellung für sexuelle, gewalttätige, gefährliche und medizinische Inhalte) | BLOCK_MEDIUM_AND_ABOVE | Blockieren, wenn die Wahrscheinlichkeit für unsichere Inhalte mittel oder hoch ist |
Meiste blockieren (Standardeinstellung für abwertende und unangemessene Äußerungen) | BLOCK_LOW_AND_ABOVE | Blockieren, wenn die Wahrscheinlichkeit für unsichere Inhalte gering, mittel oder hoch ist |
HARM_BLOCK_THRESHOLD_UNSPECIFIED | Grenzwert ist nicht angegeben; Standardgrenzwert wird verwendet |
Sie können diese Einstellungen für jede Anfrage an den SMS-Dienst festlegen. Weitere Informationen finden Sie in der API-Referenz HarmBlockThreshold
.
Feedback zur Sicherheit
Wenn Inhalte blockiert wurden, enthält die Antwort der API im Feld ContentFilter.reason
den Grund für die Blockierung. Wenn der Grund mit der Sicherheit zusammenhängt, enthält die Antwort auch das Feld SafetyFeedback
mit den Sicherheitseinstellungen, die für diese Anfrage verwendet wurden, sowie eine Sicherheitsbewertung. Die Sicherheitsbewertung umfasst die Kategorie und die Wahrscheinlichkeit der Schadensklassifizierung. Die blockierten Inhalte werden nicht zurückgegeben.
Die zurückgegebene Wahrscheinlichkeit entspricht den Blockkonfidenzniveaus, wie in der folgenden Tabelle dargestellt:
Probability | Beschreibung |
---|---|
VERTRAULICH | Inhalte haben eine vernachlässigbare Wahrscheinlichkeit, dass sie unsicher sind |
LOW | Inhalte haben eine geringe Wahrscheinlichkeit, unsicher zu sein |
MITTEL | Inhalte haben eine mittlere Wahrscheinlichkeit, unsicher zu sein |
HOCH | Inhalte sind mit hoher Wahrscheinlichkeit unsicher |
Wenn der Inhalt beispielsweise blockiert wurde, weil die Kategorie „Toxicity“ eine hohe Wahrscheinlichkeit hat, hätte die zurückgegebene Sicherheitsbewertung die Kategorie TOXICITY
und die Schadenswahrscheinlichkeit auf HIGH
gesetzt.
Sicherheitseinstellungen in Google AI Studio
Sie können diese Einstellungen auch in Google AI Studio vornehmen. Klicken Sie unter Ausführungseinstellungen auf Sicherheitseinstellungen bearbeiten:
Über die Regler kannst du die einzelnen Einstellungen anpassen:
Wenn der Inhalt blockiert ist, wird die Meldung
Kein Inhalt angezeigt. Bewegen Sie den Mauszeiger über Kein Inhalt und klicken Sie auf Sicherheit, um weitere Details zu sehen.Codebeispiele
In diesem Abschnitt wird gezeigt, wie Sie die Sicherheitseinstellungen im Code mithilfe der Python-Clientbibliothek verwenden.
Beispiel für Anfrage
Das folgende Python-Code-Snippet zeigt, wie Sicherheitseinstellungen in einem GenerateText
-Aufruf festgelegt werden. Dadurch werden die Schadenskategorien Derogatory
und Violence
auf BLOCK_LOW_AND_ABOVE
gesetzt. Dadurch werden alle Inhalte blockiert, die mit einer geringen oder höheren Wahrscheinlichkeit gewalttätig oder abwertend sind.
completion = genai.generate_text(
model=model,
prompt=prompt,
safety_settings=[
{
"category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
{
"category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
]
)
Antwortbeispiel
Im Folgenden sehen Sie ein Code-Snippet zum Parsen des Sicherheitsfeedbacks aus der Antwort. Das Sicherheitsfeedback ist leer, es sei denn, der Grund für die Blockierung war eine der Sicherheitsdimensionen.
# First check the content filter reason
for filter in completion.filters:
print(filter["reason"])
# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
print(feedback["rating"])
print(feedback["setting"])s
Nächste Schritte
- Weitere Informationen zur vollständigen API finden Sie in der API-Referenz.
- In den Sicherheitsrichtlinien finden Sie allgemeine Informationen zu Sicherheitsaspekten bei der Entwicklung mit LLMs.
- Weitere Informationen zum Bewerten des Schweregrads von Wahrscheinlichkeit und Schweregrad erhalten Sie vom Jigsaw-Team.
- Weitere Informationen zu Produkten, die zu Sicherheitslösungen wie der Perspective API beitragen
- Anhand dieser Sicherheitseinstellungen können Sie einen Klassifikator für unangemessene Äußerungen erstellen. Sehen Sie sich zum Einstieg das Klassifizierungsbeispiel an.