Absicherungen für Ein- und Ausgabe erstellen

Generative KI-Anwendungen nutzen oft das Filtern von Ein- und Ausgabedaten. auch als Sicherheitsmaßnahmen bezeichnet, um ein verantwortungsvolles Modell verhalten. Mit Eingabe- und Ausgabefiltern werden die Daten geprüft, die in aus dem Modell den Richtlinien entspricht, für Ihre Anwendung definieren.

Vorgefertigte Sicherheitsmaßnahmen

Auch nach vorheriger Feinabstimmung auf Sicherheit und einer gut durchdachten Prompt-Vorlage dass Ihr Modell Inhalte ausgeben kann, die zu unbeabsichtigtem Schaden führen. Um dies zu vereinfachen, können Inhaltsklassifikatoren eine zusätzliche Ebene zu schützen. Inhaltsklassifikatoren können sowohl auf Ein- als auch Ausgaben angewendet werden.

Eingabeklassifikatoren werden in der Regel verwendet, um Inhalte zu filtern, die nicht verwendet werden, und was dazu führen kann, dass Ihr Modell gegen Sicherheitsrichtlinien. Eingabefilter zielen häufig auf bösartige Angriffe ab, bei denen um Ihre Inhaltsrichtlinien zu umgehen. Ausgabeklassifikatoren können Modelle weiter filtern, unbeabsichtigte Generierungen abfangen, die möglicherweise gegen deine Sicherheitsrichtlinien verstoßen. Wir empfehlen, Klassifikatoren zu verwenden, die alle Ihre Inhaltsrichtlinien abdecken.

Google bietet API-basierte Klassifikatoren für Inhaltssicherheit, mit denen Systemeingaben und -ausgaben filtern:

  • Die Perspective API ist eine kostenlose API, die auf maschinellem Lernen basiert Lernmodelle, um die wahrgenommenen Auswirkungen eines Kommentars auf eine Gespräch. Sie liefert Werte, die die Wahrscheinlichkeit erfassen, ob ein Ein Kommentar ist unangemessen, bedrohlich, beleidigend oder nicht relevant.
  • Der Textmoderationsdienst ist eine Google Cloud API, kann unterhalb eines bestimmten Nutzungslimits verwendet werden. nutzt maschinelles Lernen, um ein Dokument anhand einer Liste von Sicherheitsmaßnahmen zu analysieren. einschließlich verschiedener potenziell schädlicher Kategorien und Themen, als sensibel eingestuft werden.

Sie sollten unbedingt prüfen, wie gut vorgefertigte Klassifikatoren Ihren Richtlinien entsprechen. und Fehler qualitativ bewerten. Außerdem ist es wichtig, Beachten Sie, dass eine übermäßige Filterung auch unbeabsichtigte Schäden zur Folge haben kann der Nützlichkeit der Anwendung. Daher ist es wichtig, auch die in denen zu viele Filter auftreten. Weitere Informationen zu einer solchen Bewertung Methoden finden Sie unter Modell und System auf Sicherheit bewerten.

Benutzerdefinierte Sicherheitsklassifikatoren erstellen

Es gibt mehrere Gründe, warum vordefinierte Sicherheitsmaßnahmen Ihren Anwendungsfall, z. B. eine nicht unterstützte Richtlinie oder der Wunsch, mit Daten, die sich auf Ihr System auswirken, Ihre Absicherung weiter. In In diesem Fall bieten agile Klassifikatoren flexibles Framework für benutzerdefinierte Sicherheitsmaßnahmen durch die Feinabstimmung von Modellen, z. B. Gemma, ganz nach Ihren Bedürfnissen. Außerdem haben Sie die volle Kontrolle darüber, wie sie bereitgestellt werden.

Tutorials zu agilen Klassifikatoren von Gemma

<ph type="x-smartling-placeholder"></ph> Codelab starten <ph type="x-smartling-placeholder"></ph> Google Colab starten

Im codelab für die agilen Klassifikatoren Tutorial: Mit LoRA ein Gemma optimieren Modell als Inhaltsmoderationsklassifikator mit KerasNLP Bibliothek. Mit nur 200 Beispielen aus dem ETHOS-Dataset Der Klassifikator erreicht einen F1-Wert von 0,80 und einen ROC-AUC-Wert. von 0,78, was im Vergleich zum Stand der Technik Bestenlistenergebnisse. Nach dem Training mit den 800 Beispielen wie die anderen Klassifikatoren in der Bestenliste, erreicht einen F1-Wert von 83,74 und einen ROC-AUC-Wert von 88,17. Sie können die Anleitung, um diesen Klassifikator weiter zu verfeinern oder einen eigenen Klassifikator zu erstellen von benutzerdefinierten Sicherheitsklassifikatoren.

Best Practices für die Einrichtung von Sicherheitsmaßnahmen

Die Verwendung von Sicherheitsklassifikatoren als Absicherung wird dringend empfohlen. Sie können jedoch können dazu führen, dass das generative Modell nichts für die wenn der Inhalt blockiert ist. Anwendungen müssen darauf ausgelegt sein Fall. Die meisten Chatbots bewältigt dieses Problem mit vorgefertigten Antworten („Ich bin Tut mir leid, ich bin ein Sprachmodell und kann Ihnen bei dieser Anfrage nicht weiterhelfen.“)

Finde die richtige Balance zwischen Nützlichkeit und Harmlosigkeit: Wenn du Sicherheitsklassifikatoren kennen, ist es wichtig zu verstehen, dass sie Fehler machen, einschließlich falsch positiver Ergebnisse (z.B. die Behauptung, dass eine Ausgabe unsicher ist, wenn sie nicht) und falsch negative Ergebnisse (Ausgabe wird nicht als unsicher gekennzeichnet, wenn dies der Fall ist). Von der Auswertung von Klassifikatoren mit Messwerten wie F1, Precision, Recall und AUC-ROC, können Sie feststellen, wie Sie falsch-positive und falsch-positive Ergebnisse miteinander in Einklang bringen möchten. negative Fehler ein. Indem Sie den Schwellenwert von Klassifikatoren ändern, können Sie ideale Balance, um eine Überfilterung der Ausgaben zu vermeiden und gleichzeitig angemessene Sicherheit.

Klassifizierer auf unbeabsichtigte Verzerrungen prüfen:Sicherheitsklassifikatoren wie alle andere ML-Modelle, können unbeabsichtigte Voreingenommenheiten verbreiten, z. B. soziokulturelle und Klischees zu erkennen. Bewerbungen müssen angemessen auf mögliche problematische Verhaltensweisen. Mit Klassifikatoren für die Sicherheit bei Inhalten in Bezug auf Identitäten, die häufiger auf beleidigende Sprache im Internet. Als die Perspective API zum Beispiel bei der Einführung des Modells in den Kommentaren höhere Bewertungen für Toxizität zurückgegeben. auf bestimmte Identitätsgruppen verweisen (Blog). Diese übermäßige kann es passieren, dass Kommentare, in denen Identitätsbegriffe erwähnt werden, Zielgruppen, die häufig angegriffen werden (z.B. Begriffe wie „Schwarz“, „muslimisch“, „feministisch“, „Frau“, „Schwul“ usw.) sind oft unangemessen. Wann Datasets Zugklassifikatoren weisen erhebliche Ungleichgewichte bei Kommentaren auf, die bestimmte können Klassifikatoren zu sehr verallgemeinern und alle Kommentare mit diesen Wörtern berücksichtigen. als wahrscheinlich unsicher. Hier erfahren Sie, wie das Jigsaw-Team abgeschwächt.

Ressourcen für Entwickler