Absicherungen für Ein- und Ausgabe erstellen

Generative AI-Anwendungen nutzen häufig die Filterung von Eingabe- und Ausgabedaten (auch als safeguards bezeichnet), um ein verantwortungsvolles Modellverhalten sicherzustellen. Methoden zur Eingabe- und Ausgabefilterung prüfen die in das Modell ein- und ausgehenden Daten.

Sicherheitsmechanismen und handelsübliche Sicherheitsklassifikatoren

Auch wenn Sie bereits eine Feinabstimmung für die Sicherheit und eine gut durchdachte Eingabeaufforderungsvorlage vorgenommen haben, kann Ihr Modell dennoch Inhalte ausgeben, die zu unbeabsichtigten Schäden führen. Inhaltsklassifikatoren können dies zusätzlich verhindern. Inhaltsklassifikatoren können sowohl auf Ein- als auch auf Ausgaben angewendet werden.

Eingabeklassifikatoren werden normalerweise zum Filtern von Inhalten verwendet, die nicht für Ihre Anwendung vorgesehen sind und dazu führen können, dass Ihr Modell gegen Ihre Sicherheitsrichtlinien verstößt. Eingabefilter zielen oft auf Angriffe ab, mit denen versucht wird, Ihre Inhaltsrichtlinien zu umgehen. Ausgabeklassifikatoren können die Modellausgabe weiter filtern und unbeabsichtigte Generierungen erkennen, die möglicherweise gegen Ihre Sicherheitsrichtlinien verstoßen. Wir empfehlen, Klassifikatoren zu verwenden, die alle Inhaltsrichtlinien abdecken.

Google hat Standardklassifikatoren für die Sicherheit von Inhalten entwickelt, mit denen Ein- und Ausgaben gefiltert werden können:

  • Die Perspective API ist eine kostenlose API. Sie verwendet Modelle für maschinelles Lernen, um die wahrgenommene Auswirkung eines Kommentars auf eine Unterhaltung zu bewerten. Die Bewertungen zeigen die Wahrscheinlichkeit, ob ein Kommentar unangemessen, bedrohlich, beleidigend, nicht zum Thema gehörend usw. ist.
  • Der Textmoderationsdienst ist eine Google Cloud API, die unter einem bestimmten Nutzungslimit verwendet werden kann. Dabei wird ein Dokument mithilfe von maschinellem Lernen anhand einer Liste von Sicherheitsattributen analysiert, einschließlich verschiedener potenziell schädlicher Kategorien und Themen, die als sensibel eingestuft werden können.

Es ist wichtig, abzuwägen, wie gut einsetzbare Klassifikatoren Ihre Richtlinienziele erfüllen, und die Fehlerfälle qualitativ qualitativ bewerten. Außerdem ist zu beachten, dass eine Überfilterung auch zu unbeabsichtigten Schäden und dem Nutzen der Anwendung führen kann. Daher ist es wichtig, auch Fälle zu prüfen, in denen eine Überfilterung auftritt. Weitere Informationen zu solchen Bewertungsmethoden finden Sie unter Modell und System auf Sicherheit bewerten.

Benutzerdefinierte Sicherheitsklassifikatoren erstellen

Wenn Ihre Richtlinie nicht durch eine handelsübliche API abgedeckt ist oder Sie einen eigenen Klassifikator erstellen möchten, bieten parametereffiziente Feinabstimmungstechniken wie Prompt-Abstimmung und LoRA ein effektives Framework. Bei diesen Methoden können Sie, anstatt das gesamte Modell zu optimieren, eine begrenzte Datenmenge verwenden, um eine kleine Gruppe wichtiger Parameter des Modells zu trainieren. Dadurch kann Ihr Modell mit relativ wenig Trainingsdaten und wenig Rechenleistung neue Verhaltensweisen erlernen, z. B. die Klassifizierung für Ihren neuen Sicherheitsanwendungsfall. Mit diesem Ansatz können Sie personalisierte Sicherheitstools für Ihre eigenen Nutzer und Aufgaben entwickeln.

Um zu veranschaulichen, wie dies funktioniert, zeigt dieses Codelab den Code an, der zum Einrichten eines „agilen Klassifikators“ erforderlich ist. Das Codelab zeigt die Schritte zum Aufnehmen und Formatieren von Daten für das LLM, zum Trainieren von LoRA-Gewichtungen und zum anschließenden Auswerten der Ergebnisse. Mit Gemma lassen sich diese leistungsstarken Klassifikatoren mit nur wenigen Codezeilen erstellen. Einen detaillierteren Überblick finden Sie in unserem Forschungsbericht Towards Agile Text Classifiers for Everyone, wie Sie diese Techniken nutzen können, um mit nur wenigen hundert Trainingsbeispielen eine Vielzahl von Sicherheitsaufgaben zu trainieren und so eine herausragende Leistung zu erzielen.

In diesem Tutorial kannst du mithilfe des ETHOS-Datasets, einem öffentlich verfügbaren Dataset zur Erkennung von Hassrede, das auf YouTube- und Reddit-Kommentaren basiert, einen Klassifikator für Hassreden trainieren. Wenn es mit dem kleineren Gemma-Modell trainiert wird, erreicht es nur bei 200 Beispielen (etwa 1⁄4 des Datasets) einen F1-Wert von 0,80 und einen ROC-AUC-Wert von 0,78. Dieses Ergebnis ist im Vergleich zu den hervorragenden Ergebnissen in dieser Bestenliste attraktiv. Beim Trainieren anhand der 800 Beispiele erreicht der Gemma-basierte agile Klassifikator wie die anderen Klassifikatoren in der Bestenliste einen F1-Wert von 83, 74 und einen ROC-AUC-Wert von 88, 17. Sie können diesen Klassifikator standardmäßig verwenden oder mit der Anleitung zum Gemma Agile Klassifikator anpassen.

Tutorials zum agilen Gemma-Klassifikator

Codelab starten Google Colab starten

Best Practices zum Einrichten von Sicherheitsmaßnahmen

Die Verwendung von Sicherheitsklassifikatoren wird dringend empfohlen. Schutzmaßnahmen können jedoch dazu führen, dass das generative Modell nichts für den Nutzer erstellt, wenn der Inhalt blockiert ist. Anwendungen müssen für diesen Fall konzipiert sein. Die meisten Chatbots bearbeiten dies, indem sie Antwortvorlagen bereitstellen („Es tut mir leid, ich bin ein Sprachmodell, ich kann Ihnen bei dieser Anfrage nicht helfen“).

Das richtige Gleichgewicht zwischen Nützlichkeit und Unbedenklichkeit finden: Bei der Verwendung von Sicherheitsklassifikatoren ist es wichtig zu verstehen, dass diese Fehler machen können. Dazu gehören sowohl falsch positive Ergebnisse (z. B. die Behauptung, eine Ausgabe sei unsicher, wenn sie nicht sicher ist) als auch falsch negative Ergebnisse (fehlendes Labeling einer Ausgabe als unsicher, wenn sie ist). Wenn Sie Klassifikatoren mit Messwerten wie F1, Precision, Recall und AUC-ROC bewerten, können Sie festlegen, wie Sie falsch positive und falsch negative Fehler gegeneinander abwägen möchten. Wenn Sie den Schwellenwert der Klassifikatoren ändern, finden Sie einen idealen Ausgleich, damit Ausgaben nicht zu stark herausgefiltert werden und Sie dennoch angemessene Sicherheit gewährleisten.

Klassifikatoren auf unbeabsichtigte Verzerrungen prüfen:Sicherheitsklassifikatoren können wie jedes andere ML-Modell unbeabsichtigte Verzerrungen wie soziokulturelle Stereotype propagieren. Anwendungen müssen im Hinblick auf potenziell problematisches Verhalten entsprechend bewertet werden. Klassifikatoren für die Inhaltssicherheit können eine Übertreibung bei Inhalten auslösen, die mit Identitäten zusammenhängen, die häufiger das Ziel von missbräuchlicher Sprache im Internet sind. Bei der erstmaligen Einführung der Perspective API gab das Modell beispielsweise eine höhere Bewertung von unangemessenen Äußerungen in Kommentaren zurück, die sich auf bestimmte Identitätsgruppen beziehen (Blog). Dieses übermäßige Auslösen kann passieren, weil Kommentare, in denen Identitätsbegriffe für häufiger angegriffene Gruppen erwähnt werden (z.B. Wörter wie „Schwarz“, „Muslim“, „Feminist“, „Frau“, „Schwul“ usw.), häufiger unangemessen sind. Wenn Datasets, die zum Trainieren von Klassifikatoren verwendet werden, erhebliche Ungleichgewichte bei Kommentaren mit bestimmten Wörtern haben, können Klassifikatoren zu allgemein gehalten werden und alle Kommentare mit diesen Wörtern als wahrscheinlich unsicher erachten. Lesen Sie, wie das Jigsaw-Team diese unbeabsichtigte Voreingenommenheit ausgemindert hat.

Ressourcen für Entwickler