Absicherungen für Ein- und Ausgabe erstellen

Generative KI-Anwendungen nutzen oft das Filtern von Ein- und Ausgabedaten. auch als Sicherheitsmaßnahmen bezeichnet, um ein verantwortungsvolles Modell verhalten. Mit Eingabe- und Ausgabefiltern werden die Daten geprüft, die in aus dem Modell den Richtlinien entspricht, für Ihre Anwendung definieren. Eingabeklassifikatoren dienen in der Regel zum Filtern die nicht zur Verwendung in Ihrer App bestimmt sind und dazu führen, dass Ihr Modell gegen Ihre Sicherheitsrichtlinien verstößt. Eingabefilter zielen häufig auf bösartige Angriffe, mit denen versucht wird, Ihre Inhaltsrichtlinien zu umgehen. Ausgabe Klassifikatoren funktionieren mit dem weiteren Filter Sicherheitstraining Modellausgabe, um generierte Ausgaben zu erfassen, die möglicherweise gegen Ihre Sicherheitsrichtlinien verstoßen. Wir empfehlen, Klassifikatoren zu verwenden, die alle Ihre Inhaltsrichtlinien abdecken.

Vorgefertigte Sicherheitsmaßnahmen

Auch nach vorheriger Feinabstimmung auf Sicherheit und einer gut gestalteten Vorlage für die Aufforderung dass Ihr Modell Inhalte ausgeben kann, die zu unbeabsichtigtem Schaden führen. Vordefinierte Inhaltsklassifikatoren bieten zusätzlichen Schutz dieses Potenzial für bestimmte Arten von Richtlinienverstößen weiter verringern.

ShieldGemma

ShieldGemma ist eine Reihe vorgefertigter, intuitiver, offener die auf Gemma 2 basieren und feststellen, ob von Nutzern bereitgestellte, modellgenerierte oder gemischte Inhalte gegen eine Richtlinie zur Sicherheit von Inhalten. ShieldGemma ist darauf trainiert, vier Schaden zu erkennen (sexuelle gefährliche Inhalte, Belästigung und Hassrede) der Parameter 2B, 9B und 27B, mit denen Sie Geschwindigkeit, Leistung und Generalisierbarkeit an Ihre Anforderungen anpassen – Bereitstellung. Auf der Modellkarte finden Sie weitere Informationen zu den Unterschied zwischen diesen Varianten.

Schützen Sie Ihre Modelle mit ShieldGemma

Google Colab (Keras) starten Google Colab (Transformers) starten

Sie können ShieldGemma-Modelle in den folgenden Frameworks verwenden.

API-basiert

Google bietet API-basierte Klassifikatoren für Inhaltssicherheit, mit denen Systemeingaben und -ausgaben filtern:

  • Die Perspective API ist kostenlos und verwendet maschinelle Lernmodelle, um die wahrgenommenen Auswirkungen eines Kommentars auf eine Gespräch. Sie liefert Werte, die die Wahrscheinlichkeit erfassen, ob ein Ein Kommentar ist unangemessen, bedrohlich, beleidigend oder nicht relevant.
  • Der Textmoderationsdienst ist eine Google Cloud API, kann unterhalb eines bestimmten Nutzungslimits verwendet werden. nutzt maschinelles Lernen, um ein Dokument anhand einer Liste von Sicherheitsmaßnahmen zu analysieren. verschiedene potenziell schädliche Kategorien und Themen, als sensibel eingestuft werden.

Sie sollten unbedingt prüfen, wie gut vorgefertigte Klassifikatoren Ihren Richtlinien entsprechen. und die Fälle mit Fehlern qualitativ bewerten. Außerdem ist es wichtig, Beachten Sie, dass eine übermäßige Filterung auch unbeabsichtigte Schäden zur Folge haben kann der Nützlichkeit der Anwendung. Daher ist es wichtig, auch die in denen zu viele Filter auftreten. Weitere Informationen zu einer solchen Bewertung Methoden finden Sie unter Modell und System auf Sicherheit bewerten.

Benutzerdefinierte Sicherheitsklassifikatoren erstellen

Es gibt mehrere Gründe, warum vordefinierte Sicherheitsmaßnahmen Ihren Anwendungsfall, z. B. eine nicht unterstützte Richtlinie oder der Wunsch, mit Daten, die sich auf Ihr System auswirken, Ihre Absicherung weiter. In In diesem Fall bieten agile Klassifikatoren flexibles Framework für die Erstellung benutzerdefinierter Sicherheitsmaßnahmen durch die Feinabstimmung von Modellen, z. B. Gemma, ganz nach Ihren Bedürfnissen. Außerdem haben Sie die volle Kontrolle darüber, wie sie bereitgestellt werden.

Tutorials zu agilen Klassifikatoren von Gemma

Codelab starten Google Colab starten

Im codelab für die agilen Klassifikatoren Tutorial: Mit LoRA ein Gemma optimieren Modell als Inhaltsmoderationsklassifikator mit KerasNLP Bibliothek. Mit nur 200 Beispielen aus dem ETHOS-Dataset Der Klassifikator erreicht einen F1-Wert von 0,80 und einen ROC-AUC-Wert. von 0,78, was im Vergleich zum Stand der Technik Bestenlistenergebnisse. Nach dem Training mit den 800 Beispielen wie die anderen Klassifikatoren in der Bestenliste, erreicht einen F1-Wert von 83,74 und einen ROC-AUC-Wert von 88,17. Sie können die Anleitung, um diesen Klassifikator weiter zu verfeinern oder einen eigenen Klassifikator zu erstellen von benutzerdefinierten Sicherheitsklassifikatoren.

Best Practices für die Einrichtung von Sicherheitsmaßnahmen

Die Verwendung von Sicherheitsklassifikatoren als Absicherung wird dringend empfohlen. Sie können jedoch können dazu führen, dass das generative Modell nichts für die wenn der Inhalt blockiert ist. Anwendungen müssen darauf ausgelegt sein. Fall. Die meisten Chatbots bewältigt dieses Problem mit vorgefertigten Antworten („Ich bin Tut mir leid, ich bin ein Sprachmodell und kann Ihnen bei dieser Anfrage nicht weiterhelfen.“)

Finde die richtige Balance zwischen Nützlichkeit und Harmlosigkeit: Wenn du Sicherheitsklassifikatoren kennen, machen sie Fehler, einschließlich falsch positiver Ergebnisse (z.B. die Behauptung, dass eine Ausgabe unsicher ist, wenn sie nicht) und falsch negative Ergebnisse (Ausgabe wird nicht als unsicher gekennzeichnet, wenn dies der Fall ist). Von der Auswertung von Klassifikatoren mit Messwerten wie F1, Precision, Recall und AUC-ROC, können Sie feststellen, wie Sie falsch-positive und falsch-positive Ergebnisse miteinander in Einklang bringen möchten. negative Fehler ein. Indem Sie den Schwellenwert von Klassifikatoren ändern, können Sie ideale Balance, um eine Überfilterung der Ausgaben zu vermeiden und gleichzeitig angemessene Sicherheit.

Klassifizierer auf unbeabsichtigte Verzerrungen prüfen:Sicherheitsklassifikatoren wie alle andere ML-Modelle, können unbeabsichtigte Voreingenommenheiten verbreiten, z. B. soziokulturelle und Klischees zu erkennen. Bewerbungen müssen angemessen auf mögliche problematische Verhaltensweisen. Mit Klassifikatoren für die Sicherheit bei Inhalten in Bezug auf Identitäten, die häufiger auf beleidigende Sprache im Internet. Als die Perspective API zum Beispiel bei der Einführung des Modells in den Kommentaren höhere Bewertungen für Toxizität zurückgegeben. auf bestimmte Identitätsgruppen verweisen (Blog). Dieser übermäßige Trigger kann es passieren, dass Kommentare, in denen Identitätsbegriffe erwähnt werden, Zielgruppen, die häufig angegriffen werden (z.B. Begriffe wie „Schwarz“, „muslimisch“, „feministisch“, „Frau“, „Schwul“ usw.) sind oft unangemessen. Wann Datasets Zugklassifikatoren weisen erhebliche Ungleichgewichte bei Kommentaren auf, die bestimmte können Klassifikatoren zu sehr verallgemeinern und alle Kommentare mit diesen Wörtern berücksichtigen. als wahrscheinlich unsicher. Hier erfahren Sie, wie das Jigsaw-Team abgeschwächt.

Ressourcen für Entwickler