Produkte für generative KI (Generative AI) sind relativ neu und ihr Verhalten kann sich stärker unterscheiden als bei früheren Formen von Software. Die Sicherheitsvorkehrungen, die Ihr Produkt vor Missbrauch von GenAI-Funktionen schützen, müssen entsprechend angepasst werden. In diesem Leitfaden wird beschrieben, wie Sie die Einhaltung von Inhaltsrichtlinien umsetzen. Prüf- und Wasserzeichentools zum Schutz Ihrer auf generativer KI basierenden Produkte.
Einhaltung der Inhaltsrichtlinien
Selbst nach vorheriger Abstimmung auf die Sicherheit und einem Prompt-Vorlage, können Sie mit Ihrer generativen KI zur Ausgabe von Inhalten, die zu unbeabsichtigten Schäden führen. Bei GenAI-Produkten wird häufig eine Eingabe- und Ausgabefilterung verwendet, um ein verantwortungsbewusstes Modellverhalten zu gewährleisten. Diese Techniken überprüfen, ob die Daten, die in das Modell einfließen oder aus ihm herauskommen, den Richtlinien entsprechen, Richtlinien, häufig durch zusätzliche Sicherheitstraining, um ein Inhaltsklassifikatormodell zu erstellen.
Eingabeklassifikatoren werden verwendet, um Inhalte zu filtern, die direkt oder Ihr Modell dazu zu bringen, Inhalte zu generieren, die gegen Ihre Inhaltsrichtlinien verstoßen. Eingabe Filter zielen häufig auf bösartige Angriffe ab, mit denen versucht wird, deine Inhalte zu umgehen. Richtlinien.
Ausgabeklassifikatoren filtern die Modellausgabe und erfassen generierte Inhalte, die gegen Ihre Sicherheitsrichtlinien. Wenn Sie das Verhalten bei der Ablehnung von Inhalten genau beobachten, können Sie neue Arten von Prompts finden, mit denen sich Eingabefilter ergänzen oder verbessern lassen.
Wir empfehlen, Klassifikatoren zu verwenden, die alle Ihre Inhaltsrichtlinien abdecken. Hierzu können Sie vorgefertigte Klassifikatoren verwenden. müssen Sie möglicherweise benutzerdefinierte Klassifikatoren erstellen, Ihre spezifischen Richtlinien.
Auch die Ausgewogenheit ist wichtig. Eine zu starke Filterung kann zu unbeabsichtigten Schäden führen oder die Nützlichkeit der Anwendung beeinträchtigen. Prüfen Sie daher die Fälle, in denen eine zu starke Filterung auftreten könnte. Weitere Informationen finden Sie im Leitfaden zur Sicherheitsbewertung.
Klassifikatoren für vorgefertigte Inhaltsrichtlinien
Vordefinierte Inhaltsklassifikatoren bieten dem Modell eine zusätzliche Sicherheitsebene, wodurch das Risiko bestimmter Arten von Richtlinienverstößen weiter gesenkt wird. Es gibt in der Regel zwei Arten:
- Selbst gehostete Klassifikatoren wie ShieldGemma können heruntergeladen und auf einer Vielzahl von Architekturen gehostet werden, einschließlich Cloud-Plattformen wie Google Cloud und privater Hardware. Einige Klassifikatoren können sogar für mobile Anwendungen auf dem Gerät ausgeführt werden.
- API-basierte Klassifikatoren werden als Dienste bereitgestellt, die eine Klassifizierung mit hoher Auslastung und niedriger Latenz anhand verschiedener Richtlinien ermöglichen. Google bietet drei Dienste an, die für Sie interessant sein könnten:
- Checks AI Safety bietet Compliance-Bewertungen und Dashboards, die die Modellbewertung und das Monitoring unterstützen. Die KI-Sicherheitsfunktionen Tool in der offenen Betaphase ist, melden Sie sich an, um Neuigkeiten, und Demos.
- Der Textmoderationsdienst ist eine Google Cloud API zur Analyse von Texten auf Sicherheitsverstöße, einschließlich schädlicher Kategorien und sensible Themen. Dabei gelten die Nutzungsraten.
- Die Perspective API ist eine kostenlose API, die auf maschinellem Lernen basiert Lernmodelle, um die wahrgenommenen Auswirkungen eines Kommentars auf eine Gespräch. Sie liefert Werte, die die Wahrscheinlichkeit erfassen, Ein Kommentar ist unangemessen, bedrohlich, beleidigend oder nicht relevant.
Es ist wichtig, zu bewerten, inwiefern vorgefertigte Klassifikatoren Ihre Richtlinienziele erfüllen, und die Fehlerfälle qualitativ zu bewerten.
Benutzerdefinierte Klassifikatoren für Inhaltsrichtlinien
Klassifikatoren für vorgefertigte Inhaltsrichtlinien sind ein guter Ausgangspunkt, Einschränkungen, einschließlich:
- Eine feste Richtlinientaxonomie, die möglicherweise nicht allen Ihren Inhaltsrichtlinien zugeordnet ist oder diese nicht abdeckt.
- Hardware- und Verbindungsanforderungen, die möglicherweise nicht für die Umgebung geeignet sind, in der Ihre GenAI-gestützte Anwendung bereitgestellt wird.
- Preise und andere Nutzungsbeschränkungen.
Benutzerdefinierte Klassifikatoren für Inhaltsrichtlinien können eine Möglichkeit sein, diese Einschränkungen zu berücksichtigen. Die Methode der agilen Klassifikatoren bietet ein effizientes und flexibles Framework für deren Erstellung. Da mit dieser Methode ein Modell aus Sicherheitsgründen optimiert wird, sollten Sie sich die Grundlagen der Modelloptimierung ansehen.
KI-generierte Inhalte mit SynthID-Text-Wasserzeichen identifizieren
Bisher konnten mit generativer KI vielfältige, vielfältige Inhalte generiert werden. unvorstellbar. Obwohl diese Art der Nutzung größtenteils legitim ist, gibt es dass sie zu Fehlinformationen und falscher Namensnennung beitragen könnten. Wasserzeichen sind eine Technik, um diese potenziellen Auswirkungen zu verringern. KI-generierte Inhalte können mit Wasserzeichen versehen werden, die für Menschen nicht wahrnehmbar sind. Erkennungsmodelle können beliebige Inhalte bewerten, um die Wahrscheinlichkeit anzugeben, dass sie mit einem Wasserzeichen versehen wurden.
SynthID ist eine DeepMind-Technologie von Google, die identifiziert KI-generierte Inhalte, indem digitale Wasserzeichen direkt in KI-generierte Bilder, Audio, Text oder Video SynthID Text ist für die Produktion in Hugging Face Transformers verfügbar, siehe Forschungspapier und Dokumente für weitere Informationen zur Verwendung von SynthID in Ihrer Anwendung.
Google Cloud bietet Vertex AI-Kunden SynthID-Wasserzeichenfunktionen für andere Modalitäten wie von Imagen generierte Bilder.
Best Practices für die Einrichtung von Sicherheitsmaßnahmen
Wir empfehlen dringend, Sicherheitsklassifikatoren als Sicherheitsmaßnahmen zu verwenden. Sie können jedoch können dazu führen, dass das generative Modell nichts für die wenn der Inhalt blockiert ist. Anwendungen müssen darauf ausgelegt sein. Fall. Die meisten beliebten Chatbots reagieren in solchen Fällen mit vorgefertigten Antworten („Tut mir leid, ich bin ein Sprachmodell und kann Ihnen bei dieser Anfrage nicht helfen“).
Finde die richtige Balance zwischen Nützlichkeit und Harmlosigkeit: Wenn du Sicherheitsklassifikatoren kennen, machen sie Fehler, einschließlich falsch positiver Ergebnisse (z.B. die Behauptung, dass eine Ausgabe unsicher ist, wenn sie nicht) und falsch negative Ergebnisse (Ausgabe wird nicht als unsicher gekennzeichnet, wenn dies der Fall ist). Wenn Sie Klassifikatoren anhand von Messwerten wie F1, Precision, Recall und AUC-ROC bewerten, können Sie festlegen, wie Sie falsch positive und falsch negative Fehler ausgleichen möchten. Wenn Sie den Schwellenwert der Klassifikatoren ändern, ideale Balance, um eine übermäßige Filterung von Ausgaben zu vermeiden und gleichzeitig angemessene Sicherheit.
Klassifikatoren auf unbeabsichtigte Voreingenommenheit prüfen: Sicherheitsklassifikatoren können wie jedes andere ML-Modell unbeabsichtigte Voreingenommenheiten wie soziokulturelle Stereotype weitergeben. Apps müssen auf potenziell problematisches Verhalten hin überprüft werden. Insbesondere können Klassifikatoren für die Sicherheit von Inhalten bei Inhalten, die sich auf Identitäten beziehen, die häufiger Ziel von missbräuchlicher Sprache im Internet sind, zu häufig auslösen. Als die Perspective API zum Beispiel in den Kommentaren mit höherem Wert für Toxizität angegeben. auf bestimmte Identitätsgruppen verweisen (Blog). Dieser übermäßige Trigger kann es passieren, dass Kommentare, in denen Identitätsbegriffe erwähnt werden, Zielgruppen, die häufig angegriffen werden (z.B. Begriffe wie „Schwarz“, „muslimisch“, „feministisch“, „Frau“, „Schwul“ usw.) sind oft unangemessen. Wenn Datasets, die zum Trainieren von Klassifizierern verwendet werden, erhebliche Ungleichgewichte bei Kommentaren mit bestimmten Wörtern aufweisen, können Klassifizierer zu Verallgemeinerungen neigen und alle Kommentare mit diesen Wörtern als potenziell unsicher betrachten. Hier erfahren Sie, wie das Jigsaw-Team abgeschwächt.
Ressourcen für Entwickler
- SynthID: Tools zum Einbetten von Wasserzeichen und zur Identifizierung von KI-generierten Inhalten.
- Prüft die KI-Sicherheit: Einhaltung der KI-Sicherheitsvorgaben.
- Perspective API: Zum Identifizieren von toxischen Inhalten.
- Dienst zur Textmoderation: Für Google Cloud-Kunden.