Risiken bewerten und Sicherheitsrichtlinien festlegen

In Richtlinien zur Inhaltssicherheit wird definiert, welche Arten von schädlichen Inhalten auf einer Onlineplattform nicht zulässig sind. Möglicherweise sind Sie mit Inhaltsrichtlinien von Plattformen wie YouTube oder Google Play vertraut. Die Inhaltsrichtlinien für Anwendungen mit generativer KI sind ähnlich: Sie legen fest, welche Art von Inhalten von Ihrer Anwendung nicht generiert werden soll, und bestimmen, wie Modelle abgestimmt werden und welche geeigneten Sicherheitsmaßnahmen es gibt.

Ihre Richtlinien sollten den Anwendungsfall Ihrer Anwendung widerspiegeln. Beispielsweise könnte ein Generative-AI-Produkt, das Ideen für Familienaktivitäten auf der Grundlage von Community-Vorschlägen entwickeln soll, eine Richtlinie haben, die das Erstellen von gewaltverherrlichenden Inhalten verbietet, da diese für Nutzer schädlich sein können. Umgekehrt könnte eine Anwendung, die von Nutzern vorgeschlagene Science-Fiction-Geschichten zusammenfasst, die Erzeugung von Gewalt zulassen, da sie Gegenstand zahlreicher Geschichten in diesem Genre ist.

Ihre Sicherheitsrichtlinien sollten die Erstellung von Inhalten verbieten, die Nutzern schaden oder illegal sind. Außerdem sollten Sie angeben, welche Arten von generierten Inhalten diese Kriterien für Ihre App erfüllen. Sie können auch Ausnahmen für pädagogische, dokumentarische, wissenschaftliche oder künstlerische Inhalte in Betracht ziehen, die ansonsten als schädlich eingestuft werden könnten.

Für die Entwicklung eines verantwortungsvollen Produkts ist es wichtig, klare Richtlinien mit einem sehr detaillierten Detaillierungsgrad zu definieren, einschließlich Ausnahmen von der Richtlinie mit Beispielen. Ihre Richtlinien werden bei jedem Schritt der Modellentwicklung verwendet. Bei der Datenbereinigung oder beim Labeling kann Ungenauigkeit dazu führen, dass Daten falsch gekennzeichnet oder zu viele oder zu wenig entfernt werden, was sich auf die Sicherheitsantworten des Modells auswirkt. Zu Bewertungszwecken führen ungünstig definierte Richtlinien zu einer hohen Abweichung zwischen den Beurteilern, wodurch es schwieriger wird, zu wissen, ob Ihr Modell Ihren Sicherheitsstandards entspricht.

Hypothetische Richtlinien (nur zur Veranschaulichung)

Im Folgenden finden Sie einige Beispiele für Richtlinien, die Sie für Ihre Anwendung verwenden können, sofern sie Ihrem Anwendungsfall entsprechen.

Richtlinienkategorie Richtlinie
Vertrauliche personenidentifizierbare Informationen Die Anwendung gibt keine vertraulichen und personenidentifizierbaren Informationen an (z.B. E-Mail-Adresse, Kreditkartennummer oder Sozialversicherungsnummer einer Privatperson).
Hassrede/Volksverhetzung Die Anwendung generiert keine negativen oder schädlichen Inhalte, die auf Identität und/oder geschützte Merkmale abzielen (z.B. rassistische Bemerkungen, Aufrufe zu Diskriminierung, Aufrufe zu Gewalt gegen geschützte Gruppen).
Belästigung Die Anwendung erstellt keine schädlichen, einschüchternden, Mobbing- oder missbräuchlichen Inhalte, die auf eine andere Person abzielen (z.B. körperliche Drohungen, Leugnung tragischer Ereignisse oder Verunglimpfung von Gewaltopfern).
Gefährliche Inhalte Die App erstellt keine Anleitungen oder Ratschläge zur Selbstverletzung oder zur Verletzung anderer Personen (z.B. Zugriff auf oder Bau von Schusswaffen und Sprengkörpern, Förderung von Terrorismus oder Anleitungen zum Suizid).
sexuell explizit Die App erstellt keine Inhalte, die Verweise auf sexuelle Handlungen oder andere anzügliche Inhalte enthalten (z.B. sexuell explizite Beschreibungen oder Inhalte, die zu Erregungszwecken dienen).
Zugang zu schädlichen Waren und Dienstleistungen Die Anwendung erstellt keine Inhalte, die potenziell schädliche Waren, Dienstleistungen und Aktivitäten fördern oder den Zugriff darauf ermöglichen (z.B. Werbung für Glücksspiele, Arzneimittel, Feuerwerkskörper oder sexuelle Dienstleistungen).
Schädliche Inhalte Die Anwendung erstellt keine Anleitungen zur Ausführung illegaler oder irreführender Aktivitäten (z.B. zur Erstellung von Phishing-E-Mails, Spam oder Inhalten für Massenwerbemails oder Jailbreaking-Methoden).

Entwicklerressourcen

Beispiele für Richtlinien für Generative AI:

  • Die Cloud Gemini API und die PaLM API bieten eine Liste von Sicherheitsattributen, die als Grundlage für die Erstellung von Sicherheitsrichtlinien dienen können
  • Beispiel für Richtlinien, die im Fortschritt zu den KI-Grundsätzen von Google 2023 enthalten sind
  • Die MLCommons Association, ein Engineering-Konsortium, das auf der Philosophie offener Zusammenarbeit zur Verbesserung von KI-Systemen basiert, bezieht sich auf sechs Gefahren, auf die sie Modelle zur KI-Sicherheit im Rahmen ihres AI Safety Benchmark bewerten.