Sicherheitshinweise

Modelle für generative KI sind leistungsstarke Tools, aber sie sind nicht ohne ihre Einschränkungen. Ihre Vielseitigkeit und Anwendbarkeit kann manchmal zu unerwarteten Ergebnissen führen, z. B. zu ungenauen, verzerrten oder anstößigen Ergebnissen. Die Nachbearbeitung und eine strenge manuelle Bewertung sind unerlässlich, um das Risiko von Schäden durch solche Ausgaben zu minimieren.

Die von der Gemini API bereitgestellten Modelle können für eine Vielzahl von Anwendungen für Generative AI und Natural Language Processing (NLP) verwendet werden. Die Verwendung dieser Funktionen ist nur über die Gemini API oder die Google AI Studio Web-App möglich. Ihre Nutzung der Gemini API unterliegt außerdem der Richtlinie zur unzulässigen Nutzung von generativer KI und den Nutzungsbedingungen für die Gemini API.

Large Language Models (LLMs) sind unter anderem kreative Tools, die viele verschiedene Sprachaufgaben bewältigen können. Leider bedeutet dies auch, dass Large Language Models Ausgabemöglichkeiten generieren können, die Sie nicht erwarten, einschließlich Text, der anstößig, unsensibel oder faktisch falsch ist. Außerdem erschwert die unglaubliche Vielseitigkeit dieser Modelle es, genau vorherzusagen, welche Art von unerwünschter Ausgabe sie produzieren könnten. Die Gemini API wurde unter Berücksichtigung der KI-Grundsätze von Google entwickelt. Entwickler müssen diese Modelle jedoch verantwortungsvoll anwenden. Um Entwickler dabei zu unterstützen, sichere und verantwortungsvolle Anwendungen zu erstellen, bietet die Gemini API einige integrierte Inhaltsfilter sowie anpassbare Sicherheitseinstellungen für vier Schadensdimensionen. Weitere Informationen finden Sie im Leitfaden zu den Sicherheitseinstellungen.

In diesem Dokument werden einige Sicherheitsrisiken beschrieben, die bei der Verwendung von LLMs auftreten können. Außerdem erhalten Sie Empfehlungen zu neuen Empfehlungen für Sicherheitsdesign und -entwicklung. Beachten Sie, dass möglicherweise auch Gesetze und Bestimmungen auferlegt werden, die jedoch den Rahmen dieses Leitfadens sprengen.

Beim Erstellen von Anwendungen mit LLMs werden die folgenden Schritte empfohlen:

  • Sicherheitsrisiken Ihrer Anwendung verstehen
  • Anpassungen erwägen, um Sicherheitsrisiken zu mindern
  • Für Ihren Anwendungsfall geeignete Sicherheitstests durchführen
  • Nutzerfeedback einholen und Nutzung überwachen

Die Anpassungs- und Testphase sollten iterativ sein, bis Sie die für Ihre Anwendung geeignete Leistung erreichen.

Zyklus der Modellimplementierung

Sicherheitsrisiken Ihrer Anwendung verstehen

Sicherheit wird in diesem Zusammenhang als die Fähigkeit eines LLM definiert, Schaden für Nutzer zu vermeiden, beispielsweise durch die Generierung schädlicher Sprache oder Inhalte, die Stereotypen propagieren. Die über die Gemini API verfügbaren Modelle wurden unter Berücksichtigung der KI-Grundsätze von Google entwickelt und Ihre Nutzung unterliegt der Richtlinie zur unzulässigen Nutzung von generativer KI. Die API bietet integrierte Sicherheitsfilter, um einige häufige Probleme mit Sprachmodellen zu beheben, z. B. unangemessene Sprache und Hassrede, sowie das Streben nach Inklusion und der Vermeidung von Stereotypen. Jede Anwendung kann jedoch unterschiedliche Risiken für die Nutzer darstellen. Als Anwendungsinhaber sind Sie also dafür verantwortlich, Ihre Nutzer und die potenziellen Schäden zu kennen, die Ihre Anwendung verursachen kann, und dafür zu sorgen, dass Ihre Anwendung LLMs sicher und verantwortungsvoll verwendet.

Im Rahmen dieser Bewertung sollten Sie die Wahrscheinlichkeit berücksichtigen, dass ein Schaden eintreten könnte, und dessen Schweregrad und Maßnahmen zur Schadensbegrenzung ermitteln. Beispielsweise muss bei einer App, die Aufsätze basierend auf Sachereignissen generiert, mehr Fehlinformationen vermieden werden als bei einer App, die zur Unterhaltung fiktive Geschichten generiert. Eine gute Möglichkeit, potenzielle Sicherheitsrisiken zu untersuchen, besteht darin, Ihre Endnutzer und andere, die von den Ergebnissen Ihrer Anwendung betroffen sein könnten, zu recherchieren. Dies kann viele Formen annehmen, wie z. B. die Recherche nach den neuesten Stand der Technik in Ihrer App-Domain, die Beobachtung, wie Nutzer ähnliche Apps verwenden, eine Nutzerstudie, eine Umfrage oder informelle Interviews mit potenziellen Nutzern.

Tipps für erfahrene Nutzer

  • Sprechen Sie mit einer vielfältigen Mischung potenzieller Nutzer innerhalb Ihrer Zielpopulation über Ihre Anwendung und ihren beabsichtigten Zweck, um einen umfassenderen Blick auf potenzielle Risiken zu erhalten und Diversitätskriterien nach Bedarf anzupassen.
  • Das vom National Institute of Standards and Technology (NIST) der US-Regierung veröffentlichte AI Risk Management Framework bietet detailliertere Anleitungen und zusätzliche Lernressourcen zum Thema KI-Risikomanagement.
  • In der Veröffentlichung von DeepMind zum Thema ethische und soziale Schadensrisiken durch Sprachmodelle wird ausführlich beschrieben, wie Sprachmodellanwendungen Schaden verursachen können.

Anpassungen erwägen, um Sicherheitsrisiken zu mindern

Nachdem Sie nun die Risiken verstanden haben, können Sie entscheiden, wie sie gemindert werden. Die Entscheidung, welche Risiken priorisiert und wie sie verhindert werden sollten, ist eine kritische Entscheidung, ähnlich wie bei der Untersuchung von Fehlern in einem Softwareprojekt. Sobald Sie Prioritäten festgelegt haben, können Sie sich überlegen, welche Arten von Abhilfemaßnahmen am besten geeignet sind. Oft können einfache Änderungen einen Unterschied machen und Risiken reduzieren.

Berücksichtigen Sie beim Entwerfen einer Anwendung beispielsweise Folgendes:

  • Modellausgabe optimieren, um besser widerzuspiegeln, was in Ihrem Anwendungskontext akzeptabel ist Eine Abstimmung kann die Ausgabe des Modells vorhersehbarer und konsistenter machen und so dazu beitragen, bestimmte Risiken zu mindern.
  • Eine Eingabemethode, die sicherere Ergebnisse ermöglicht. Die genaue Eingabe für ein LLM kann die Qualität der Ausgabe beeinflussen. Es lohnt sich, mit Eingabe-Prompts zu experimentieren, um herauszufinden, was in Ihrem Anwendungsfall am sichersten funktioniert. Sie können dann eine dafür geeignete UX bereitstellen. Sie können beispielsweise festlegen, dass Nutzer nur aus einer Drop-down-Liste mit Eingabeaufforderungen auswählen können, oder Pop-up-Vorschläge mit beschreibenden Wortgruppen anbieten, die Ihrer Meinung nach in Ihrem Anwendungskontext sicher funktionieren.
  • Unsichere Eingaben blockieren und Ausgabe filtern, bevor sie dem Nutzer angezeigt wird. In einfachen Situationen können Sperrlisten verwendet werden, um unsichere Wörter oder Wortgruppen in Prompts oder Antworten zu identifizieren und zu blockieren. Sie können auch von Prüfern verlangen, solche Inhalte manuell zu ändern oder zu blockieren.

  • Verwenden trainierter Klassifikatoren, um jede Aufforderung mit potenziellen Schäden oder Angreifern zu kennzeichnen. Je nach Art des erkannten Schadens können dann unterschiedliche Strategien für den Umgang mit dem Ersuchen angewendet werden. Wenn die Eingabe beispielsweise offenkundig feindselig oder missbräuchlich ist, kann sie blockiert werden und stattdessen eine vorgegebene Antwort ausgeben.

    Tipp für Fortgeschrittene

    • Wenn die Ausgabe aufgrund von Signalen als schädlich eingestuft wird, kann die Anwendung die folgenden Optionen verwenden:
      • Geben Sie eine Fehlermeldung oder eine vorgefertigte Ausgabe ein.
      • Versuchen Sie die Eingabeaufforderung noch einmal, für den Fall, dass eine alternative sichere Ausgabe generiert wird, da dieselbe Eingabeaufforderung manchmal andere Ausgaben auslöst.

  • Ergreifen von Vorkehrungen gegen absichtlichen Missbrauch wie die Zuweisung einer eindeutigen ID für jeden Nutzer und die Festlegung einer Begrenzung für die Anzahl der Nutzerabfragen, die in einem bestimmten Zeitraum gesendet werden können. Eine weitere Absicherung ist der Schutz vor möglicher Einschleusung von Prompts. Ähnlich wie bei der Einschleusung von Prompts können böswillige Nutzer einen Eingabe-Prompt entwerfen, mit dem die Ausgabe des Modells manipuliert wird. Dazu kann z. B. eine Eingabe-Prompt gesendet werden, die das Modell anweist, vorherige Beispiele zu ignorieren. Weitere Informationen zum absichtlichen Missbrauch finden Sie in der Richtlinie zur unzulässigen Nutzung von generativer KI.

  • Die Funktionalität auf etwas mit weniger Risiken einstellen. Aufgaben mit einem enger gefassten Umfang (z.B. Extrahieren von Keywords aus Textabschnitten) oder mit größerer menschlicher Kontrolle (z.B. das Generieren von kurzen Inhalten, die von einem Menschen überprüft werden) stellen häufig ein geringeres Risiko dar. Anstatt eine Anwendung zu erstellen, mit der eine E-Mail-Antwort von Grund auf neu geschrieben wird, können Sie sie auf die Erweiterung einer Gliederung oder das Vorschlagen alternativer Formulierungen beschränken.

Auf Ihren Anwendungsfall abgestimmte Sicherheitstests durchführen

Tests sind ein wichtiger Bestandteil beim Erstellen robuster und sicherer Anwendungen. Allerdings variieren der Umfang, der Umfang und die Strategien für Tests. Ein Haiku-Generator, der einfach nur Spaß macht, birgt wahrscheinlich weniger große Risiken als beispielsweise eine Anwendung, die für Anwaltskanzleien entwickelt wurde, um Rechtsdokumente zusammenzufassen und Verträge zu entwerfen. Der Haiku-Generator kann jedoch von einer größeren Vielfalt von Nutzern verwendet werden, sodass das Risiko von bösartigen Versuchen oder sogar unbeabsichtigten schädlichen Eingaben größer sein kann. Auch der Kontext der Implementierung ist wichtig. Beispielsweise kann eine Anwendung mit Ausgaben, die vor der Durchführung von Maßnahmen von Experten geprüft werden, als weniger wahrscheinlich angesehen werden, dass sie schädliche Ausgaben erzeugt, als eine identische Anwendung ohne ein solches Versäumnis.

Es ist nicht ungewöhnlich, dass Sie mehrere Iterationen von Änderungen und Tests durchlaufen, bevor Sie sich sicher sind, dass Sie bereit für die Markteinführung sind. Dies gilt auch für Anwendungen mit relativ geringem Risiko. Zwei Arten von Tests sind für KI-Anwendungen besonders nützlich:

  • Beim Sicherheits-Benchmarking werden Sicherheitsmesswerte entwickelt, die angeben, inwiefern Ihre Anwendung im Hinblick auf ihre wahrscheinliche Nutzung unsicher sein könnte. Anschließend wird mithilfe von Bewertungs-Datasets getestet, wie gut Ihre Anwendung bei den Messwerten funktioniert. Es empfiehlt sich, vor dem Testen die minimal akzeptablen Sicherheitsmetriken nachzudenken, damit 1) Sie die Testergebnisse anhand dieser Erwartungen bewerten können und 2) Sie das Bewertungs-Dataset auf der Grundlage der Tests zusammenstellen können, die die für Sie wichtigsten Messwerte bewerten.

    Tipps für erfahrene Nutzer

    • Achten Sie darauf, sich zu sehr auf „Standard“-Ansätze zu verlassen, da Sie wahrscheinlich Ihre eigenen Test-Datasets mit Prüfern erstellen müssen, um sie vollständig an den Kontext Ihrer Anwendung anzupassen.
    • Wenn Sie mehr als einen Messwert haben, müssen Sie entscheiden, wie Sie vorgehen möchten, wenn eine Änderung zu Verbesserungen eines Messwerts führt, der sich nachteilig für einen anderen auswirkt. Wie bei anderen Performance-Engineering-Kampagnen sollten Sie sich auf die Worst-Case-Leistung für alle Auswertungen konzentrieren und nicht auf die durchschnittliche Leistung.
  • Bei Angreifertests wird proaktiv versucht, Ihre Anwendung zu stören. Ziel ist es, Schwachstellen zu identifizieren, damit Sie entsprechende Maßnahmen ergreifen können, um diese gegebenenfalls zu beheben. Adversarial Testing kann von Bewertern mit Fachwissen in Ihrer Anwendung viel Zeit und Aufwand erfordern. Je mehr Sie jedoch tun, desto größer ist Ihre Chance, Probleme zu erkennen, insbesondere solche, die nur selten oder nur nach wiederholten Ausführungen der Anwendung auftreten.

    • Angreifer sind eine Methode zur systematischen Bewertung eines ML-Modells mit dem Ziel, zu erfahren, wie es sich verhält, wenn es bösartige oder unbeabsichtigt schädliche Eingaben liefert:
      • Eine Eingabe kann schädlich sein, wenn sie eindeutig darauf ausgelegt ist, eine unsichere oder schädliche Ausgabe zu erzeugen, z. B. wenn ein Modell zur Textgenerierung aufgefordert wird, eine hasserfüllte Tirade über eine bestimmte Religion zu erzeugen.
      • Eine Eingabe ist unbeabsichtigt schädlich, wenn sie selbst harmlos ist, aber schädliche Ergebnisse liefert, z. B. wenn ein Modell zur Textgenerierung aufgefordert wird, eine Person einer bestimmten ethnischen Herkunft zu beschreiben, und eine rassistische Ausgabe erhält.
    • Ein bösartiger Test unterscheidet sich von einer Standardbewertung durch die Zusammensetzung der für die Tests verwendeten Daten. Wählen Sie für bösartige Tests Testdaten aus, die mit größter Wahrscheinlichkeit problematische Ausgabe vom Modell herbeiführen. Dies bedeutet, das Verhalten des Modells auf alle möglichen Arten von Schäden zu prüfen, einschließlich seltener oder ungewöhnlicher Beispiele und Grenzfälle, die für Sicherheitsrichtlinien relevant sind. Er sollte auch die Vielfalt der verschiedenen Dimensionen eines Satzes enthalten, z. B. Struktur, Bedeutung und Länge. Weitere Informationen dazu, was beim Erstellen eines Test-Datasets zu beachten ist, finden Sie unter Responsible AI-Praktiken von Google zur Fairness.

      Tipps für erfahrene Nutzer

      • Verwenden Sie automatisierte Tests anstelle der herkömmlichen Methode, um Personen in „rote Teams“ aufzunehmen, um Ihre Anwendung zu unterbinden. Bei automatischen Tests ist „Red Team“ ein weiteres Sprachmodell, das Eingabetext findet, der schädliche Ausgaben vom getesteten Modell auslöst.

Auf Probleme prüfen

Egal wie sehr Sie testen und mindern, Sie können nie Perfektion garantieren. Planen Sie daher im Voraus, wie Sie auftretende Probleme erkennen und mit ihnen umgehen. Zu den gängigen Ansätzen gehört die Einrichtung eines überwachten Kanals, über den Nutzer Feedback geben können (z. B. „Mag ich“-/„Mag ich nicht“-Bewertungen) und eine Nutzerstudie, um proaktiv Feedback von einer Vielzahl von Nutzern einzuholen. Dies ist besonders nützlich, wenn die Nutzungsmuster den Erwartungen abweichen.

Tipps für erfahrene Nutzer

  • Wenn Nutzer Feedback zu KI-Produkten geben, kann dies die KI-Leistung und die Nutzerfreundlichkeit im Laufe der Zeit erheblich verbessern, beispielsweise bei der Auswahl besserer Beispiele für die Feinabstimmung von Prompts. Im Kapitel zu Feedback und Kontrolle des Google-Leitfadens zu Personen und KI werden wichtige Überlegungen beim Entwerfen von Feedbackmechanismen berücksichtigt.

Nächste Schritte

  • Im Leitfaden zu Sicherheitseinstellungen erfahren Sie mehr über die anpassbaren Sicherheitseinstellungen, die über die Gemini API verfügbar sind.
  • Informationen zum Schreiben Ihrer ersten Prompts finden Sie in der Einführung zu Prompts.