Sicherheitshinweise

Modelle für generative künstliche Intelligenz sind leistungsstarke Tools, haben aber auch ihre Grenzen. Ihre Vielseitigkeit und Anwendbarkeit können manchmal zu unerwarteten Ausgaben führen, z. B. zu Ausgaben, die ungenau, voreingenommen oder anstößig sind. Nachbearbeitung und strenge manuelle Bewertung sind unerlässlich, um das Risiko von Schäden durch solche Ausgaben zu begrenzen.

Die von der Gemini API bereitgestellten Modelle können für eine Vielzahl von Anwendungen für generative KI und Natural Language Processing (NLP) verwendet werden. Die Nutzung dieser Funktionen ist nur über die Gemini API oder die Google AI Studio-Web-App möglich. Ihre Nutzung der Gemini API unterliegt außerdem der Richtlinie zu unzulässiger Nutzung von generativer KI und den Nutzungsbedingungen für die Gemini API.

Large Language Models (LLMs) sind unter anderem deshalb so nützlich, weil sie kreative Tools sind, die viele verschiedene sprachliche Aufgaben bewältigen können. Leider bedeutet das auch, dass große Sprachmodelle unerwartete Ausgaben generieren können, einschließlich Text, der beleidigend, grob oder tatsächlich falsch ist. Außerdem ist es durch die unglaubliche Vielseitigkeit dieser Modelle schwierig, vorherzusagen, welche Art unerwünschter Ausgaben sie erzeugen könnten. Die Gemini API wurde unter Berücksichtigung der KI-Grundsätze von Google entwickelt. Es liegt jedoch in der Verantwortung der Entwickler, diese Modelle verantwortungsbewusst einzusetzen. Um Entwickler bei der Entwicklung sicherer, verantwortungsbewusster Anwendungen zu unterstützen, bietet die Gemini API eine integrierte Inhaltsfilterung sowie anpassbare Sicherheitseinstellungen für vier Schadensdimensionen. Weitere Informationen finden Sie im Leitfaden zu den Sicherheitseinstellungen.

In diesem Dokument werden einige Sicherheitsrisiken vorgestellt, die bei der Verwendung von LLMs auftreten können. Außerdem werden neue Empfehlungen für das Sicherheitsdesign und die Sicherheitsentwicklung gegeben. Gesetze und Verordnungen können ebenfalls Einschränkungen auferlegen. Diese werden in dieser Anleitung jedoch nicht behandelt.

Wir empfehlen die folgenden Schritte beim Erstellen von Anwendungen mit LLMs:

  • Sicherheitsrisiken Ihrer Anwendung
  • Anpassungen zur Minimierung von Sicherheitsrisiken in Betracht ziehen
  • Für Ihren Anwendungsfall geeignete Sicherheitstests durchführen
  • Feedback von Nutzern einholen und Nutzung überwachen

Die Anpassungs- und Testphasen sollten iterativ durchlaufen werden, bis Sie eine für Ihre Anwendung geeignete Leistung erzielen.

Zyklus der Modellimplementierung

Sicherheitsrisiken Ihrer Anwendung verstehen

In diesem Zusammenhang wird Sicherheit als die Fähigkeit eines LLM definiert, seinen Nutzern keinen Schaden zuzufügen, z. B. durch die Generierung von schädlichen Formulierungen oder Inhalten, die Stereotype fördern. Die über die Gemini API verfügbaren Modelle wurden unter Berücksichtigung der KI-Grundsätze von Google entwickelt. Ihre Nutzung unterliegt der Richtlinie zur unzulässigen Nutzung von generativer KI. Die API bietet integrierte Sicherheitsfilter, um einige häufige Probleme mit Sprachmodellen wie toxische Sprache und Hassrede zu beheben und Inklusivität zu fördern und Stereotype zu vermeiden. Jede Anwendung kann jedoch unterschiedliche Risiken für ihre Nutzer bergen. Als Inhaber der Anwendung sind Sie dafür verantwortlich, Ihre Nutzer und die potenziellen Schäden zu kennen, die Ihre Anwendung verursachen kann, und dafür zu sorgen, dass Ihre Anwendung LLMs sicher und verantwortungsbewusst verwendet.

Im Rahmen dieser Bewertung sollten Sie die Wahrscheinlichkeit eines möglichen Schadens sowie dessen Schweregrad und Maßnahmen zur Risikominderung berücksichtigen. Eine App, die beispielsweise Essays auf der Grundlage von Fakten generiert, muss sorgfältiger darauf achten, Falschinformationen zu vermeiden, als eine App, die fiktive Geschichten zur Unterhaltung generiert. Eine gute Möglichkeit, potenzielle Sicherheitsrisiken zu untersuchen, besteht darin, Ihre Endnutzer und andere Personen zu befragen, die von den Ergebnissen Ihrer Anwendung betroffen sein könnten. Das kann viele Formen annehmen, z. B. die Recherche nach aktuellen Studien in Ihrer App-Domain, die Beobachtung, wie Nutzer ähnliche Apps verwenden, oder die Durchführung einer Nutzerstudie, Umfrage oder informeller Interviews mit potenziellen Nutzern.

Weitere Tipps

  • Sprechen Sie mit einer vielfältigen Mischung potenzieller Nutzer aus Ihrer Zielgruppe über Ihre Anwendung und ihren beabsichtigten Zweck, um eine breitere Perspektive auf potenzielle Risiken zu erhalten und die Diversitätskriterien bei Bedarf anzupassen.
  • Das AI Risk Management Framework des National Institute of Standards and Technology (NIST) der US-Regierung bietet detailliertere Anleitungen und zusätzliche Lernressourcen für das KI-Risikomanagement.
  • In der Publikation von DeepMind zu den ethischen und sozialen Risiken von Schäden durch Sprachmodelle wird detailliert beschrieben, wie Anwendungen von Sprachmodellen Schäden verursachen können.

Passen Sie Anpassungen an, um Sicherheitsrisiken zu minimieren.

Nachdem Sie sich mit den Risiken vertraut gemacht haben, können Sie entscheiden, wie Sie sie mindern möchten. Die Entscheidung, welche Risiken priorisiert werden sollen und wie viel Sie tun sollten, um sie zu vermeiden, ist von entscheidender Bedeutung. Sie ähnelt der Priorisierung von Fehlern in einem Softwareprojekt. Nachdem Sie die Prioritäten festgelegt haben, können Sie überlegen, welche Arten von Maßnahmen am besten geeignet wären. Oft können schon einfache Änderungen einen Unterschied machen und Risiken verringern.

Berücksichtigen Sie beim Entwerfen einer Anwendung beispielsweise Folgendes:

  • Modellausgabe abstimmen, damit sie besser widerspiegelt, was in Ihrem Anwendungskontext akzeptabel ist. Durch die Abstimmung kann die Ausgabe des Modells vorhersehbarer und konsistenter werden, was dazu beitragen kann, bestimmte Risiken zu mindern.
  • Eine Eingabemethode, die sicherere Ausgaben ermöglicht: Die genaue Eingabe, die Sie einem LLM geben, kann sich auf die Qualität der Ausgabe auswirken. Es lohnt sich, mit Eingabeaufforderungen zu experimentieren, um herauszufinden, was in Ihrem Anwendungsfall am sichersten funktioniert. So können Sie eine UX bereitstellen, die dies erleichtert. Sie können beispielsweise festlegen, dass Nutzer nur aus einer Drop-down-Liste mit Eingabeaufforderungen auswählen dürfen, oder Pop-up-Vorschläge mit beschreibenden Formulierungen anbieten, die in Ihrem Anwendungskontext sicher sind.
  • Blockieren unsicherer Eingaben und Filtern der Ausgabe, bevor sie dem Nutzer angezeigt wird. In einfachen Fällen können Sperrlisten eingesetzt werden, um unsichere Wörter oder Formulierungen in Prompts oder Antworten zu ermitteln und zu blockieren oder um menschliche Prüfer zu veranlassen, solche Inhalte manuell zu ändern oder zu blockieren.

  • Trainierte Klassifikatoren verwenden, um jedem Prompt Tags für mögliche schädliche Inhalte oder bösartige Signale hinzuzufügen. Je nach der Art des erkannten schädlichen Inhalts können dann verschiedene Strategien zum Umgang mit der Anfrage angewendet werden. Wenn die Eingabe beispielsweise offensichtlich bösartig oder missbräuchlich ist, kann sie blockiert und stattdessen eine vordefinierte Antwort ausgegeben werden.

    Tipp für Fortgeschrittene

    • Wenn Signale darauf hindeuten, dass die Ausgabe schädlich ist, kann die Anwendung die folgenden Optionen nutzen:
      • Eine Fehlermeldung oder vordefinierte Ausgabe zurückgeben
      • Versuchen Sie es noch einmal mit dem Prompt, falls eine alternative sichere Ausgabe generiert wird, da derselbe Prompt manchmal zu unterschiedlichen Ausgaben führt.

  • Schutzmaßnahmen gegen vorsätzlichen Missbrauch, z. B. durch Zuweisen einer eindeutigen ID für jeden Nutzer und Festlegen eines Limits für die Anzahl der Nutzeranfragen, die in einem bestimmten Zeitraum gesendet werden können. Eine weitere Schutzmaßnahme besteht darin, sich vor möglichen Prompt-Injection-Angriffen zu schützen. Bei der Prompt-Injection, ähnlich wie bei der SQL-Injection, können böswillige Nutzer einen Eingabe-Prompt erstellen, der die Ausgabe des Modells manipuliert. Sie können beispielsweise einen Eingabe-Prompt senden, der das Modell anweist, alle vorherigen Beispiele zu ignorieren. Weitere Informationen zum vorsätzlichen Missbrauch finden Sie in der Richtlinie zur unzulässigen Nutzung von generativer KI.

  • Funktionen anpassen, um das inhärente Risiko zu verringern: Aufgaben mit einem engeren Umfang (z.B. das Extrahieren von Keywords aus Textabschnitten) oder mit einer stärkeren menschlichen Aufsicht (z.B. das Generieren von Shortform-Inhalten, die von einem Menschen überprüft werden) bergen oft ein geringeres Risiko. Anstatt eine Anwendung zu erstellen, die eine E‑Mail-Antwort von Grund auf neu verfasst, können Sie sie beispielsweise darauf beschränken, einen Entwurf zu erweitern oder alternative Formulierungen vorzuschlagen.

Für Ihren Anwendungsfall geeignete Sicherheitstests durchführen

Tests sind ein wichtiger Bestandteil der Entwicklung robuster und sicherer Anwendungen. Umfang, Geltungsbereich und Strategien für Tests variieren jedoch. Ein Generator für Haikus, der nur zum Spaß verwendet wird, birgt wahrscheinlich weniger schwerwiegende Risiken als eine Anwendung, die für Anwaltskanzleien entwickelt wurde, um juristische Dokumente zusammenzufassen und Verträge zu entwerfen. Der Haiku-Generator kann jedoch von einer Vielzahl von Nutzern verwendet werden, was bedeutet, dass das Potenzial für feindselige Versuche oder sogar unbeabsichtigte schädliche Eingaben größer sein kann. Auch der Implementierungskontext ist wichtig. So kann beispielsweise eine Anwendung, deren Ausgaben vor dem Ergreifen von Maßnahmen von menschlichen Experten überprüft werden, als weniger wahrscheinlich eingestuft werden, dass sie schädliche Ausgaben erzeugt, als die identische Anwendung ohne eine solche Aufsicht.

Es ist nicht ungewöhnlich, dass Sie mehrere Iterationen durchlaufen, in denen Sie Änderungen vornehmen und testen, bevor Sie sich sicher fühlen, dass Sie bereit für die Veröffentlichung sind. Das gilt auch für Anwendungen mit relativ geringem Risiko. Für KI-Anwendungen sind zwei Arten von Tests besonders nützlich:

  • Beim Sicherheits-Benchmarking werden Sicherheitsmesswerte entwickelt, die widerspiegeln, wie Ihre Anwendung im Kontext der wahrscheinlichen Nutzung unsicher sein könnte. Anschließend wird anhand von Bewertungs-Datasets getestet, wie gut Ihre Anwendung bei den Messwerten abschneidet. Es empfiehlt sich, vor dem Testen über die minimal akzeptablen Werte für Sicherheitsmesswerte nachzudenken, damit Sie 1) die Testergebnisse anhand dieser Erwartungen bewerten und 2) das Bewertungs-Dataset basierend auf den Tests zusammenstellen können, mit denen die Messwerte bewertet werden, die Ihnen am wichtigsten sind.

    Weitere Tipps

    • Verlassen Sie sich nicht zu sehr auf Standardansätze, da Sie wahrscheinlich eigene Test-Datasets mit menschlichen Ratern erstellen müssen, um den Kontext Ihrer Anwendung vollständig zu berücksichtigen.
    • Wenn Sie mehrere Messwerte haben, müssen Sie entscheiden, wie Sie vorgehen, wenn eine Änderung zu Verbesserungen bei einem Messwert führt, aber sich negativ auf einen anderen auswirkt. Wie bei anderen Leistungsoptimierungen sollten Sie sich möglicherweise auf die Worst-Case-Leistung in Ihrem Auswertungsset konzentrieren und nicht auf die durchschnittliche Leistung.
  • Beim Adversarial Testing wird proaktiv versucht, Ihre Anwendung zu manipulieren. Ziel ist es, Schwachstellen zu identifizieren, damit Sie geeignete Maßnahmen ergreifen können, um sie zu beheben. Für Adversarial Testing sind möglicherweise erhebliche Zeit und Mühe von Prüfern mit Fachkenntnissen in Ihrer Anwendung erforderlich. Je mehr Sie jedoch testen, desto größer ist die Wahrscheinlichkeit, Probleme zu erkennen, insbesondere solche, die selten oder erst nach wiederholten Ausführungen der Anwendung auftreten.

    • Adversarial Testing ist ein Verfahren zur systematischen Bewertung eines ML-Modells, um zu ermitteln, wie es sich bei beabsichtigten oder unbeabsichtigten schädlichen Eingaben verhält:
      • Eine Eingabe kann absichtlich schädlich sein, wenn sie eindeutig darauf abzielt, eine unsichere oder schädliche Ausgabe zu erzeugen. Ein Beispiel: Ein Modell zur Textgenerierung wird aufgefordert, eine Hassrede über eine bestimmte Religion zu generieren.
      • Eine Eingabe ist unbeabsichtigt schädlich, wenn die Eingabe selbst zwar harmlos ist, aber eine schädliche Ausgabe erzeugt. Ein Beispiel: Ein Modell zur Textgenerierung wird durch eine Eingabe aufgefordert, eine Person mit einer bestimmten ethnischen Zugehörigkeit zu beschreiben. Es gibt anschließend eine rassistische Ausgabe zurück.
    • Ein Adversarial Test unterscheidet sich von einer Standardbewertung durch die Zusammensetzung der für den Test verwendeten Daten. Wählen Sie für Adversarial Testing Testdaten aus, die mit größter Wahrscheinlichkeit problematische Ausgaben des Modells hervorrufen. Das bedeutet, dass das Verhalten des Modells in Bezug auf alle Arten von möglichen Schäden untersucht wird, einschließlich seltener oder ungewöhnlicher Beispiele und Grenzfälle, die für Sicherheitsrichtlinien relevant sind. Außerdem sollte es Vielfalt in den verschiedenen Dimensionen eines Satzes wie Struktur, Bedeutung und Länge geben. Weitere Informationen dazu, was beim Erstellen eines Testdatensatzes zu beachten ist, finden Sie unter Google's Responsible AI practices in fairness.

      Weitere Tipps

      • Verwenden Sie automatisierte Tests anstelle der herkömmlichen Methode, bei der Personen in „Red Teams“ eingesetzt werden, um zu versuchen, Ihre Anwendung zu manipulieren. Beim automatisierten Testen ist das „Red Team“ ein weiteres Sprachmodell, das Eingabetext findet, der schädliche Ausgaben des zu testenden Modells hervorruft.

Auf Probleme achten

Egal wie viel Sie testen und wie viele Maßnahmen Sie ergreifen, Sie können nie Perfektion garantieren. Planen Sie daher im Voraus, wie Sie auftretende Probleme erkennen und beheben. Gängige Ansätze sind das Einrichten eines überwachten Kanals, über den Nutzer Feedback geben können (z. B. „Gefällt mir“-Bewertung), und das Durchführen einer Nutzerstudie, um proaktiv Feedback von einer vielfältigen Gruppe von Nutzern einzuholen. Das ist besonders wertvoll, wenn die Nutzungsmuster von den Erwartungen abweichen.

Weitere Tipps

  • Wenn Nutzer Feedback zu KI-Produkten geben, kann dies die KI-Leistung und die Nutzerfreundlichkeit im Laufe der Zeit erheblich verbessern. So können Sie beispielsweise bessere Beispiele für die Optimierung von Prompts auswählen. Im Kapitel „Feedback und Kontrolle“ im Leitfaden „Mensch und KI“ von Google werden wichtige Aspekte hervorgehoben, die bei der Entwicklung von Feedbackmechanismen berücksichtigt werden sollten.

Nächste Schritte