Toolkit für Responsible Generative AI
Tools und Anleitungen zum verantwortungsvollen Entwerfen, Erstellen und Bewerten offener KI-Modelle.
Verantwortungsbewusstes Anwendungsdesign
Definieren Sie Regeln für das Modellverhalten, erstellen Sie eine sichere und nachvollziehbare Anwendung und sorgen Sie für eine transparente Kommunikation mit Nutzern.
Sicherheitsabgleich
Entdecken Sie Prompt-Debugging-Techniken und Anleitungen für die Feinabstimmung und RLHF, um KI-Modelle mit Sicherheitsrichtlinien abzustimmen.
Modellbewertung
Mit dem LLM-Vergleicher erhalten Sie Orientierungshilfen und Daten, mit denen Sie eine solide Modellbewertung im Hinblick auf Sicherheit, Fairness und Wahrheitsgehalt durchführen können.
Sicherheitsmaßnahmen
Sie können Sicherheitsklassifikatoren mithilfe von Standardlösungen bereitstellen oder mithilfe von Schritt-für-Schritt-Anleitungen eigene Lösungen entwickeln.
Einen verantwortungsvollen Ansatz entwerfen
Identifizieren Sie proaktiv potenzielle Risiken Ihrer Anwendung und definieren Sie einen Ansatz auf Systemebene, um sichere und verantwortungsvolle Anwendungen für Nutzer zu entwickeln.
Erste Schritte
Richtlinien auf Systemebene definieren
Bestimmen Sie, welche Art von Inhalten Ihre Anwendung generieren soll und welche nicht.
Sicherheit bei der Entwicklung
Definieren Sie Ihren Gesamtansatz zur Implementierung von Techniken zur Risikominderung unter Berücksichtigung technischer und geschäftlicher Kompromisse.
Transparent sein
Kommunizieren Sie Ihren Ansatz mit Artefakten wie Modellkarten.
Sichere KI-Systeme
Berücksichtigen Sie KI-spezifische Sicherheitsrisiken und Abhilfemethoden, die im Secure AI Framework (SAIF) hervorgehoben werden.
Modell ausrichten
Passen Sie Ihr Modell mithilfe von Prompting- und Feinabstimmungstechniken an Ihre spezifischen Sicherheitsrichtlinien an.
Erste Schritte
Modell-Prompts prüfen
Erstelle sichere und hilfreiche Prompts durch iterative Verbesserung mit dem Learning Interpretability Tool (LIT).
Sichere Modelle abstimmen
Das Modellverhalten lässt sich steuern, indem Sie es an Ihre Sicherheits- und Inhaltsrichtlinien anpassen.
Modell bewerten
Bewerten Sie Modellrisiken in Bezug auf Sicherheit, Fairness und sachliche Richtigkeit mithilfe unserer Leitlinien und Tools.
Erste Schritte
LLM-Vergleicher
Mit LLM Comparator vergleichende Bewertungen durchführen, um Unterschiede in Antworten zwischen Modellen, unterschiedliche Prompts für dasselbe Modell oder sogar verschiedene Feinabstimmungen eines Modells qualitativ zu bewerten
Richtlinien für die Modellbewertung
Informieren Sie sich über die Best Practices für Red-Team-Einsätze und bewerten Sie Ihr Modell anhand akademischer Benchmarks, um Schäden in Bezug auf Sicherheit, Fairness und Faktizität zu bewerten.
Mit Sicherheitsmaßnahmen schützen
Filtern Sie die Ein- und Ausgaben Ihrer Anwendung und schützen Sie Nutzer vor unerwünschten Ergebnissen.
Erste Schritte
ShieldGemma
Eine Reihe von Inhaltsklassifikatoren basierend auf Gemma 2, die in drei Größen erhältlich sind: 2B, 9B, 27B.
Agile Klassifikatoren
Erstellen Sie mithilfe von Parameter-Effizienter Abstimmung (PET) mit relativ wenigen Trainingsdaten Sicherheitsklassifikatoren für Ihre spezifischen Richtlinien.
Textmoderationsdienst
Mit dieser Google Cloud Natural Language API, die ab einem bestimmten Nutzungslimit kostenlos zur Verfügung steht, lässt sich eine Liste von Sicherheitsattributen ermitteln, einschließlich verschiedener potenziell schädlicher Kategorien und Themen, die als sensibel eingestuft werden können.
Perspective API
„Unangemessen“ identifizieren mit dieser kostenlosen Google Jigsaw API, um unangemessene Kommentare im Internet abzuschwächen und einen konstruktiven Dialog zu fördern.