Toolkit für verantwortungsbewusste generative KI
Tools und Anleitungen zum verantwortungsvollen Entwerfen, Erstellen und Bewerten offener KI‑Modelle.
Verantwortungsbewusstes Anwendungsdesign
Legen Sie Regeln für das Modellverhalten fest, erstellen Sie eine sichere und verantwortungsbewusste Anwendung und pflegen Sie eine transparente Kommunikation mit den Nutzern.
Ausrichtung auf Sicherheit
Hier finden Sie Informationen zu Techniken für die sofortige Fehlerbehebung sowie Anleitungen zur Feinabstimmung und zum bestärkenden Lernen mit menschlichem Feedback, um KI-Modelle an Sicherheitsrichtlinien anzupassen.
Modellbewertung
Mit dem LLM-Vergleicher erhalten Sie Anleitungen und Daten für eine robuste Modellbewertung hinsichtlich Sicherheit, Fairness und Sachrichtigkeit.
Sicherheitsmaßnahmen
Sie können Sicherheitsklassifikatoren mithilfe von Standardlösungen bereitstellen oder mithilfe von Schritt-für-Schritt-Anleitungen eigene Lösungen erstellen.
Einen verantwortungsbewussten Ansatz entwickeln
Identifizieren Sie proaktiv potenzielle Risiken Ihrer Anwendung und definieren Sie einen Ansatz auf Systemebene, um sichere und verantwortungsbewusste Anwendungen für Nutzer zu entwickeln.
Jetzt starten
Richtlinien auf Systemebene definieren
Legen Sie fest, welche Art von Inhalten Ihre App generieren soll und welche nicht.
Design für Sicherheit
Definieren Sie Ihren allgemeinen Ansatz zur Implementierung von Risikominderungstechniken unter Berücksichtigung technischer und geschäftlicher Abwägungen.
Transparent sein
Vermitteln Sie Ihren Ansatz mithilfe von Artefakten wie Modellkarten.
Sichere KI-Systeme
Berücksichtigen Sie die im Secure AI Framework (SAIF) aufgeführten KI-spezifischen Sicherheitsrisiken und Abhilfemaßnahmen.
Modell ausrichten
Passen Sie Ihr Modell mithilfe von Prompts und Tuning-Techniken an Ihre spezifischen Sicherheitsrichtlinien an.
Jetzt starten
Sicherere und robustere Prompts erstellen
Mithilfe von LLMs können Sie mit der Bibliothek für die Modellausrichtung sicherere Promptvorlagen erstellen.
Modelle für Sicherheit optimieren
Sie können das Modellverhalten steuern, indem Sie es an Ihre Sicherheits- und Inhaltsrichtlinien anpassen.
Modellvorschläge untersuchen
Mit dem Learning Interpretability Tool (LIT) können Sie durch iterative Verbesserungen sichere und hilfreiche Prompts erstellen.
Modell bewerten
Mithilfe unserer Anleitungen und Tools können Sie die Risiken in Bezug auf Sicherheit, Fairness und sachliche Richtigkeit von Modellen bewerten.
Jetzt starten
LLM-Vergleich
Mit dem LLM-Vergleich können Sie vergleichende Bewertungen durchführen, um qualitative Unterschiede zwischen den Antworten verschiedener Modelle, verschiedenen Prompts für dasselbe Modell oder sogar verschiedenen Tunings eines Modells zu beurteilen.
Leitlinien für die Modellbewertung
Informieren Sie sich über Best Practices für Penetrationstests und bewerten Sie Ihr Modell anhand akademischer Benchmarks, um Schäden in Bezug auf Sicherheit, Fairness und Sachrichtigkeit zu beurteilen.
Mit Schutzmaßnahmen schützen
Filtern Sie die Eingaben und Ausgaben Ihrer Anwendung und schützen Sie Nutzer vor unerwünschten Ergebnissen.
Jetzt starten
SynthID-Text
Ein Tool zum Hinzufügen von Wasserzeichen und Erkennen von Text, der von Ihrem Modell generiert wurde.
ShieldGemma
Eine Reihe von Sicherheitsklassifikatoren für Inhalte, die auf Gemma 2 basieren und in drei Größen verfügbar sind: 2B, 9B und 27B.
Agile Klassifikatoren
Mithilfe von PET (Parameter-efficient Tuning) Sicherheitsklassifikatoren für Ihre spezifischen Richtlinien mit relativ wenig Trainingsdaten erstellen
KI-Sicherheit prüfen
Mit APIs und Monitoring-Dashboards für die Einhaltung der KI-Sicherheitsrichtlinien sorgen
Textmoderationsdienst
Mit dieser Google Cloud Natural Language API, die unter einem bestimmten Nutzungslimit kostenlos verfügbar ist, können Sie eine Liste von Sicherheitsattributen erkennen, darunter verschiedene potenziell schädliche Kategorien und Themen, die als sensibel eingestuft werden können.
Perspective API
Mit dieser kostenlosen Google Jigsaw API können Sie „toxische“ Kommentare erkennen, um das Gesprächsklima im Web zu verbessern und so einen konstruktiven Onlinedialog zu fördern.