Gemma 4 wurde veröffentlicht und unterstützt Text-, Audio- und Bildeingaben sowie ein langes Kontextfenster mit bis zu 256.000 Tokens. Weitere Informationen

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modellkarte für Gemma 4

Gemma 4-Banner

Hugging Face | GitHub | Launch Blog | Dokumentation
Lizenz: Apache 2.0 | Autoren: Google DeepMind

Gemma ist eine Reihe von offenen Modellen, die von Google DeepMind entwickelt wurden. Gemma 4-Modelle sind multimodal und können Text- und Bildeingaben verarbeiten (Audio wird bei E2B-, E4B- und 12B-Modellen unterstützt). Sie generieren Textausgaben. Diese Version umfasst Modelle mit offenen Gewichten in vortrainierten und anweisungsoptimierten Varianten. Gemma 4 bietet ein Kontextfenster mit bis zu 256.000 Tokens und unterstützt weiterhin mehr als 140 Sprachen.

Gemma 4 basiert auf Dense- und Mixture-of-Experts-Architekturen (MoE) und eignet sich gut für Aufgaben wie Textgenerierung, Programmieren und Schlussfolgern. Die Modelle sind in fünf verschiedenen Größen verfügbar: E2B, E4B, 12B, 26B A4B und 31B. Dank ihrer unterschiedlichen Größen können sie in Umgebungen eingesetzt werden, die von High-End-Smartphones bis hin zu Laptops und Servern reichen. So wird der Zugriff auf modernste KI demokratisiert.

Gemma 4 bietet wichtige Funktionen und architektonische Verbesserungen:

Schlussfolgern: Alle Modelle der Familie sind als leistungsstarke Schlussfolgerungsmodelle konzipiert und verfügen über konfigurierbare Denkmodi.
Erweiterte Multimodalitäten: Verarbeitet Text, Bilder mit variablem Seitenverhältnis und variabler Auflösung (alle Modelle), Videos und Audio (nativ auf den Modellen E2B, E4B und 12B).
Vielfältige und effiziente Architekturen: Es gibt Dense- und Mixture-of-Experts-Varianten (MoE) in verschiedenen Größen für eine skalierbare Bereitstellung.
Für die Ausführung auf Geräten optimiert: Kleinere Modelle sind speziell für die effiziente lokale Ausführung auf Laptops und Mobilgeräten konzipiert.
Größeres Kontextfenster: Die kleinen Modelle haben ein Kontextfenster von 128.000 Tokens, die mittelgroßen Modelle unterstützen 256.000 Tokens.
Erweiterte Programmier- und Agentic-Funktionen: Erzielt bemerkenswerte Verbesserungen bei Programmier-Benchmarks und bietet native Unterstützung für Funktionsaufrufe, wodurch leistungsstarke autonome Agenten möglich werden.
Native Unterstützung für Systemprompts: Gemma 4 bietet native Unterstützung für die Rolle system, was strukturiertere und besser steuerbare Unterhaltungen ermöglicht.

Modelle – Übersicht

Gemma 4-Modelle sind darauf ausgelegt, in jeder Größe eine Spitzenleistung zu erzielen. Sie sind für Bereitstellungsszenarien von Mobil- und Edge-Geräten (E2B, E4B) bis hin zu Consumer-GPUs und Workstations (12B, 26B A4B, 31B) vorgesehen. Sie eignen sich gut für Schlussfolgerungen, agentische Workflows, Programmierung und multimodales Verstehen.

Die Modelle verwenden einen hybriden Aufmerksamkeitsmechanismus, bei dem die lokale Sliding-Window-Aufmerksamkeit mit der globalen Aufmerksamkeit verschachtelt wird. So wird sichergestellt, dass die letzte Ebene immer global ist. Dieses hybride Design bietet die Verarbeitungsgeschwindigkeit und den geringen Speicherbedarf eines schlanken Modells, ohne dass die für komplexe Aufgaben mit langem Kontext erforderliche umfassende Verarbeitung geopfert wird. Um den Arbeitsspeicher für lange Kontexte zu optimieren, verwenden globale Ebenen einheitliche Schlüssel und Werte und wenden Proportional RoPE (p-RoPE) an.

Kompakte Modelle

Attribut	E2B	E4B	12B Unified	31B Dense
Parameter insgesamt	2,3 Milliarden effektiv (5,1 Milliarden mit Einbettungen)	4,5 Milliarden effektiv (8 Milliarden mit Einbettungen)	11,95 Mrd.	30,7 Mrd.
Ebenen	35	42	48	60
Schiebefenster	512 Tokens	512 Tokens	1.024 Tokens	1.024 Tokens
Kontextlänge	128.000 Tokens	128.000 Tokens	256.000 Tokens	256.000 Tokens
Vokabulargröße	262.000	262.000	262.000	262.000
Unterstützte Modalitäten	Text, Bild, Audio	Text, Bild, Audio	Text, Bild, Audio	Text, Bild
Vision Encoder-Parameter	~150 Mio.	~150 Mio.	-	~550 Mio.
Parameter für Audio-Encoder	~300 Mio.	~300 Mio.	-	Kein Audio

Das „E“ in E2B und E4B steht für „effective“ (effektive) Parameter. Die kleineren Modelle enthalten Per-Layer Embeddings (PLE), um die Parametereffizienz bei der Bereitstellung auf Geräten zu maximieren. Anstatt dem Modell weitere Ebenen oder Parameter hinzuzufügen, erhält jede Decoderebene bei PLE für jedes Token ein eigenes kleines Embedding. Diese Einbettungstabellen sind groß, werden aber nur für schnelle Suchvorgänge verwendet. Daher ist die effektive Anzahl der Parameter viel geringer als die Gesamtzahl.

Das „Unified“ in Gemma 4 12B Unified bezieht sich auf die Encoder-kostenlose Architektur. Andere Gemma 4-Modelle verwenden dedizierte Encoder, um multimodale Daten zu verarbeiten, bevor sie an das LLM übergeben werden. Bei Gemma 4 12B werden diese Encoder vollständig entfernt. Stattdessen werden rohe Bild-Patches und Audio-Wellenformen direkt über einfache lineare Ebenen in den Einbettungsraum des LLM projiziert. Bei diesem einheitlichen Ansatz werden alle Modalitäten direkt in einen einzelnen Nur-Decoder-Transformer eingespeist. Dadurch wird die multimodale Latenz reduziert und das gesamte Modell kann in einem Durchgang optimiert werden.

MoE-Modell (Mixture of Experts)

Attribut	26B A4B MoE
Parameter insgesamt	25,2 Mrd.
Aktive Parameter	3,8 Mrd.
Ebenen	30
Schiebefenster	1.024 Tokens
Kontextlänge	256.000 Tokens
Vokabulargröße	262.000
Anzahl der Experten	8 aktiv / 128 insgesamt und 1 freigegeben
Unterstützte Modalitäten	Text, Bild
Vision Encoder-Parameter	~550 Mio.

Das „A“ in „26B A4B“ steht für „aktive Parameter“ im Gegensatz zur Gesamtzahl der Parameter, die das Modell enthält. Da während der Inferenz nur eine Teilmenge von 4 Milliarden Parametern aktiviert wird, ist das Mixture-of-Experts-Modell viel schneller als die insgesamt 26 Milliarden Parameter vermuten lassen. Das macht es zu einer ausgezeichneten Wahl für schnelle Inferenz im Vergleich zum dichten 31B-Modell, da es fast so schnell wie ein Modell mit 4 Milliarden Parametern ausgeführt wird.

Benchmark-Ergebnisse

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um unterschiedliche Aspekte der Textgenerierung abzudecken. Die in der Tabelle markierten Bewertungsergebnisse beziehen sich auf Modelle, die auf Anweisungen abgestimmt wurden.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 12B Unified	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (ohne „think“)
MMLU Pro	85,2%	82,6%	77,2%	69,4%	60,0 %	67,6%
AIME 2026 no tools	89,2%	88,3%	77,5%	42,5%	37,5 %	20,8 %
LiveCodeBench v6	80,0%	77,1%	72,0%	52,0%	44,0%	29,1%
Codeforces-ELO	2150	1718	1659	940	633	110
GPQA Diamond	84,3%	82,3%	78,8%	58,6%	43,4%	42,4%
Tau2 (Durchschnitt über 3)	76,9%	68,2%	69,0%	42,2%	24,5%	16,2%
HLE ohne Tools	19,5 %	8,7 %	5,2 %	-	-	-
HLE mit Suche	26,5%	17,2 %	-	-	-	-
BigBench Extra Hard	74,4%	64,8%	53,0%	33,1%	21,9%	19,3%
MMMLU	88,4%	86,3%	83,4%	76,6%	67,4%	70,7%
Hilfen bei eingeschränktem Sehvermögen
MMMU Pro	76,9%	73,8%	69,1%	52,6%	44,2%	49,7%
OmniDocBench 1.5 (durchschnittliche Bearbeitungsdistanz, niedriger ist besser)	0,131	0,149	0,164	0.181	0,290	0,365
MATH-Vision	85,6%	82,4%	79,7%	59,5%	52,4%	46,0%
MedXPertQA MM	61,3%	58,1%	48,7%	28,7 %	23,5%	-
Audio
CoVoST	-	-	38,5^*	35,54	33.47	-
FLEURS (je niedriger, desto besser)	-	-	0,069^*	0,08	0,09	-
Langer Kontext
MRCR v2, 8 Nadeln, 128.000 (durchschnittlich)	66,4%	44,1%	43,4%	25,4 %	19,1%	13.5%

^* Chinesisch ausgenommen.

Hauptfunktionen

Gemma 4-Modelle können eine Vielzahl von Aufgaben in den Bereichen Text, Bild und Audio bewältigen. Zu den wichtigsten Funktionen gehören:

Thinking: Integrierter Modus für logisches Denken, in dem das Modell vor der Beantwortung Schritt für Schritt überlegt.
Langer Kontext: Kontextfenster mit bis zu 128.000 Tokens (E2B/E4B) und 256.000 Tokens (12B/26B A4B/31B).
Bildanalyse: Objekterkennung, Dokument-/PDF-Parsing, Analyse von Bildschirm und Benutzeroberfläche, Diagrammanalyse, OCR (einschließlich mehrsprachiger OCR), Handschrifterkennung und Zeigen. Bilder können mit variablen Seitenverhältnissen und Auflösungen verarbeitet werden.
Video-Understanding: Videos werden analysiert, indem Sequenzen von Frames verarbeitet werden.
Verschachtelte multimodale Eingabe: Sie können Text und Bilder in beliebiger Reihenfolge in einem einzelnen Prompt kombinieren.
Funktionsaufrufe: Native Unterstützung für die strukturierte Tool-Nutzung, die Agent-Workflows ermöglicht.
Programmieren: Generierung, Vervollständigung und Korrektur von Code.
Mehrsprachig: Unterstützung für mehr als 35 Sprachen, vortrainiert auf mehr als 140 Sprachen.
Audio (nur E2B, E4B und 12B Unified): Automatische Spracherkennung (ASR) und Übersetzung von Sprache in übersetzten Text in mehreren Sprachen.

Best Practices

Mit diesen Konfigurationen und Best Practices können Sie die bestmögliche Leistung erzielen:

1. Sampling-Parameter

Verwenden Sie für alle Anwendungsfälle die folgende standardisierte Stichprobenkonfiguration:

temperature=1.0
top_p=0.95
top_k=64

2. Thinking-Modus konfigurieren

Im Vergleich zu Gemma 3 verwenden die Modelle die Standardrollen system, assistant und user. Verwenden Sie die folgenden Steuerungstokens, um den Denkprozess richtig zu verwalten:

Trigger Thinking:Der Thinking-Modus wird aktiviert, indem das Token <|think|> am Anfang des System-Prompts eingefügt wird. Wenn Sie die Funktion deaktivieren möchten, entfernen Sie das Token.
Standardgenerierung:Wenn die Denkfunktion aktiviert ist, gibt das Modell seine interne Argumentation gefolgt von der endgültigen Antwort in dieser Struktur aus: <|channel>thought\n[Interne Argumentation]<channel|>
Deaktiviertes Denkverhalten:Wenn das Denken für alle Modelle außer den E2B- und E4B-Varianten deaktiviert ist, generiert das Modell weiterhin die Tags, aber mit einem leeren Denkblock: <|channel>thought\n<channel|>[Final answer]

Viele Bibliotheken wie Transformers und llama.cpp übernehmen die Komplexität der Chatvorlage für Sie.

3. Unterhaltungen über mehrere Themen

Keine Thinking-Inhalte im Verlauf: Bei Multi-Turn-Unterhaltungen sollte die bisherige Modellausgabe nur die endgültige Antwort enthalten. Gedanken aus vorherigen Modellrunden dürfen nicht hinzugefügt werden, bevor die nächste Nutzerrunde beginnt.

4. Reihenfolge der Modalitäten

Für eine optimale Leistung mit multimodalen Eingaben sollten Sie Folgendes beachten:

Bildinhalte vor dem Text in Ihrem Prompt.
Audioinhalte nach dem Text in Ihrem Prompt.

5. Variable Bildauflösung

Neben variablen Seitenverhältnissen unterstützt Gemma 4 auch variable Bildauflösungen über ein konfigurierbares visuelles Token-Budget, das steuert, wie viele Tokens zur Darstellung eines Bildes verwendet werden. Bei einem höheren Tokenbudget bleiben mehr visuelle Details erhalten, was jedoch zusätzlichen Rechenaufwand erfordert. Ein niedrigeres Budget ermöglicht schnellere Inferenz für Aufgaben, die kein detailliertes Verständnis erfordern.

Die unterstützten Token-Budgets sind 70, 140, 280, 560 und 1.120.
- Verwenden Sie niedrigere Budgets für die Klassifizierung, Untertitelung oder Videoanalyse, bei denen eine schnellere Inferenz und die Verarbeitung vieler Frames wichtiger sind als feingliedrige Details.
- Verwenden Sie höhere Budgets für Aufgaben wie OCR, Dokument-Parsing oder das Lesen von kleinem Text.

6. Audio

Verwenden Sie die folgenden Prompt-Strukturen für die Audioverarbeitung:

Automatische Spracherkennung (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Automatische Sprachübersetzung (Automatic Speech Translation, AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Audio- und Videolänge

Alle Modelle unterstützen Bildeingaben und können Videos als Frames verarbeiten. Die Modelle E2B, E4B und 12B unterstützen auch Audioeingaben. Audio darf maximal 30 Sekunden lang sein. Das Video darf maximal 60 Sekunden lang sein, wenn die Bilder mit einer Rate von einem Frame pro Sekunde verarbeitet werden.

Modelldaten

Daten, die für das Modelltraining verwendet wurden, und wie die Daten verarbeitet wurden.

Trainings-Dataset

Unser Pre-Training-Dataset ist eine umfangreiche, vielfältige Sammlung von Daten aus einer Vielzahl von Bereichen und Modalitäten, darunter Webdokumente, Code, Bilder und Audioinhalte. Das Cutoff-Datum ist Januar 2025. Das sind die wichtigsten Komponenten:

Webdokumente: Eine vielfältige Sammlung von Webtexten sorgt dafür, dass das Modell mit einer Vielzahl von sprachlichen Stilen, Themen und Vokabeln in Berührung kommt. Das Trainings-Dataset enthält Inhalte in über 140 Sprachen.
Code: Wenn das Modell Code sieht, kann es die Syntax und Muster von Programmiersprachen lernen. Dadurch wird seine Fähigkeit verbessert, Code zu generieren und codebezogene Fragen zu verstehen.
Mathematik: Das Training mit mathematischen Texten hilft dem Modell, logische Schlussfolgerungen und symbolische Darstellungen zu lernen und mathematische Anfragen zu beantworten.
Bilder: Eine Vielzahl von Bildern ermöglicht es dem Modell, Bildanalyse- und visuelle Datenextraktionsaufgaben auszuführen.

Die Kombination dieser verschiedenen Datenquellen ist entscheidend für das Training eines leistungsstarken multimodalen Modells, das eine Vielzahl von verschiedenen Aufgaben und Datenformaten bewältigen kann.

Datenvorverarbeitung

Hier sind die wichtigsten Methoden zur Datenbereinigung und -filterung, die auf die Trainingsdaten angewendet werden:

Filtern von Darstellungen des sexuellen Missbrauchs von Kindern: In mehreren Phasen der Datenaufbereitung wurde eine strenge Filterung von Darstellungen des sexuellen Missbrauchs von Kindern angewendet, um schädliche und illegale Inhalte auszuschließen.
Filterung sensibler Daten: Um die vortrainierten Gemma-Modelle sicher und zuverlässig zu machen, wurden automatisierte Verfahren eingesetzt, um bestimmte personenbezogene Daten und andere sensible Daten aus den Trainingssets herauszufiltern.
Zusätzliche Methoden: Filtern basierend auf Inhaltsqualität und ‑sicherheit gemäß unseren Richtlinien.

Ethik und Sicherheit

Da offene Modelle für die Unternehmensinfrastruktur immer wichtiger werden, sind Herkunft und Sicherheit von entscheidender Bedeutung. Gemma 4 wurde von Google DeepMind entwickelt und unterliegt denselben strengen Sicherheitsprüfungen wie unsere proprietären Gemini-Modelle.

Evaluierungsansatz

Die Gemma 4-Modelle wurden in Zusammenarbeit mit internen Teams für Sicherheit und verantwortungsbewusste Anwendung von KI entwickelt. Es wurden verschiedene automatisierte und manuelle Bewertungen durchgeführt, um die Sicherheit des Modells zu verbessern. Diese Bewertungen entsprechen den KI-Grundsätzen von Google sowie den Sicherheitsrichtlinien, die darauf abzielen, dass unsere generativen KI-Modelle keine schädlichen Inhalte generieren, darunter:

Inhalte, die mit Darstellungen des sexuellen Missbrauchs von Kindern und Ausbeutung in Zusammenhang stehen
Gefährliche Inhalte (z.B. Inhalte, in denen Suizid befürwortet wird, oder Anleitungen für Aktivitäten, die im wirklichen Leben zu Schäden und Verletzungen führen könnten)
Sexuell explizite Inhalte
Hassrede (z.B. Entmenschlichung von Mitgliedern geschützter Gruppen)
Belästigung (z.B. Anstiftung zu Gewalt gegen Menschen)

Ergebnisse der Auswertung

Bei allen Bereichen der Sicherheitstests haben wir im Vergleich zu früheren Gemma-Modellen in allen Kategorien der Inhaltsicherheit erhebliche Verbesserungen festgestellt. Insgesamt übertreffen die Gemma 4-Modelle die Gemma 3- und 3n-Modelle deutlich in Bezug auf die Verbesserung der Sicherheit, während unberechtigte Ablehnungen niedrig bleiben. Alle Tests wurden ohne Sicherheitsfilter durchgeführt, um die Fähigkeiten und das Verhalten des Modells zu bewerten. Sowohl bei Text-zu-Text- als auch bei Bild-zu-Text-Anfragen und bei allen Modellgrößen hat das Modell nur minimale Richtlinienverstöße produziert und im Vergleich zu früheren Gemma-Modellen eine deutliche Leistungssteigerung gezeigt.

Nutzung und Einschränkungen

Diese Modelle haben bestimmte Einschränkungen, die Nutzer kennen sollten.

Vorgesehene Nutzung

Multimodale Modelle, die in der Lage sind, Bilder, Sprache und/oder Audio zu verarbeiten, haben ein breites Anwendungsspektrum in verschiedenen Branchen und Bereichen. Die folgende Liste potenzieller Anwendungsbereiche ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Modellersteller im Rahmen des Trainings und der Entwicklung des Modells berücksichtigt haben.

Erstellung von Inhalten und Kommunikation
- Textgenerierung: Diese Modelle können verwendet werden, um kreative Textformate wie Gedichte, Drehbücher, Code, Marketingtexte und E-Mail-Entwürfe zu generieren.
- Chatbots und konversationelle KI: Ermöglichen konversationelle Schnittstellen für Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
- Textzusammenfassung: Erstellen Sie prägnante Zusammenfassungen eines Textkorpus, von Forschungsarbeiten oder Berichten.
- Bilddatenextraktion: Diese Modelle können verwendet werden, um visuelle Daten für die Textkommunikation zu extrahieren, zu interpretieren und zusammenzufassen.
- Audioverarbeitung und ‑interaktion: Die Modelle E2B, E4B und 12B können Audioeingaben analysieren und interpretieren, was sprachgesteuerte Interaktionen und Transkriptionen ermöglicht.
Forschung und Bildung
- Forschung zu Natural Language Processing (NLP) und VLMs: Diese Modelle können als Grundlage für Forscher dienen, um mit VLM- und NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung des Bereichs beizutragen.
- Tools zum Sprachenlernen: Unterstützen interaktive Sprachlernfunktionen, z. B. durch Grammatikkorrektur oder Schreibübungen.
- Wissenserkundung: Forschern helfen, große Textmengen zu untersuchen, indem Zusammenfassungen erstellt oder Fragen zu bestimmten Themen beantwortet werden.

Einschränkungen

Trainingsdaten
- Die Qualität und Vielfalt der Trainingsdaten haben einen erheblichen Einfluss auf die Fähigkeiten des Modells. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen bei den Antworten des Modells führen.
- Der Umfang des Trainingsdatasets bestimmt die Themenbereiche, die das Modell effektiv abdecken kann.
Kontext und Komplexität der Aufgabe
- Modelle eignen sich gut für Aufgaben, die mit klaren Prompts und Anweisungen formuliert werden können. Offene oder hochkomplexe Aufgaben können eine Herausforderung darstellen.
- Die Leistung eines Modells kann durch die Menge des bereitgestellten Kontexts beeinflusst werden. Ein längerer Kontext führt in der Regel zu besseren Ergebnissen, bis zu einem gewissen Punkt.
Mehrdeutigkeit und Nuancen in der Sprache
- Natürliche Sprache ist von Natur aus komplex. Modelle haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildliche Sprache zu erfassen.
Sachliche Richtigkeit
- Modelle generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainingsdatasets gelernt haben. Sie sind jedoch keine Wissensdatenbanken. Sie können falsche oder veraltete Faktenbehauptungen generieren.
Common Sense
- Modelle basieren auf statistischen Mustern in der Sprache. Ihnen fehlt möglicherweise die Fähigkeit, in bestimmten Situationen gesunden Menschenverstand anzuwenden.

Ethische Aspekte und Risiken

Die Entwicklung von Vision-Language-Modellen (VLMs) wirft mehrere ethische Fragen auf. Beim Erstellen eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

Bias und Fairness
- VLMs, die mit umfangreichen, realen Text- und Bilddaten trainiert werden, können soziokulturelle Verzerrungen widerspiegeln, die im Trainingsmaterial enthalten sind. Die Gemma 4-Modelle wurden sorgfältig geprüft, die Eingabedaten wurden vorverarbeitet und es wurden Nachbearbeitungsevaluierungen durchgeführt, wie auf dieser Karte beschrieben. So soll das Risiko dieser Verzerrungen verringert werden.
Fehlinformationen und Missbrauch
- VLMs können missbraucht werden, um Text zu generieren, der falsch, irreführend oder schädlich ist.
- Richtlinien für die verantwortungsbewusste Nutzung des Modells finden Sie im Toolkit für verantwortungsbewusste generative KI.
Transparenz und Rechenschaftspflicht
- Diese Modellkarte fasst Details zur Architektur, zu den Funktionen, Einschränkungen und Bewertungsprozessen der Modelle zusammen.
- Ein verantwortungsvoll entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem VLM-Technologie für Entwickler und Forscher im gesamten KI-Ökosystem zugänglich gemacht wird.

Identifizierte Risiken und Risikominderungen:

Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwickler sollten Vorsicht walten lassen und geeignete Sicherheitsvorkehrungen für Inhalte implementieren, die auf ihren spezifischen Produktrichtlinien und Anwendungsfällen basieren.
Missbrauch für böswillige Zwecke: Technische Einschränkungen sowie Schulungen für Entwickler und Endnutzer können dazu beitragen, böswillige Anwendungen von VLMs zu verhindern. Es werden Schulungsressourcen und Meldefunktionen für Nutzer bereitgestellt, damit sie Missbrauch melden können.
Datenschutzverstöße: Die Modelle wurden mit Daten trainiert, die gefiltert wurden, um bestimmte personenbezogene Daten und andere sensible Daten zu entfernen. Entwickler werden aufgefordert, Datenschutzbestimmungen mit datenschutzfreundlichen Techniken einzuhalten.
Fortführung von Vorurteilen: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle eine kontinuierliche Überwachung (mit Bewertungsmetriken, manueller Überprüfung) durchzuführen und Techniken zur Reduzierung von Vorurteilen zu untersuchen.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie leistungsstarke Open-Vision-Language-Modellimplementierungen, die von Grund auf für die verantwortungsbewusste Anwendung von KI konzipiert wurden, verglichen mit Modellen ähnlicher Größe.