Gemma 4 wurde veröffentlicht und unterstützt Text-, Audio- und Bildeingaben sowie ein langes Kontextfenster mit bis zu 256.000 Tokens. Weitere Informationen

Modellkarte für Gemma 4

Gemma 4-Banner

Hugging Face | GitHub | Launch Blog | Dokumentation
Lizenz: Apache 2.0 | Autoren: Google DeepMind

Gemma ist eine Reihe offener Modelle, die von Google DeepMind entwickelt wurden. Gemma 4-Modelle sind multimodal und können Text- und Bildeingaben verarbeiten (Audio wird bei kleinen Modellen unterstützt). Sie generieren Textausgaben. Diese Version umfasst Modelle mit offenen Gewichten in vortrainierten und anweisungsoptimierten Varianten. Gemma 4 bietet ein Kontextfenster mit bis zu 256.000 Tokens und unterstützt weiterhin mehr als 140 Sprachen.

Gemma 4 basiert auf Dense- und Mixture-of-Experts-Architekturen (MoE) und eignet sich gut für Aufgaben wie Textgenerierung, Programmierung und Schlussfolgern. Die Modelle sind in vier verschiedenen Größen verfügbar: E2B, E4B, 26B A4B und 31B. Dank ihrer unterschiedlichen Größen können sie in Umgebungen eingesetzt werden, die von High-End-Smartphones bis hin zu Laptops und Servern reichen. So wird der Zugriff auf modernste KI demokratisiert.

Gemma 4 bietet wichtige Funktions- und Architekturverbesserungen:

Schlussfolgerungen: Alle Modelle der Familie sind als leistungsstarke Schlussfolgerungsmodelle konzipiert und verfügen über konfigurierbare Denkmodi.
Erweiterte Multimodalitäten: Verarbeitet Text, Bilder mit variablem Seitenverhältnis und variabler Auflösung (alle Modelle), Videos und Audio (nativ auf den Modellen E2B und E4B).
Vielfältige und effiziente Architekturen: Es gibt dichte und Mixture-of-Experts-Varianten (MoE) in verschiedenen Größen für eine skalierbare Bereitstellung.
Für die Ausführung auf Geräten optimiert: Kleinere Modelle sind speziell für die effiziente lokale Ausführung auf Laptops und Mobilgeräten konzipiert.
Größeres Kontextfenster: Die kleinen Modelle haben ein Kontextfenster mit 128.000 Tokens, die mittelgroßen Modelle unterstützen 256.000 Tokens.
Verbesserte Programmier- und Agentic-Funktionen: Das Modell erzielt bemerkenswerte Verbesserungen bei Programmier-Benchmarks und bietet native Unterstützung für Funktionsaufrufe, wodurch leistungsstarke autonome Agents möglich werden.
Native Unterstützung für Systemprompts: Gemma 4 bietet native Unterstützung für die Rolle system, was strukturiertere und besser steuerbare Unterhaltungen ermöglicht.

Modelle – Übersicht

Gemma 4-Modelle sind darauf ausgelegt, in jeder Größe eine Spitzenleistung zu erzielen. Sie sind für Bereitstellungsszenarien von Mobil- und Edge-Geräten (E2B, E4B) bis hin zu Consumer-GPUs und Workstations (26B A4B, 31B) vorgesehen. Sie eignen sich gut für Logik, agentische Workflows, Programmierung und multimodales Verständnis.

Die Modelle verwenden einen hybriden Aufmerksamkeitsmechanismus, bei dem die lokale Sliding-Window-Aufmerksamkeit mit der globalen Aufmerksamkeit verschachtelt wird. So wird sichergestellt, dass die letzte Ebene immer global ist. Dieses hybride Design bietet die Verarbeitungsgeschwindigkeit und den geringen Speicherbedarf eines schlanken Modells, ohne dass die für komplexe Aufgaben mit langem Kontext erforderliche umfassende Verarbeitung verloren geht. Um den Arbeitsspeicher für lange Kontexte zu optimieren, bieten globale Ebenen einheitliche Schlüssel und Werte und wenden Proportional RoPE (p-RoPE) an.

Kompakte Modelle

Attribut	E2B	E4B	31B Dense
Parameter insgesamt	2,3 Milliarden effektiv (5,1 Milliarden mit Einbettungen)	4,5 Milliarden effektiv (8 Milliarden mit Einbettungen)	30,7 Mrd.
Ebenen	35	42	60
Schiebefenster	512 Tokens	512 Tokens	1.024 Tokens
Kontextlänge	128.000 Tokens	128.000 Tokens	256.000 Tokens
Vokabulargröße	262.000	262.000	262.000
Unterstützte Modalitäten	Text, Bild, Audio	Text, Bild, Audio	Text, Bild
Vision Encoder-Parameter	~150 Mio.	~150 Mio.	~550 Mio.
Parameter für Audio-Encoder	~300 Mio.	~300 Mio.	Kein Audio

Das „E“ in E2B und E4B steht für „effective“ (effektive) Parameter. Die kleineren Modelle enthalten Per-Layer Embeddings (PLE), um die Parametereffizienz bei der Bereitstellung auf Geräten zu maximieren. Anstatt dem Modell weitere Ebenen oder Parameter hinzuzufügen, erhält jede Decoderebene bei PLE für jedes Token ein eigenes kleines Embedding. Diese Einbettungstabellen sind groß, werden aber nur für schnelle Suchvorgänge verwendet. Daher ist die effektive Anzahl der Parameter viel kleiner als die Gesamtzahl.

MoE-Modell (Mixture of Experts)

Attribut	26B A4B MoE
Parameter insgesamt	25,2 Mrd.
Aktive Parameter	3,8 Mrd.
Ebenen	30
Schiebefenster	1.024 Tokens
Kontextlänge	256.000 Tokens
Vokabulargröße	262.000
Anzahl der Experten	8 aktive / 128 insgesamt und 1 geteilte
Unterstützte Modalitäten	Text, Bild
Vision Encoder-Parameter	~550 Mio.

Das „A“ in „26B A4B“ steht für „aktive Parameter“ im Gegensatz zur Gesamtzahl der Parameter, die das Modell enthält. Da während der Inferenz nur eine Teilmenge von 4 Milliarden Parametern aktiviert wird, ist das Mixture-of-Experts-Modell viel schneller als die Gesamtzahl von 26 Milliarden Parameter vermuten lässt. Das macht es zu einer ausgezeichneten Wahl für schnelle Inferenz im Vergleich zum dichten 31B-Modell, da es fast so schnell wie ein Modell mit 4 Milliarden Parametern ausgeführt wird.

Benchmark-Ergebnisse

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um verschiedene Aspekte der Textgenerierung abzudecken. Die in der Tabelle markierten Bewertungsergebnisse beziehen sich auf Modelle, die auf Anweisungen abgestimmt wurden.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (ohne „think“)
MMLU Pro	85,2%	82,6%	69,4%	60,0 %	67,6%
AIME 2026 – keine Tools	89,2%	88,3%	42,5%	37,5 %	20,8 %
LiveCodeBench v6	80,0%	77,1%	52,0%	44,0%	29,1%
Codeforces-ELO	2150	1718	940	633	110
GPQA Diamond	84,3%	82,3%	58,6%	43,4%	42,4%
Tau2 (Durchschnitt über 3)	76,9%	68,2%	42,2%	24,5%	16,2%
HLE ohne Tools	19,5 %	8,7 %	-	-	-
HLE mit Suche	26,5%	17,2 %	-	-	-
BigBench Extra Hard	74,4%	64,8%	33,1%	21,9%	19,3%
MMMLU	88,4%	86,3%	76,6%	67,4%	70,7%
Hilfen bei eingeschränktem Sehvermögen
MMMU Pro	76,9%	73,8%	52,6%	44,2%	49,7%
OmniDocBench 1.5 (durchschnittliche Bearbeitungsdistanz, niedriger ist besser)	0,131	0,149	0.181	0,290	0,365
MATH-Vision	85,6%	82,4%	59,5%	52,4%	46,0%
MedXPertQA MM	61,3%	58,1%	28,7 %	23,5%	-
Audio
CoVoST	-	-	35,54	33.47	-
FLEURS (je niedriger, desto besser)	-	-	0,08	0,09	-
Langer Kontext
MRCR v2 8 Nadeln 128.000 (durchschnittlich)	66,4%	44,1%	25,4 %	19,1%	13.5%

Hauptfunktionen

Gemma 4-Modelle können eine Vielzahl von Aufgaben in den Bereichen Text, Bild und Audio bewältigen. Zu den wichtigsten Funktionen gehören:

Thinking (Denken): Integrierter Modus, in dem das Modell vor der Beantwortung Schritt für Schritt überlegt.
Langer Kontext: Kontextfenster mit bis zu 128.000 Tokens (E2B/E4B) und 256.000 Tokens (26B A4B/31B).
Bildanalyse: Objekterkennung, Dokument-/PDF-Parsing, Analyse von Bildschirm und Benutzeroberfläche, Diagrammanalyse, OCR (einschließlich mehrsprachiger OCR), Handschrifterkennung und Zeigen. Bilder können mit variablen Seitenverhältnissen und Auflösungen verarbeitet werden.
Video Understanding: Videos werden analysiert, indem Sequenzen von Frames verarbeitet werden.
Verschachtelte multimodale Eingabe: Sie können Text und Bilder in beliebiger Reihenfolge in einem einzelnen Prompt kombinieren.
Funktionsaufrufe: Native Unterstützung für die strukturierte Tool-Nutzung, die Agent-Workflows ermöglicht.
Programmieren: Generierung, Vervollständigung und Korrektur von Code.
Mehrsprachig: Unterstützung für über 35 Sprachen, vortrainiert auf über 140 Sprachen.
Audio (nur E2B und E4B): Automatische Spracherkennung (ASR) und Übersetzung von Sprache in übersetzten Text in mehreren Sprachen.

Erste Schritte

Sie können alle Gemma 4-Modelle mit der neuesten Version von Transformers verwenden. Installieren Sie zuerst die erforderlichen Abhängigkeiten in Ihrer Umgebung:

pip install -U transformers torch accelerate

Sobald Sie alles installiert haben, können Sie das Modell mit dem folgenden Code laden:

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

Sobald das Modell geladen ist, können Sie mit der Generierung von Ausgaben beginnen:

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

Um die Begründung zu aktivieren, legen Sie enable_thinking=True fest. Die Funktion parse_response übernimmt dann das Parsen der Ausgabe.

Best Practices

Mit diesen Konfigurationen und Best Practices können Sie die bestmögliche Leistung erzielen:

1. Sampling-Parameter

Verwenden Sie für alle Anwendungsfälle die folgende standardisierte Stichprobenkonfiguration:

temperature=1.0
top_p=0.95
top_k=64

2. Konfiguration des Thinking-Modus

Im Vergleich zu Gemma 3 verwenden die Modelle die Standardrollen system, assistant und user. Verwenden Sie die folgenden Steuerungstokens, um den Denkprozess richtig zu verwalten:

Trigger Thinking:Der Thinking-Modus wird aktiviert, indem das Token <|think|> am Anfang des System-Prompts eingefügt wird. Wenn Sie die Funktion deaktivieren möchten, entfernen Sie das Token.
Standardgenerierung:Wenn die Denkprozesse aktiviert sind, gibt das Modell seine internen Überlegungen gefolgt von der endgültigen Antwort in dieser Struktur aus: <|channel>thought\n[Interne Überlegungen]<channel|>
Deaktiviertes Denkverhalten:Wenn das Denken für alle Modelle außer den E2B- und E4B-Varianten deaktiviert ist, generiert das Modell weiterhin die Tags, aber mit einem leeren Denkblock: <|channel>thought\n<channel|>[Final answer]

Viele Bibliotheken wie Transformers und llama.cpp übernehmen die Komplexität der Chatvorlage für Sie.

3. Unterhaltungen über mehrere Themen

Kein Thinking-Inhalt im Verlauf: Bei Multi-Turn-Unterhaltungen sollte die bisherige Modellausgabe nur die endgültige Antwort enthalten. Gedanken aus vorherigen Modell-Turns dürfen nicht hinzugefügt werden, bevor der nächste Nutzer-Turn beginnt.

4. Reihenfolge der Modalitäten

Für eine optimale Leistung bei multimodalen Eingaben sollten Sie Bild- und/oder Audioinhalte vor dem Text in Ihrem Prompt platzieren.

5. Variable Bildauflösung

Neben variablen Seitenverhältnissen unterstützt Gemma 4 auch variable Bildauflösungen durch ein konfigurierbares visuelles Token-Budget, das steuert, wie viele Tokens zur Darstellung eines Bildes verwendet werden. Bei einem höheren Tokenbudget bleiben mehr visuelle Details erhalten, was jedoch zusätzlichen Rechenaufwand erfordert. Ein niedrigeres Budget ermöglicht eine schnellere Inferenz für Aufgaben, die kein detailliertes Verständnis erfordern.

Die unterstützten Token-Budgets sind 70, 140, 280, 560 und 1.120.
- Verwenden Sie niedrigere Budgets für Klassifizierung, Untertitelung oder Videoanalyse, bei denen eine schnellere Inferenz und die Verarbeitung vieler Frames wichtiger sind als detaillierte Informationen.
- Verwenden Sie höhere Budgets für Aufgaben wie OCR, Dokumentanalyse oder das Lesen von kleinem Text.

6. Audio

Verwenden Sie die folgenden Prompt-Strukturen für die Audioverarbeitung:

Automatische Spracherkennung (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Automatische Sprachübersetzung (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Audio- und Videolänge

Alle Modelle unterstützen Bildeingaben und können Videos als Frames verarbeiten. Die Modelle E2B und E4B unterstützen auch Audioeingaben. Audio darf maximal 30 Sekunden lang sein. Das Video darf maximal 60 Sekunden lang sein, wenn die Bilder mit einer Bildrate von einem Bild pro Sekunde verarbeitet werden.

Modelldaten

Daten, die für das Modelltraining verwendet wurden, und wie die Daten verarbeitet wurden.

Trainings-Dataset

Unser Pre-Training-Dataset ist eine umfangreiche, vielfältige Sammlung von Daten aus einer Vielzahl von Bereichen und Modalitäten, darunter Webdokumente, Code, Bilder und Audioinhalte. Das Cutoff-Datum ist Januar 2025. Das sind die wichtigsten Komponenten:

Webdokumente: Eine vielfältige Sammlung von Webtexten sorgt dafür, dass das Modell mit einer Vielzahl von sprachlichen Stilen, Themen und Vokabeln in Berührung kommt. Das Trainings-Dataset enthält Inhalte in über 140 Sprachen.
Code: Wenn das Modell Code sieht, kann es die Syntax und Muster von Programmiersprachen lernen. Dadurch wird seine Fähigkeit verbessert, Code zu generieren und codebezogene Fragen zu verstehen.
Mathematik: Durch das Training mit mathematischen Texten lernt das Modell logisches Denken, symbolische Darstellung und die Beantwortung mathematischer Anfragen.
Bilder: Eine Vielzahl von Bildern ermöglicht es dem Modell, Bildanalyse- und visuelle Datenextraktionsaufgaben auszuführen.

Die Kombination dieser verschiedenen Datenquellen ist entscheidend für das Training eines leistungsstarken multimodalen Modells, das eine Vielzahl von verschiedenen Aufgaben und Datenformaten bewältigen kann.

Datenvorverarbeitung

Hier sind die wichtigsten Methoden zur Bereinigung und Filterung von Daten, die auf die Trainingsdaten angewendet werden:

Filterung von Darstellungen des sexuellen Missbrauchs von Kindern: In mehreren Phasen der Datenaufbereitung wurde eine strenge Filterung von Darstellungen des sexuellen Missbrauchs von Kindern angewendet, um schädliche und illegale Inhalte auszuschließen.
Filterung sensibler Daten: Um Gemma-Modelle sicher und zuverlässig zu machen, wurden bestimmte personenbezogene Daten und andere sensible Daten aus den Trainingssets herausgefiltert.
Zusätzliche Methoden: Filtern basierend auf Inhaltsqualität und ‑sicherheit gemäß unseren Richtlinien.

Ethik und Sicherheit

Da offene Modelle für die Unternehmensinfrastruktur immer wichtiger werden, sind Herkunft und Sicherheit von entscheidender Bedeutung. Gemma 4 wurde von Google DeepMind entwickelt und unterliegt denselben strengen Sicherheitsprüfungen wie unsere proprietären Gemini-Modelle.

Evaluierungsansatz

Die Gemma 4-Modelle wurden in Zusammenarbeit mit internen Teams für Sicherheit und verantwortungsbewusste KI entwickelt. Es wurden verschiedene automatisierte und manuelle Bewertungen durchgeführt, um die Sicherheit des Modells zu verbessern. Diese Bewertungen entsprechen den KI-Grundsätzen von Google sowie den Sicherheitsrichtlinien, die darauf abzielen, dass unsere generativen KI-Modelle keine schädlichen Inhalte generieren, darunter:

Inhalte, die sich auf Darstellungen des sexuellen Missbrauchs von Kindern und Ausbeutung beziehen
Gefährliche Inhalte (z.B. Inhalte, in denen Suizid befürwortet wird, oder Anleitungen für Aktivitäten, die im wirklichen Leben zu Schäden und Verletzungen führen könnten)
Sexuell explizite Inhalte
Hassrede (z.B. Entmenschlichung von Mitgliedern geschützter Gruppen)
Belästigung (z.B. Anstiftung zu Gewalt gegen Menschen)

Ergebnisse der Auswertung

Bei allen Bereichen der Sicherheitstests haben wir im Vergleich zu früheren Gemma-Modellen in allen Kategorien der Inhaltssicherheit erhebliche Verbesserungen festgestellt. Insgesamt übertreffen die Gemma 4-Modelle die Gemma 3- und 3n-Modelle deutlich in Bezug auf die Verbesserung der Sicherheit, während unberechtigte Ablehnungen niedrig bleiben. Alle Tests wurden ohne Sicherheitsfilter durchgeführt, um die Fähigkeiten und das Verhalten des Modells zu bewerten. Sowohl bei Text-zu-Text- als auch bei Bild-zu-Text-Anfragen und bei allen Modellgrößen hat das Modell nur minimale Richtlinienverstöße produziert und im Vergleich zu früheren Gemma-Modellen eine deutliche Leistungssteigerung gezeigt.

Nutzung und Einschränkungen

Diese Modelle unterliegen bestimmten Einschränkungen, die Nutzer kennen sollten.

Vorgesehene Nutzung

Multimodale Modelle, die in der Lage sind, Bilder, Sprache und/oder Audio zu verarbeiten, haben ein breites Anwendungsspektrum in verschiedenen Branchen und Bereichen. Die folgende Liste potenzieller Anwendungsbereiche ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Modellentwickler im Rahmen des Modelltrainings und der Modellentwicklung berücksichtigt haben.

Erstellung von Inhalten und Kommunikation
- Textgenerierung: Diese Modelle können verwendet werden, um kreative Textformate wie Gedichte, Drehbücher, Code, Marketingtexte und E‑Mail-Entwürfe zu generieren.
- Chatbots und Conversational AI: Kommunikationsschnittstellen für Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
- Textzusammenfassung: Erstellen Sie prägnante Zusammenfassungen eines Textkorpus, von Forschungsarbeiten oder Berichten.
- Bilddatenextraktion: Diese Modelle können verwendet werden, um visuelle Daten für die Textkommunikation zu extrahieren, zu interpretieren und zusammenzufassen.
- Audioverarbeitung und ‑interaktion: Die kleineren Modelle (E2B und E4B) können Audioeingaben analysieren und interpretieren, was sprachgesteuerte Interaktionen und Transkriptionen ermöglicht.
Forschung und Bildung
- Forschung zu Natural Language Processing (NLP) und VLMs: Diese Modelle können als Grundlage für Forscher dienen, um mit VLM- und NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung des Bereichs beizutragen.
- Tools zum Sprachenlernen: Unterstützen interaktive Sprachlernfunktionen, die bei der Grammatikkorrektur helfen oder Schreibübungen anbieten.
  - Wissenserkundung: Forschern helfen, große Textmengen zu untersuchen, indem Zusammenfassungen erstellt oder Fragen zu bestimmten Themen beantwortet werden.

Einschränkungen

Trainingsdaten
- Die Qualität und Vielfalt der Trainingsdaten haben einen erheblichen Einfluss auf die Fähigkeiten des Modells. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen bei den Antworten des Modells führen.
- Der Umfang des Trainingsdatensatzes bestimmt die Themenbereiche, die das Modell effektiv abdecken kann.
Kontext und Komplexität der Aufgabe
- Modelle eignen sich gut für Aufgaben, die mit klaren Prompts und Anweisungen formuliert werden können. Offene oder hochkomplexe Aufgaben können eine Herausforderung darstellen.
- Die Leistung eines Modells kann durch die Menge des bereitgestellten Kontexts beeinflusst werden. Ein längerer Kontext führt in der Regel zu besseren Ergebnissen, bis zu einem gewissen Punkt.
Mehrdeutigkeit und Nuancen der Sprache
- Natürliche Sprache ist von Natur aus komplex. Modelle haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildliche Sprache zu erfassen.
Sachliche Richtigkeit
- Modelle generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainingsdatasets gelernt haben. Sie sind jedoch keine Wissensdatenbanken. Sie können falsche oder veraltete Faktenbehauptungen generieren.
Common Sense
- Modelle basieren auf statistischen Mustern in der Sprache. Ihnen fehlt möglicherweise die Fähigkeit, in bestimmten Situationen auf den gesunden Menschenverstand zu vertrauen.

Ethische Aspekte und Risiken

Die Entwicklung von Vision-Language-Modellen (VLMs) wirft mehrere ethische Fragen auf. Bei der Entwicklung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

Verzerrung und Fairness
- VLMs, die mit umfangreichen, realen Text- und Bilddaten trainiert werden, können soziokulturelle Vorurteile widerspiegeln, die im Trainingsmaterial enthalten sind. Die Gemma 4-Modelle wurden sorgfältig geprüft, die Eingabedaten wurden vorverarbeitet und nach dem Training wurden Evaluierungen durchgeführt, wie auf dieser Karte beschrieben. So soll das Risiko dieser Verzerrungen verringert werden.
Fehlinformationen und Missbrauch
- VLMs können missbraucht werden, um Text zu generieren, der falsch, irreführend oder schädlich ist.
- Richtlinien für die verantwortungsbewusste Nutzung des Modells finden Sie im Toolkit für verantwortungsbewusste generative KI.
Transparenz und Rechenschaftspflicht
- Diese Modellkarte fasst Details zur Architektur, zu den Funktionen, Einschränkungen und Bewertungsverfahren der Modelle zusammen.
- Ein verantwortungsvoll entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem VLM-Technologie für Entwickler und Forscher im gesamten KI-Ökosystem zugänglich gemacht wird.

Identifizierte Risiken und Risikominderungen:

Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwickler sollten Vorsicht walten lassen und geeignete Sicherheitsvorkehrungen für Inhalte auf Grundlage ihrer spezifischen Produktrichtlinien und Anwendungsfälle implementieren.
Missbrauch für böswillige Zwecke: Technische Einschränkungen und die Aufklärung von Entwicklern und Endnutzern können dazu beitragen, böswillige Anwendungen von VLMs zu verhindern. Es werden Informationsressourcen und Meldefunktionen für Nutzer bereitgestellt, damit sie Missbrauch melden können.
Datenschutzverstöße: Die Modelle wurden mit Daten trainiert, die gefiltert wurden, um bestimmte personenbezogene Daten und andere vertrauliche Daten zu entfernen. Entwickler werden aufgefordert, Datenschutzbestimmungen mit datenschutzfreundlichen Techniken einzuhalten.
Verfestigung von Vorurteilen: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle eine kontinuierliche Überwachung (mit Bewertungsmetriken, manueller Überprüfung) durchzuführen und Techniken zur Reduzierung von Vorurteilen zu untersuchen.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie leistungsstarke Open-Vision-Language-Modellimplementierungen, die von Grund auf für die verantwortungsbewusste KI-Entwicklung konzipiert wurden, verglichen mit Modellen ähnlicher Größe.