Gemma 3n mit Audioeingabe und optimiert für die Verwendung in Alltagsgeräten. Weitere Informationen

FunctionGemma-Modellkarte

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Bedingungen
Autoren: Google DeepMind

Modellinformationen

Zusammenfassende Beschreibung und kurze Definition der Ein- und Ausgaben.

Beschreibung

HINWEIS: FunctionGemma ist für die Feinabstimmung für Ihre spezifische Funktion zum Aufrufen von Funktionen vorgesehen, einschließlich Multi-Turn-Anwendungsfällen.

FunctionGemma ist ein leichtgewichtiges, offenes Modell von Google, das als Grundlage für die Erstellung eigener spezialisierter Modelle für Funktionsaufrufe dient. FunctionGemma ist nicht als direktes Dialogmodell gedacht und ist darauf ausgelegt, nach weiterer Feinabstimmung eine hohe Leistung zu erzielen, was für Modelle dieser Größe typisch ist. FunctionGemma basiert auf dem Modell Gemma 3 270M und auf derselben Forschung und Technologie, die auch für die Erstellung der Gemini-Modelle verwendet werden. Es wurde speziell für Funktionsaufrufe trainiert. Das Modell hat dieselbe Architektur wie Gemma 3, verwendet aber ein anderes Chatformat. Das Modell eignet sich gut für Funktionsaufrufe, die nur Text enthalten. Durch die einzigartig geringe Größe ist es möglich, das Modell in Umgebungen mit begrenzten Ressourcen wie Laptops, Computern oder Ihrer eigenen Cloud-Infrastruktur bereitzustellen. So wird der Zugriff auf modernste KI-Modelle demokratisiert und Innovationen für alle gefördert. Außerdem wurde das Modell wie das Basismodell Gemma 270M so optimiert, dass es äußerst vielseitig ist und auf einer Vielzahl von Hardware in Single-Turn-Szenarien eine hohe Leistung erbringt. Für die beste Genauigkeit in bestimmten Bereichen sollte es jedoch mit Single-Turn- oder Multi-Turn-aufgabenspezifischen Daten abgestimmt werden. Um zu zeigen, wie durch die Spezialisierung des Modells mit 270 Millionen Parametern eine hohe Leistung bei bestimmten Agenten-Workflows erzielt werden kann, haben wir zwei Anwendungsfälle in der Google AI Edge-Galerie App hervorgehoben.

Tiny Garden:Ein Modell, das für ein sprachgesteuertes interaktives Spiel optimiert wurde. Es verarbeitet die Spiellogik, um ein virtuelles Grundstück zu verwalten, und zerlegt Befehle wie „Sonnenblumen in der oberen Reihe pflanzen“ und „Blumen in den Beeten 1 und 2 gießen“ in appspezifische Funktionen (z.B. plant_seed, water_plots) und koordiniert Ziele. Dies zeigt, dass das Modell benutzerdefinierte App-Mechanismen ohne Serververbindung steuern kann.
Mobile Actions:Damit Entwickler ihre eigenen Expert-Agents erstellen können, haben wir einen Datensatz und ein Rezept für das Fine-Tuning veröffentlicht, um das Fine-Tuning von FunctionGemma zu demonstrieren. Sie übersetzt Nutzereingaben (z.B. „Erstelle einen Kalendertermin für das Mittagessen“ oder „Schalte die Taschenlampe ein“ in Funktionsaufrufe umwandeln, die Systemtools des Android-Betriebssystems auslösen. In diesem interaktiven Notebook wird gezeigt, wie Sie das Basismodell FunctionGemma verwenden und von Grund auf ein „Mobile Actions“-Modell für die Verwendung in der Google AI Edge-Galerie-App erstellen. Dieser Anwendungsfall demonstriert die Fähigkeit des Modells, als Offline- und privater Agent für Aufgaben auf persönlichen Geräten zu fungieren.

Eingaben und Ausgaben

Eingabe:
- Textstring, z. B. eine Frage, ein Prompt oder ein Dokument, das zusammengefasst werden soll
- Gesamter Eingabekontext von 32.000 Tokens
Ausgabe:
- Generierter Text als Reaktion auf die Eingabe, z. B. eine Antwort auf eine Frage oder eine Zusammenfassung eines Dokuments
- Gesamtausgabekontext von bis zu 32.000 Tokens pro Anfrage, abzüglich der Eingabetokens der Anfrage

Modelldaten

Daten, die für das Modelltraining verwendet wurden, und wie die Daten verarbeitet wurden.

Trainings-Dataset

Diese Modelle wurden mit einem Dataset aus Textdaten trainiert, das eine Vielzahl von Quellen umfasst. Das Modell wurde mit 6 Billionen Tokens trainiert. Der Wissensstichtag für die Trainingsdaten war August 2024. Das sind die wichtigsten Komponenten:

Öffentliche Tool-Definitionen – Häufig im Web verwendete APIs
Tool-Nutzungsinteraktionen: Diese bestehen aus einer Mischung aus Prompts, Funktionsaufrufen, Funktionsantworten und Antworten in natürlicher Sprache vom Modell, um die Antwort auf den Funktionsaufruf zusammenzufassen oder um Klarstellungen zu bitten, wenn der Prompt mehrdeutig oder unvollständig ist.

Datenvorverarbeitung

Hier sind die wichtigsten Methoden zur Datenbereinigung und -filterung, die auf die Trainingsdaten angewendet werden:

CSAM-Filterung: In mehreren Phasen der Datenaufbereitung wurde eine strenge Filterung von Darstellungen des sexuellen Missbrauchs von Kindern (Child Sexual Abuse Material, CSAM) angewendet, um schädliche und illegale Inhalte auszuschließen.
Filterung sensibler Daten: Um die vortrainierten Gemma-Modelle sicher und zuverlässig zu machen, wurden automatisierte Verfahren verwendet, um bestimmte personenbezogene Daten und andere sensible Daten aus den Trainingssets herauszufiltern.
Zusätzliche Methoden: Filtern basierend auf der Inhaltsqualität und ‑sicherheit gemäß unseren Richtlinien.

Implementierungsinformationen

Details zu den internen Abläufen des Modells.

Hardware

Gemma wurde mit Tensor Processing Unit (TPU)-Hardware (TPUv4p, TPUv5p und TPUv5e) trainiert. Das Training von Vision-Language-Modellen (VLMs) erfordert eine erhebliche Rechenleistung. TPUs wurden speziell für Matrixoperationen entwickelt, die im maschinellen Lernen üblich sind, und bieten in diesem Bereich mehrere Vorteile:

Leistung: TPUs sind speziell für die massiven Berechnungen konzipiert, die beim Trainieren von VLMs anfallen. Sie können das Training im Vergleich zu CPUs erheblich beschleunigen.
Arbeitsspeicher: TPUs haben oft einen großen Arbeitsspeicher mit hoher Bandbreite, sodass große Modelle und Batchgrößen während des Trainings verarbeitet werden können. Das kann zu einer besseren Modellqualität führen.
Skalierbarkeit: TPU-Pods (große TPU-Cluster) bieten eine skalierbare Lösung für die wachsende Komplexität großer Fundamentmodelle. Sie können das Training auf mehrere TPU-Geräte verteilen, um die Verarbeitung zu beschleunigen und effizienter zu gestalten.
Kosteneffizienz: In vielen Szenarien können TPUs eine kostengünstigere Lösung für das Training großer Modelle im Vergleich zu CPU-basierter Infrastruktur bieten, insbesondere wenn man die Zeit und Ressourcen berücksichtigt, die durch schnelleres Training eingespart werden.
Diese Vorteile stimmen mit den Verpflichtungen von Google zu einem nachhaltigen Betrieb überein.

Software

Das Training erfolgte mit JAX und ML Pathways. Mit JAX können Forscher die neueste Generation von Hardware, einschließlich TPUs, nutzen, um große Modelle schneller und effizienter zu trainieren. ML Pathways ist die neueste Initiative von Google zur Entwicklung von KI-Systemen, die in der Lage sind, mehrere Aufgaben zu verallgemeinern. Das ist besonders für Foundation Models geeignet, einschließlich Large Language Models wie diesen.
JAX und ML Pathways werden gemeinsam wie im Paper über die Gemini-Modellfamilie beschrieben verwendet: „Das Programmiermodell ‚Single Controller‘ von Jax und Pathways ermöglicht es, den gesamten Trainingslauf mit einem einzigen Python-Prozess zu orchestrieren, was den Entwicklungsablauf erheblich vereinfacht.“

Bewertung

Messwerte und Ergebnisse der Modellbewertung.

Benchmark-Ergebnisse

Benchmark	n-shot	Funktion „Gemma 270M“
BFCL Simple	0-Shot	61,6
BFCL Multiple	0-Shot	63,5
BFCL Parallel	0-Shot	39
BFCL Parallel Multiple	0-Shot	29,5
BFCL Live Simple	0-Shot	36.2
BFCL Live Multiple	0-Shot	25.7
BFCL Live Parallel	0-Shot	22.9
BFCL Live Parallel Multiple	0-Shot	20.8
BFCL-Relevanz	0-Shot	61.1
Irrelevanz von BFCL	0-Shot	73,7

Auswirkungen auf die Leistung nach dem Fine-Tuning mit dem Mobile Actions-Dataset
Um den Wert der Spezialisierung für kleine Sprachmodelle zu demonstrieren, haben wir das FunctionGemma-Basismodell mit dem abgestimmten Modell verglichen, indem wir das Rezept „Mobile Actions“ verwendet haben. Durch die Feinabstimmung wurde die Fähigkeit des Basismodells FunctionGemma, mobile Systemaufrufe korrekt zu identifizieren und zu formatieren, erheblich verbessert.

Modell	Auswertungsergebnisse für mobile Aktionen
BasisfunktionGemma-Modell	58%
Mobile Actions Fine-Tune	85%

On-Device-Leistung der für Gemma 270M optimierten Anwendungsfälle
Wir haben die optimierten Anwendungsfälle auf einem Samsung S25 Ultra getestet, um die On-Device-Latenz und den Speicherbedarf zu ermitteln.

Kontext:512 Prefill-Tokens und 32 Decode-Tokens.
Hardware:S25 Ultra-CPU mit LiteRT XNNPACK-Delegate mit 4 Threads.

Auswirkungen von mobilen Aktionen auf die Geräteleistung

Backend	Quantisierungsschema	Kontextlänge	Prefill (Tokens pro Sekunde)	Decodieren (Tokens pro Sekunde)	Zeit bis zum ersten Token (Sekunden)	Modellgröße (MB)	Maximaler RSS-Arbeitsspeicher (MB)
CPU	dynamic_int8	1024	1718	125.9	0.3	288	551

Auswirkungen von Tiny Garden auf die Geräteleistung

Backend	Quantisierungsschema	Kontextlänge	Prefill (Tokens pro Sekunde)	Decodieren (Tokens pro Sekunde)	Zeit bis zum ersten Token (Sekunden)	Modellgröße (MB)	Maximaler RSS-Arbeitsspeicher (MB)
CPU	dynamic_int8	1024	1743	125.7	0.3	288	549

Ethik und Sicherheit

Ansatz und Ergebnisse der ethischen und sicherheitsbezogenen Bewertung.

Bewertungsansatz

Unsere Bewertungsmethoden umfassen strukturierte Bewertungen und interne Red-Teaming-Tests relevanter Inhaltsrichtlinien. Das Red-Teaming wurde von einer Reihe verschiedener Teams durchgeführt, die jeweils unterschiedliche Ziele und Messwerte für die menschliche Bewertung hatten. Diese Modelle wurden anhand einer Reihe von Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:

Kinderschutz: Bewertung von Text-zu-Text- und Bild-zu-Text-Prompts, die Richtlinien zum Kinderschutz abdecken, einschließlich sexueller Missbrauch und Ausbeutung von Kindern.
Inhaltssicherheit:Bewertung von Text-zu-Text- und Bild-zu-Text-Prompts in Bezug auf Sicherheitsrichtlinien, einschließlich Belästigung, Gewalt und Grausamkeit sowie Hassrede.
Darstellungsbezogene Schäden: Bewertung von Text-zu-Text- und Bild-zu-Text-Prompts, die Sicherheitsrichtlinien wie Vorurteile, Stereotypen und schädliche Assoziationen oder Ungenauigkeiten abdecken.

Bewertungsergebnisse

In allen Bereichen der Sicherheitstests haben wir im Vergleich zu früheren Gemma-Modellen erhebliche Verbesserungen in den Kategorien Kindersicherheit, Inhaltssicherheit und Repräsentationsschäden festgestellt. Alle Tests wurden ohne Sicherheitsfilter durchgeführt, um die Fähigkeiten und das Verhalten des Modells zu bewerten. Das Modell hat nur wenige Richtlinienverstöße verursacht und im Vergleich zu früheren Gemma-Modellen eine deutlich bessere Leistung in Bezug auf unbegründete Schlussfolgerungen gezeigt. Eine Einschränkung unserer Auswertungen bestand darin, dass sie nur englischsprachige Prompts enthielten.

Nutzung und Einschränkungen

Diese Modelle unterliegen bestimmten Einschränkungen, die Nutzer kennen sollten.

Vorgesehene Nutzung

Dieses Modell ist nicht für die Verwendung als direktes Dialogmodell vorgesehen.
Offene Large Language Models (LLMs) haben ein breites Anwendungsspektrum in verschiedenen Branchen und Bereichen. Die folgende Liste potenzieller Verwendungszwecke ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Modellersteller im Rahmen des Trainings und der Entwicklung des Modells berücksichtigt haben.

Erstellung von Inhalten und Kommunikation
- Textgenerierung: Diese Modelle können verwendet werden, um kreative Textformate wie Gedichte, Drehbücher, Code, Marketingtexte und E-Mail-Entwürfe zu generieren.
- Chatbots und konversationelle KI: Konversationelle Schnittstellen für Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
- Textzusammenfassung: Erstellen Sie prägnante Zusammenfassungen eines Textkorpus, von Forschungsarbeiten oder Berichten.
Forschung und Bildung
- Forschung im Bereich Natural Language Processing (NLP): Diese Modelle können als Grundlage für Forscher dienen, um mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung des Bereichs beizutragen.
- Sprachlerntools: Unterstützung interaktiver Sprachlernfunktionen, z. B. zur Korrektur von Grammatik oder zum Üben des Schreibens.
- Wissenserkundung: Forschern helfen, große Textmengen zu analysieren, indem Zusammenfassungen erstellt oder Fragen zu bestimmten Themen beantwortet werden.

Beschränkungen

Trainingsdaten
- Die Qualität und Vielfalt der Trainingsdaten haben einen erheblichen Einfluss auf die Fähigkeiten des Modells. Bias oder Lücken in den Trainingsdaten können zu Einschränkungen bei den Antworten des Modells führen.
- Der Umfang des Trainingsdatasets bestimmt die Themenbereiche, die das Modell effektiv abdecken kann.
Kontext und Komplexität der Aufgabe
- Modelle eignen sich besser für Aufgaben, die mit klaren Prompts und Anweisungen formuliert werden können. Offene oder hochkomplexe Aufgaben können eine Herausforderung darstellen.
- Die Leistung eines Modells kann durch die Menge des bereitgestellten Kontexts beeinflusst werden. Ein längerer Kontext führt in der Regel zu besseren Ergebnissen, bis zu einem gewissen Punkt.
Mehrdeutigkeit und Nuancen in der Sprache
- Natürliche Sprache ist von Natur aus komplex. Modelle haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildliche Sprache zu erfassen.
Sachliche Richtigkeit
- Modelle generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainingsdatasets gelernt haben. Sie sind jedoch keine Wissensdatenbanken. Sie können falsche oder veraltete Faktenbehauptungen generieren.
Common Sense
- Modelle basieren auf statistischen Mustern in der Sprache. Ihnen fehlt möglicherweise die Fähigkeit, in bestimmten Situationen gesunden Menschenverstand anzuwenden.

Ethische Aspekte und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Fragen auf. Beim Erstellen eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

Bias und Fairness
- LLMs, die mit umfangreichen, realen Textdaten trainiert werden, können soziokulturelle Voreingenommenheiten widerspiegeln, die im Trainingsmaterial enthalten sind. Diese Modelle wurden sorgfältig geprüft. Die Vorverarbeitung der Eingabedaten wird beschrieben und die Posterior-Bewertungen werden auf dieser Karte angegeben.
Fehlinformationen und Missbrauch
- LLMs können missbraucht werden, um Text zu generieren, der falsch, irreführend oder schädlich ist.
- Es gibt Richtlinien für die verantwortungsbewusste Nutzung des Modells. Weitere Informationen finden Sie im Toolkit für verantwortungsbewusste generative KI.
Transparenz und Rechenschaftspflicht:
- Diese Modellkarte fasst Details zur Architektur, zu den Funktionen, Einschränkungen und Bewertungsprozessen der Modelle zusammen.
- Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem LLM-Technologie für Entwickler und Forscher im gesamten KI-Ökosystem zugänglich gemacht wird.

Identifizierte Risiken und Risikominderungsmaßnahmen:

Aufrechterhaltung von Vorurteilen: Es wird empfohlen, kontinuierliche Überwachung (mit Bewertungsmetriken, manueller Überprüfung) und die Untersuchung von Techniken zur Reduzierung von Vorurteilen während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle durchzuführen.
Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwickler sollten Vorsicht walten lassen und geeignete Sicherheitsvorkehrungen für Inhalte auf Grundlage ihrer spezifischen Produktrichtlinien und Anwendungsfälle implementieren.
Missbrauch für böswillige Zwecke: Technische Einschränkungen sowie Schulungen für Entwickler und Endnutzer können dazu beitragen, böswillige Anwendungen von LLMs zu verhindern. Es werden Bildungsressourcen und Meldemechanismen für Nutzer bereitgestellt, um Missbrauch zu melden. Die unzulässige Nutzung von Gemma-Modellen ist in der Richtlinie zur unzulässigen Nutzung von Gemma beschrieben.
Datenschutzverstöße: Die Modelle wurden mit Daten trainiert, die gefiltert wurden, um personenidentifizierbare Informationen zu entfernen. Entwickler werden aufgefordert, Datenschutzbestimmungen mit datenschutzfreundlichen Techniken einzuhalten.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie leistungsstarke offene Large Language Model-Implementierungen, die von Grund auf für die Entwicklung von Responsible AI konzipiert wurden und im Vergleich zu Modellen ähnlicher Größe eine bessere Leistung bieten.