FunctionGemma-Modellkarte

Modellseite: FunctionGemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Bedingungen
Autoren: Google DeepMind

Modellinformationen

Zusammenfassende Beschreibung und kurze Definition der Ein- und Ausgaben.

Beschreibung

HINWEIS: FunctionGemma ist für die Feinabstimmung für Ihre spezifische Funktion zum Aufrufen von Funktionen vorgesehen, einschließlich Multi-Turn-Anwendungsfällen.

FunctionGemma ist ein leichtgewichtiges, offenes Modell von Google, das als Grundlage für die Erstellung eigener spezialisierter Modelle für Funktionsaufrufe dient. FunctionGemma ist nicht als direktes Dialogmodell gedacht und ist darauf ausgelegt, nach weiterer Feinabstimmung eine hohe Leistung zu erzielen, was für Modelle dieser Größe typisch ist. FunctionGemma basiert auf dem Modell Gemma 3 270M und auf derselben Forschung und Technologie, die auch für die Erstellung der Gemini-Modelle verwendet werden. Es wurde speziell für Funktionsaufrufe trainiert. Das Modell hat dieselbe Architektur wie Gemma 3, verwendet aber ein anderes Chatformat. Das Modell eignet sich gut für Funktionsaufrufe, die nur Text enthalten. Die einzigartig geringe Größe ermöglicht die Bereitstellung in Umgebungen mit begrenzten Ressourcen wie Laptops, Desktops oder Ihrer eigenen Cloud-Infrastruktur. So wird der Zugriff auf modernste KI-Modelle demokratisiert und Innovationen für alle gefördert. Außerdem wurde das Modell wie das Basismodell Gemma 270M so optimiert, dass es äußerst vielseitig ist und auf einer Vielzahl von Hardware in Single-Turn-Szenarien eine hohe Leistung erbringt. Für die beste Genauigkeit in bestimmten Bereichen sollte es jedoch mit Single-Turn- oder Multi-Turn-aufgabenspezifischen Daten abgestimmt werden. Um zu zeigen, wie durch die Spezialisierung des Modells mit 270 Millionen Parametern eine hohe Leistung bei bestimmten Agent-Workflows erzielt werden kann, haben wir zwei Anwendungsfälle in der Google AI Edge-Galerie App hervorgehoben.

  • Tiny Garden:Ein Modell, das für ein sprachgesteuertes interaktives Spiel optimiert wurde. Es verarbeitet die Spiellogik, um ein virtuelles Grundstück zu verwalten, und zerlegt Befehle wie „Sonnenblumen in der oberen Reihe pflanzen“ und „Blumen in den Beeten 1 und 2 gießen“ in app-spezifische Funktionen (z.B. plant_seed, water_plots) und koordiniert Ziele. Dies zeigt, dass das Modell benutzerdefinierte App-Mechanismen ohne Serververbindung steuern kann.

  • Mobile Actions:Damit Entwickler ihre eigenen Expert-Agents erstellen können, haben wir einen Datensatz und ein Rezept für das Fine-Tuning veröffentlicht, um das Fine-Tuning von FunctionGemma zu demonstrieren. Sie übersetzt Nutzereingaben (z.B. „Erstelle einen Kalendereintrag für das Mittagessen“ oder „Schalte die Taschenlampe ein“ in Funktionsaufrufe um, die Systemtools des Android-Betriebssystems auslösen. In diesem interaktiven Notebook wird gezeigt, wie Sie das Basismodell FunctionGemma verwenden und von Grund auf ein „Mobile Actions“-Modell für die Verwendung in der Google AI Edge-Galerie-App erstellen. Dieser Anwendungsfall demonstriert die Fähigkeit des Modells, als Offline- und privater Agent für Aufgaben auf persönlichen Geräten zu fungieren.

Eingaben und Ausgaben

  • Eingabe:
    • Textstring, z. B. eine Frage, ein Prompt oder ein Dokument, das zusammengefasst werden soll
    • Gesamter Eingabekontext von 32.000 Tokens
  • Ausgabe:
    • Generierter Text als Reaktion auf die Eingabe, z. B. eine Antwort auf eine Frage oder eine Zusammenfassung eines Dokuments
    • Gesamtausgabekontext von bis zu 32.000 Tokens pro Anfrage, abzüglich der Eingabetokens der Anfrage

Modelldaten

Daten, die für das Modelltraining verwendet wurden, und wie die Daten verarbeitet wurden.

Trainings-Dataset

Diese Modelle wurden mit einem Dataset aus Textdaten trainiert, das eine Vielzahl von Quellen umfasst. Das Modell wurde mit 6 Billionen Tokens trainiert. Der Wissensstichtag für die Trainingsdaten war August 2024. Das sind die wichtigsten Komponenten:

  • Öffentliche Tool-Definitionen – Häufig im Web verwendete APIs
  • Tool-Nutzungsinteraktionen: Diese bestehen aus einer Mischung aus Prompts, Funktionsaufrufen, Funktionsantworten und Antworten in natürlicher Sprache vom Modell, um die Antwort auf den Funktionsaufruf zusammenzufassen oder um Klarstellungen zu bitten, wenn der Prompt mehrdeutig oder unvollständig ist.

Datenvorverarbeitung

Hier sind die wichtigsten Methoden zur Bereinigung und Filterung von Daten, die auf die Trainingsdaten angewendet werden:

  • Filterung von Darstellungen des sexuellen Missbrauchs von Kindern: In mehreren Phasen der Datenaufbereitung wurde eine strenge Filterung von Darstellungen des sexuellen Missbrauchs von Kindern angewendet, um schädliche und illegale Inhalte auszuschließen.
  • Filterung sensibler Daten: Um die vortrainierten Gemma-Modelle sicher und zuverlässig zu machen, wurden automatisierte Verfahren verwendet, um bestimmte personenbezogene Daten und andere sensible Daten aus den Trainingssets herauszufiltern.
  • Zusätzliche Methoden: Filterung basierend auf der Inhaltsqualität und ‑sicherheit gemäß unseren Richtlinien.

Implementierungsinformationen

Details zu den internen Abläufen des Modells.

Hardware

Gemma wurde mit Tensor Processing Unit (TPU)-Hardware (TPUv4p, TPUv5p und TPUv5e) trainiert. Das Training von Vision-Language-Modellen (VLMs) erfordert eine erhebliche Rechenleistung. TPUs wurden speziell für Matrixoperationen entwickelt, die im maschinellen Lernen üblich sind, und bieten in diesem Bereich mehrere Vorteile:

  • Leistung: TPUs sind speziell für die massiven Berechnungen konzipiert, die beim Trainieren von VLMs anfallen. Sie können das Training im Vergleich zu CPUs erheblich beschleunigen.
  • Arbeitsspeicher: TPUs haben oft einen großen Arbeitsspeicher mit hoher Bandbreite, sodass große Modelle und Batchgrößen während des Trainings verarbeitet werden können. Das kann zu einer besseren Modellqualität führen.
  • Skalierbarkeit: TPU-Pods (große TPU-Cluster) bieten eine skalierbare Lösung für die wachsende Komplexität großer Fundamentmodelle. Sie können das Training auf mehrere TPU-Geräte verteilen, um die Verarbeitung zu beschleunigen und effizienter zu gestalten.
  • Kosteneffizienz: In vielen Szenarien können TPUs eine kostengünstigere Lösung für das Training großer Modelle im Vergleich zu CPU-basierter Infrastruktur bieten, insbesondere wenn man die Zeit und Ressourcen berücksichtigt, die durch schnelleres Training eingespart werden.
  • Diese Vorteile stimmen mit den Verpflichtungen von Google zu einem nachhaltigen Betrieb überein.

Software

Das Training erfolgte mit JAX und ML Pathways. Mit JAX können Forscher die neueste Generation von Hardware, einschließlich TPUs, nutzen, um große Modelle schneller und effizienter zu trainieren. ML Pathways ist die neueste Initiative von Google zur Entwicklung von KI-Systemen, die in der Lage sind, mehrere Aufgaben zu verallgemeinern. Das ist besonders für Foundation Models geeignet, einschließlich Large Language Models wie diesen.
JAX und ML Pathways werden gemeinsam wie im Paper zur Gemini-Modellfamilie beschrieben verwendet: „Das Programmiermodell ‚Single Controller‘ von Jax und Pathways ermöglicht es, den gesamten Trainingslauf mit einem einzigen Python-Prozess zu orchestrieren, was den Entwicklungsablauf erheblich vereinfacht.“

Bewertung

Messwerte und Ergebnisse der Modellbewertung.

Benchmark-Ergebnisse

Benchmark n-shot Funktion „Gemma 270M“
BFCL Simple 0-Shot 61,6
BFCL Parallel 0-Shot 63,5
BFCL-Multiplikator 0-Shot 39
BFCL Parallel Multiple 0-Shot 29,5
BFCL Live Simple 0-Shot 36.2
BFCL Live Parallel 0-Shot 25.7
BFCL Live Multiple 0-Shot 22.9
BFCL Live Parallel Multiple 0-Shot 20.8
Relevanz für BFCL 0-Shot 61.1
Irrelevanz von BFCL 0-Shot 70,6

Auswirkungen auf die Leistung nach dem Fine-Tuning mit dem Mobile Actions-Dataset
Um den Wert der Spezialisierung für kleine Sprachmodelle zu demonstrieren, haben wir das FunctionGemma-Basismodell mit dem abgestimmten Modell verglichen, indem wir das Rezept „Mobile Actions“ verwendet haben. Durch die Feinabstimmung wurde die Fähigkeit des Basismodells FunctionGemma, mobile Systemaufrufe korrekt zu identifizieren und zu formatieren, erheblich verbessert.


Modell

Auswertungsergebnisse für Mobile Actions

BasisfunktionGemma-Modell

58%

Mobile Actions Fine-Tune

85%

On-Device-Leistung der für bestimmte Anwendungsfälle optimierten Version von Gemma 270M
Wir haben die für bestimmte Anwendungsfälle optimierten Versionen auf einem Samsung S25 Ultra getestet, um die On-Device-Latenz und den Speicherbedarf zu ermitteln.

  • Kontext:512 Prefill-Tokens und 32 Decode-Tokens.
  • Hardware:S25 Ultra-CPU mit LiteRT XNNPACK-Delegate mit 4 Threads.

Auswirkungen von mobilen Aktionen auf die Geräteleistung


Backend

Quantisierungsschema

Kontextlänge

Prefill (Tokens pro Sekunde)

Decodieren (Tokens pro Sekunde)

Zeit bis zum ersten Token (Sekunden)

Modellgröße (MB)

Maximaler RSS-Arbeitsspeicher (MB)

CPU

dynamic_int8

1024

1718

125.9

0.3

288

551

Auswirkungen von Tiny Garden auf die Geräteleistung


Backend

Quantisierungsschema

Kontextlänge

Prefill (Tokens pro Sekunde)

Decodieren (Tokens pro Sekunde)

Zeit bis zum ersten Token (Sekunden)

Modellgröße (MB)

Maximaler RSS-Arbeitsspeicher (MB)

CPU

dynamic_int8

1024

1743

125.7

0.3

288

549

Ethik und Sicherheit

Ansatz und Ergebnisse der ethischen und sicherheitsbezogenen Bewertung.

Bewertungsansatz

Unsere Bewertungsmethoden umfassen strukturierte Bewertungen und interne Red-Teaming-Tests relevanter Inhaltsrichtlinien. Das Red-Teaming wurde von verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und Messwerte für die menschliche Bewertung hatten. Diese Modelle wurden anhand einer Reihe von Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:

  • Kinderschutz: Bewertung von Text-zu-Text- und Bild-zu-Text-Prompts, die Richtlinien zum Kinderschutz abdecken, einschließlich sexueller Missbrauch und Ausbeutung von Kindern.
  • Inhaltssicherheit:Bewertung von Text-zu-Text- und Bild-zu-Text-Prompts in Bezug auf Sicherheitsrichtlinien, einschließlich Belästigung, Gewalt und Grausamkeit sowie Hassrede.
  • Schäden durch Repräsentation: Bewertung von Text-zu-Text- und Bild-zu-Text-Prompts, die Sicherheitsrichtlinien wie Vorurteile, Stereotypen und schädliche Assoziationen oder Ungenauigkeiten abdecken.

Bewertungsergebnisse

In allen Bereichen der Sicherheitstests haben wir im Vergleich zu früheren Gemma-Modellen erhebliche Verbesserungen in den Kategorien Kindersicherheit, Inhaltssicherheit und Repräsentationsschäden festgestellt. Alle Tests wurden ohne Sicherheitsfilter durchgeführt, um die Fähigkeiten und das Verhalten des Modells zu bewerten. Das Modell hat nur wenige Richtlinienverstöße verursacht und im Vergleich zu früheren Gemma-Modellen eine deutlich bessere Leistung in Bezug auf unbegründete Schlussfolgerungen gezeigt. Eine Einschränkung unserer Auswertungen bestand darin, dass sie nur englischsprachige Prompts enthielten.

Nutzung und Einschränkungen

Diese Modelle unterliegen bestimmten Einschränkungen, die Nutzer kennen sollten.

Verwendungszweck

Dieses Modell ist nicht für die Verwendung als direktes Dialogmodell vorgesehen.
Offene Large Language Models (LLMs) haben ein breites Anwendungsspektrum in verschiedenen Branchen und Bereichen. Die folgende Liste potenzieller Verwendungszwecke ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Modellersteller im Rahmen des Modelltrainings und der Modellentwicklung berücksichtigt haben.

  • Erstellung von Inhalten und Kommunikation
    • Textgenerierung: Diese Modelle können verwendet werden, um kreative Textformate wie Gedichte, Drehbücher, Code, Marketingtexte und E-Mail-Entwürfe zu generieren.
    • Chatbots und konversationelle KI: Konversationelle Schnittstellen für Kundenservice, virtuelle Assistenten oder interaktive Anwendungen nutzen.
    • Textzusammenfassung: Erstellen Sie prägnante Zusammenfassungen eines Textkorpus, von Forschungsarbeiten oder Berichten.
  • Forschung und Bildung
    • Forschung im Bereich Natural Language Processing (NLP): Diese Modelle können als Grundlage für Forscher dienen, um mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung des Bereichs beizutragen.
    • Sprachlern-Tools: Unterstützung interaktiver Sprachlernfunktionen, z. B. durch Korrektur der Grammatik oder Übungen zum Schreiben.
    • Wissenserkundung: Forschern helfen, große Textmengen zu analysieren, indem Zusammenfassungen erstellt oder Fragen zu bestimmten Themen beantwortet werden.

Beschränkungen

  • Trainingsdaten
    • Die Qualität und Vielfalt der Trainingsdaten haben einen erheblichen Einfluss auf die Fähigkeiten des Modells. Bias oder Lücken in den Trainingsdaten können zu Einschränkungen bei den Antworten des Modells führen.
    • Der Umfang des Trainingsdatasets bestimmt die Themenbereiche, die das Modell effektiv abdecken kann.
  • Kontext und Komplexität der Aufgabe
    • Modelle eignen sich besser für Aufgaben, die mit klaren Prompts und Anweisungen formuliert werden können. Offene oder hochkomplexe Aufgaben können eine Herausforderung darstellen.
    • Die Leistung eines Modells kann durch die Menge des bereitgestellten Kontexts beeinflusst werden. Ein längerer Kontext führt in der Regel zu besseren Ergebnissen, bis zu einem gewissen Punkt.
  • Mehrdeutigkeit und Nuancen in der Sprache
    • Natürliche Sprache ist von Natur aus komplex. Modelle haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildliche Sprache zu erfassen.
  • Sachliche Richtigkeit
    • Modelle generieren Antworten auf Grundlage von Informationen, die sie aus ihren Trainingsdatasets gelernt haben. Sie sind jedoch keine Wissensdatenbanken. Sie können falsche oder veraltete Faktenbehauptungen generieren.
  • Common Sense
    • Modelle basieren auf statistischen Mustern in der Sprache. Ihnen fehlt möglicherweise die Fähigkeit, in bestimmten Situationen gesunden Menschenverstand anzuwenden.

Ethische Aspekte und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Fragen auf. Beim Erstellen eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

  • Bias und Fairness
    • LLMs, die mit umfangreichen, realen Textdaten trainiert werden, können soziokulturelle Voreingenommenheiten widerspiegeln, die im Trainingsmaterial enthalten sind. Diese Modelle wurden sorgfältig geprüft. Die Vorverarbeitung der Eingabedaten wird beschrieben und die Posterior-Bewertungen werden auf dieser Karte angegeben.
  • Fehlinformationen und Missbrauch
  • Transparenz und Rechenschaftspflicht:
    • Diese Modellkarte fasst Details zur Architektur, zu den Funktionen, Einschränkungen und Bewertungsprozessen der Modelle zusammen.
    • Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem LLM-Technologie für Entwickler und Forscher im gesamten KI-Ökosystem zugänglich gemacht wird.

Identifizierte Risiken und Risikominderungsmaßnahmen:

  • Aufrechterhaltung von Vorurteilen: Es wird empfohlen, kontinuierliche Überwachung (mit Bewertungsmetriken, manueller Überprüfung) und die Untersuchung von Techniken zur Reduzierung von Vorurteilen während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle durchzuführen.
  • Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwickler sollten Vorsicht walten lassen und geeignete Sicherheitsvorkehrungen für Inhalte auf Grundlage ihrer spezifischen Produktrichtlinien und Anwendungsfälle implementieren.
  • Missbrauch für böswillige Zwecke: Technische Einschränkungen und die Aufklärung von Entwicklern und Endnutzern können dazu beitragen, böswillige Anwendungen von LLMs zu verhindern. Es werden Bildungsressourcen und Meldemechanismen für Nutzer bereitgestellt, um Missbrauch zu melden. Die unzulässige Nutzung von Gemma-Modellen ist in der Richtlinie zur unzulässigen Nutzung von Gemma beschrieben.
  • Datenschutzverstöße: Die Modelle wurden mit Daten trainiert, die gefiltert wurden, um personenidentifizierbare Informationen zu entfernen. Entwickler werden aufgefordert, Datenschutzbestimmungen mit datenschutzfreundlichen Techniken einzuhalten.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie leistungsstarke offene Large Language Model-Implementierungen, die von Grund auf für die Entwicklung von Responsible AI konzipiert wurden und im Vergleich zu Modellen ähnlicher Größe eine bessere Leistung bieten.