Gemma 3n mit Audioeingabe und optimiert für die Verwendung in Alltagsgeräten. Weitere Informationen

Diese Seite wurde von der Cloud Translation API übersetzt.

Gemma 3-Modell – Übersicht

Gemma ist eine Reihe generativer KI-Modelle (künstliche Intelligenz). Sie können sie für eine Vielzahl von Generierungsaufgaben verwenden, z. B. für die Beantwortung von Fragen, Zusammenfassungen und Begründungen. Gemma-Modelle werden mit offenen Gewichten bereitgestellt und sind für die verantwortungsvolle kommerzielle Nutzung freigegeben. Sie können sie also in Ihren eigenen Projekten und Anwendungen optimieren und bereitstellen.

Die Gemma 3-Version enthält die folgenden Hauptfunktionen. In AI Studio ausprobieren:

Bild- und Texteingabe: Mithilfe von multimodalen Funktionen können Sie Bilder und Text eingeben, um visuelle Daten zu verstehen und zu analysieren. Mit dem Erstellen beginnen
128K-Token-Kontext: 16-mal größerer Eingabekontext für die Analyse größerer Datenmengen und die Lösung komplexerer Probleme.
Funktionsaufruf: Sie können natürliche Sprachoberflächen für die Arbeit mit Programmierschnittstellen erstellen. Mit dem Erstellen beginnen
Umfassende Sprachunterstützung: Sie können in Ihrer Sprache arbeiten oder die Sprachfunktionen Ihrer KI-Anwendung mit Unterstützung von über 140 Sprachen erweitern. Mit dem Erstellen beginnen
Entwicklerfreundliche Modellgrößen: Wählen Sie eine Modellgröße (1 B, 4 B, 12 B, 27 B) und eine Genauigkeitsstufe aus, die für Ihre Aufgabe und Ihre Rechenressourcen am besten geeignet ist.

Sie können Gemma 3-Modelle von Kaggle und Hugging Face herunterladen. Weitere technische Details zu Gemma 3 finden Sie auf der Modellkarte und im technischen Bericht. Frühere Versionen der Gemma-Kernmodelle sind ebenfalls zum Download verfügbar. Weitere Informationen finden Sie unter Vorherige Gemma-Modelle.

Gemma 3 testen Auf Kaggle herunterladen Auf Hugging Face herunterladen

Multimodale Bild- und Texteingabe

Mit Gemma 3 können Sie komplexere Analyse- und Generierungsaufgaben bewältigen, da es Bild- und Textdaten verarbeiten kann. Sie können das Modell verwenden, um Bilddaten zu interpretieren, Objekte zu identifizieren, Textdaten zu extrahieren und viele andere Aufgaben von visueller Eingabe zu Textausgabe auszuführen. Losstaunen

Kontextfenster mit 128.000 Tokens

Gemma 3-Modelle können Prompteingaben mit bis zu 128.000 Token verarbeiten, was einem 16-fach größeren Kontextfenster als bei früheren Gemma-Modellen entspricht. Dank der großen Anzahl von Tokens können Sie mehrere mehrseitige Artikel, größere einzelne Artikel oder Hunderte von Bildern in einem einzigen Prompt verarbeiten.

Umfangreiche Sprachunterstützung

Mit der integrierten Unterstützung für über 140 Sprachen können Sie in Ihrer eigenen Sprache arbeiten. Gemma 3 wurde im Vergleich zu früheren Gemma-Versionen auf die Unterstützung einer großen Anzahl von Sprachen trainiert. So können Sie mehr visuelle und Textaufgaben in den Sprachen Ihrer Kunden übernehmen. Losstaunen

Funktionsaufrufe

Intelligente Steuerelemente für Programmieroberflächen in natürlicher Sprache erstellen Mit Gemma 3 können Sie Codierungsfunktionen mit einer bestimmten Syntax und Einschränkungen definieren. Das Modell kann diese Funktionen aufrufen, um Aufgaben auszuführen. Losstaunen

Parametergrößen und Quantisierung

Gemma 3-Modelle sind in 4 Parametergrößen mit 5 Genauigkeitsstufen verfügbar, von der vollständigen Genauigkeit bei 32 Bit bis zur niedrigsten Genauigkeit bei 4 Bit. Die verschiedenen Größen und Genauigkeiten stellen eine Reihe von Kompromissen für Ihre KI-Anwendung dar. Modelle mit mehr Parametern und Bitzahlen (höhere Genauigkeit) sind in der Regel leistungsfähiger, aber in Bezug auf Verarbeitungszyklen, Arbeitsspeicherkosten und Energieverbrauch teurer. Modelle mit weniger Parametern und Bitzahlen (geringere Genauigkeit) haben weniger Funktionen, können aber für Ihre KI-Aufgabe ausreichend sein. In der folgenden Tabelle sind die ungefähren GPU- oder TPU-Speicheranforderungen für die Ausführung von Inferenzen mit den einzelnen Größen der Gemma 3-Modellversionen aufgeführt.

Parameter	Vollständige 32-Bit-Version	BF16 (16‑Bit)	SFP8 (8‑Bit)	Q4_0 (4‑Bit)	INT4 (4‑Bit)
Gemma 3 1B (nur Text)	4 GB	1,5 GB	1,1 GB	892 MB	861 MB
Gemma 3 4B	16 GB	6,4 GB	4,4 GB	3,4 GB	3,2 GB
Gemma 3 12B	48 GB	20 GB	12,2 GB	8,7 GB	8,2 GB
Gemma 3 27B	108 GB	46,4 GB	29,1 GB	21 GB	19,9 GB

Tabelle 1. Ungefährer GPU- oder TPU-Arbeitsspeicher, der zum Laden von Gemma 3-Modellen erforderlich ist, basierend auf der Parameteranzahl und der Quantisierungsebene (Bittiefe).

Die Arbeitsspeichernutzung steigt mit der Gesamtzahl der Tokens, die für den ausgeführten Prompt erforderlich sind. Je mehr Tokens zur Verarbeitung des Prompts erforderlich sind, desto mehr Arbeitsspeicher wird benötigt. Dieser Arbeitsspeicher wird zusätzlich zum Arbeitsspeicher benötigt, der zum Laden des Modells erforderlich ist.

Vorherige Gemma-Modelle

Sie können auch mit älteren Gemma-Modellen arbeiten, die auch bei Kaggle und Hugging Face verfügbar sind. Weitere technische Details zu früheren Gemma-Modellen finden Sie auf den folgenden Modellkarten:

Sind Sie bereit? Erste Schritte mit Gemma-Modellen