Gemini ist eine Familie von Modellen basierend auf generativer KI, mit denen Entwickler Inhalte erstellen und Probleme lösen können. Diese Modelle sind darauf ausgelegt und trainiert, sowohl Text als auch Bilder als Eingabe zu verarbeiten. Dieser Leitfaden enthält Informationen zu jeder Modellvariante, damit Sie entscheiden können, welche Modellvariante am besten zu Ihrem Anwendungsfall passt.
Verfügbare Sprachen
Gemini-Modelle werden mit den folgenden Sprachen trainiert: ar
bn
bg
zh
hr
cs
da
nl
en
et
fi
fr
de
el
iw
hi
hu
id
it
ja
ko
lv
lt
no
pl
pt
ro
ru
sr
sk
sl
es
sw
sv
th
tr
uk
vi
PaLM-Modelle funktionieren nur auf Englisch. Die Verwendung anderer Sprachen kann zu unerwarteten Ergebnissen führen.
Modellvarianten
Die Gemini API bietet verschiedene Modelle, die für bestimmte Anwendungsfälle optimiert sind. Hier finden Sie einen kurzen Überblick über die verfügbaren Gemini-Varianten:
Modellvariante | Eingabe(n) | Ausgabe | Optimiert für |
---|---|---|---|
Gemini 1.5 Pro (Vorabversion) | Audio, Bilder, Videos und Text | Text | Logikaufgaben, einschließlich, aber nicht beschränkt auf, Code- und Textgenerierung, Textbearbeitung, Problemlösung, Datenextraktion und -generierung |
Gemini 1.5 Flash (Vorschau) | Audio, Bilder, Videos und Text | Text | Schnelle und vielseitige Leistung bei einer Vielzahl von Aufgaben |
Gemini 1.0 Pro | Text | Text | Aufgaben in natürlicher Sprache, mehrstufiger Text- und Codechat sowie Codegenerierung |
Gemini 1.0 Pro Vision | Bilder, Videos und Text | Text | Leistung optimiert für visuelle Aufgaben wie das Generieren von Bildbeschreibungen oder das Erkennen von Objekten in Bildern |
Texteinbettung | Text | Texteinbettungen | Elastische Texteinbettungen mit bis zu 768 Dimensionen für Text mit bis zu 2.048 Tokens generieren |
Einbettung | Text | Texteinbettungen | Texteinbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens generieren |
AQA | Text | Text | Aufgaben im Zusammenhang mit zugeordneten Fragen statt dem bereitgestellten Text ausführen |
In der folgenden Tabelle werden die Attribute der Gemini-Modelle beschrieben, die für alle Modellvarianten gelten:
Attribut | Beschreibung |
---|---|
Trainingsdaten | Gemini erhält Anfang 2023 keine Informationen mehr. Das Wissen über Ereignisse nach diesem Zeitraum ist begrenzt. |
Unterstützte Sprachen | Verfügbare Sprachen |
Konfigurierbare Modellparameter |
|
Informationen zu den einzelnen Parametern finden Sie im Abschnitt zu Modellparametern im Leitfaden zu generativen Modellen.
Gemini 1.5 Pro (Vorschau)
Gemini 1.5 Pro ist ein mittelgroßes multimodales Modell, das für eine Vielzahl von Logikaufgaben optimiert ist, z. B.:
- Codegenerierung
- Textgenerierung
- Textbearbeitung
- Probleme lösen
- Empfehlungen generieren
- Extraktion von Informationen
- Datenextraktion oder -generierung
- KI-Agents erstellen
1.5 Pro kann große Datenmengen auf einmal verarbeiten, einschließlich 1 Stunde Video- und 9,5 Stunden Audiomaterial sowie Codebasen mit über 30.000 Codezeilen oder mehr als 700.000 Wörtern.
1.5 Pro kann keine, einen oder wenige Lernaufgaben ausführen.
Modelldetails
Attribut | Beschreibung |
---|---|
Modellcode | models/gemini-1.5-pro-latest |
Eingaben | Audio, Bilder, Video und Text |
Ausgabe | Text |
Unterstützte Generierungsmethoden |
generateContent
|
Limit für Eingabetoken[**] | 1.048.576 |
Tokenausgabelimit[**] | 8.192 |
Maximale Anzahl von Bildern pro Prompt | 3.600 |
Maximale Videolänge | 1 Stunde |
Maximale Audiolänge | Etwa 9,5 Stunden |
Maximale Anzahl von Audiodateien pro Prompt | 1 |
Modellsicherheit | Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu den Sicherheitseinstellungen. |
Ratenbegrenzungen[*] |
|
Systemanweisungen | Unterstützt |
JSON-Modus | Unterstützt |
Aktuelle Version | gemini-1.5-pro-latest |
Neueste stabile Version | gemini-1.5-pro |
Letzte Aktualisierung | April 2024 |
Gemini 1.5 Flash (Vorschau)
Gemini 1.5 Flash ist ein schnelles und vielseitiges multimodales Modell für die Skalierung über verschiedene Aufgaben hinweg.
Modelldetails
Attribut | Beschreibung |
---|---|
Modellcode | gemini-1.5-flash-latest |
Eingabe(n) | Audio, Bilder, Video und Text |
Ausgabe | Text |
Unterstützte Generierungsmethoden |
generateContent
|
Limit für Eingabetoken[**] | 1.048.576 |
Tokenausgabelimit[**] | 8.192 |
Maximale Anzahl von Bildern pro Prompt | 3.600 |
Maximale Videolänge | 1 Stunde |
Maximale Audiolänge | Etwa 9,5 Stunden |
Maximale Anzahl von Audiodateien pro Prompt | 1 |
Modellsicherheit | Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu den Sicherheitseinstellungen. |
Ratenbegrenzungen[*] |
|
Systemanweisungen | Unterstützt |
JSON-Modus | Unterstützt |
Aktuelle Version | gemini-1.5-flash-latest |
Neueste stabile Version | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro ist ein NLP-Modell, das Aufgaben wie Text- und Codechat in mehreren Schritten sowie Codegenerierung verarbeitet.
1.0 Pro kann keine, einen oder wenige Lernaufgaben ausführen.
Modelldetails
Attribut | Beschreibung |
---|---|
Modellcode | models/gemini-pro |
Eingabe | Text |
Ausgabe | Text |
Unterstützte Generierungsmethoden |
generate_content
generateContent
|
Ratenbegrenzungen[*] |
|
Systemanweisungen | Nicht unterstützt |
JSON-Modus | Nicht unterstützt |
Aktuelle Version | gemini-1.0-pro-latest |
Neueste stabile Version | gemini-1.0-pro |
Stabile Versionen | gemini-1.0-pro-001 |
Letzte Aktualisierung | Februar 2024 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision ist ein leistungsoptimiertes multimodales Modell, das visuelle Aufgaben ausführen kann. Mit 1.0 Pro Vision lassen sich beispielsweise Bildbeschreibungen generieren, Objekte in Bildern identifizieren, Informationen zu Orten oder Objekten in Bildern bereitstellen und vieles mehr.
1.0 Pro Vision kann keine, einen oder wenige Aufgaben ausführen.
Modelldetails
Attribut | Beschreibung |
---|---|
Modellcode | models/gemini-pro-vision |
Eingaben | Text, Video und Bilder |
Ausgabe | Text |
Unterstützte Generierungsmethoden |
generate_content
generateContent
|
Limit für Eingabetoken[*] | 12.288 |
Tokenausgabelimit[*] | 4.096 |
Maximale Bildgröße | Kein Limit |
Maximale Anzahl von Bildern pro Prompt | 16 |
Maximale Videolänge | 2 Minuten |
Maximale Anzahl von Videos pro Prompt | 1 |
Modellsicherheit | Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu den Sicherheitseinstellungen. |
Ratenbegrenzung[*] | 60 Anfragen pro Minute |
Aktuelle Version | gemini-1.0-pro-vision-latest |
Neueste stabile Version | gemini-1.0-pro-vision |
Letzte Aktualisierung | Dezember 2023 |
Texteinbettungen
Texteinbettung
Mit dem Texteinbettungsmodell können Sie Texteinbettungen für Eingabetext generieren. Weitere Informationen zum Texteinbettungsmodell finden Sie in der Dokumentation zu Generative AI in Vertex AI zu Texteinbettungen.
Das Modell zur Texteinbettung ist für das Erstellen von Einbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens optimiert. Für die Texteinbettung sind elastische Einbettungsgrößen unter 768 verfügbar. Sie können elastische Einbettungen verwenden, um kleinere Ausgabedimensionen zu generieren und unter Umständen Rechen- und Speicherkosten bei geringfügigem Leistungsverlust zu sparen.
Modelldetails
Attribut | Beschreibung |
---|---|
Modellcode |
models/text-embedding-004
(text-embedding-preview-0409 in
Vertex AI)
|
Eingabe | Text |
Ausgabe | Texteinbettungen |
Limit für Eingabetoken | 2.048 |
Größe der Ausgabeabmessungen | 768 |
Unterstützte Generierungsmethoden |
embed_content
embedContent
|
Modellsicherheit | Keine anpassbaren Sicherheitseinstellungen. |
Ratenbegrenzung[*] | 1.500 Anfragen pro Minute |
Letzte Aktualisierung | April 2024 |
Einbettung
Mit dem Einbettungsmodell können Sie Texteinbettungen für Eingabetext generieren.
Das Einbettungsmodell ist für das Erstellen von Einbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens optimiert.
Details zum Einbettungsmodell
Attribut | Beschreibung |
---|---|
Modellcode | models/embedding-001 |
Eingabe | Text |
Ausgabe | Texteinbettungen |
Limit für Eingabetoken | 2.048 |
Größe der Ausgabeabmessungen | 768 |
Unterstützte Generierungsmethoden |
embed_content
embedContent
|
Modellsicherheit | Keine anpassbaren Sicherheitseinstellungen. |
Ratenbegrenzung[*] | 1.500 Anfragen pro Minute |
Letzte Aktualisierung | Dezember 2023 |
AQA
Sie können das AQA-Modell verwenden, um Aufgaben im Zusammenhang mit Attributed Question-Answering (AQA) für ein Dokument, einen Korpus oder eine Reihe von Abschnitten auszuführen. Das AQA-Modell gibt Antworten auf Fragen zurück, die auf bereitgestellten Quellen basieren, zusammen mit einer Schätzung der beantwortbaren Wahrscheinlichkeit.
Modelldetails
Attribut | Beschreibung |
---|---|
Modellcode | models/aqa |
Eingabe | Text |
Ausgabe | Text |
Unterstützte Generierungsmethoden |
GenerateAnswerRequest
generateAnswer
|
Unterstützte Sprachen | Englisch |
Limit für Eingabetoken[**] | 7.168 |
Tokenausgabelimit[**] | 1.024 |
Modellsicherheit | Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu den Sicherheitseinstellungen. |
Ratenbegrenzung[*] | 60 Anfragen pro Minute |
Letzte Aktualisierung | Dezember 2023 |
Sehen Sie sich die Beispiele an, um die Möglichkeiten dieser Modellvarianten kennenzulernen.
[*] Ein Token entspricht bei Gemini-Modellen etwa 4 Zeichen. 100 Tokens entsprechen etwa 60–80 englischen Wörtern.
[**] RPM: Anfragen pro Minute
TPM: Tokens pro Minute
RPD: Anfragen pro Tag
TPD: Tokens pro Tag
Aufgrund von Kapazitätsbeschränkungen können angegebene maximale Ratenbegrenzungen nicht garantiert werden.
Muster für Modellversionsnamen
Gemini-Modelle sind als Vorabversion oder als stabile Version verfügbar. In Ihrem Code können Sie eines der folgenden Formate für Modellnamen verwenden, um anzugeben, welches Modell und welche Version Sie verwenden möchten.
Neueste: Verweist auf die neueste Version des Modells für eine angegebene Generierung und Variante. Das zugrunde liegende Modell wird regelmäßig aktualisiert und kann eine Vorabversion sein. Dieser Alias sollte nur für explorative Testanwendungen und Prototypen verwendet werden.
Verwenden Sie das folgende Muster, um die neueste Version anzugeben:
<model>-<generation>-<variation>-latest
. Beispiel:gemini-1.0-pro-latest
Neueste stabile Version:Verweist auf die neueste stabile Version, die für die angegebene Modellgenerierung und -variante veröffentlicht wurde.
Verwenden Sie das folgende Muster, um die neueste stabile Version anzugeben:
<model>-<generation>-<variation>
. Beispiel:gemini-1.0-pro
.Stable (Stabil): Verweist auf ein bestimmtes stabiles Modell. Stabile Modelle ändern sich nicht. Die meisten Produktions-Apps sollten ein bestimmtes stabiles Modell verwenden.
Verwenden Sie das folgende Muster, um eine stabile Version anzugeben:
<model>-<generation>-<variation>-<version>
. Beispiel:gemini-1.0-pro-001