Gemini ist eine Familie von generativen KI-Modellen, mit denen Entwickler Inhalte generieren und Probleme lösen können. Diese Modelle sind darauf ausgelegt, sowohl Text als auch Bilder als Eingabe zu verarbeiten. Dieser Leitfaden enthält Informationen zu den einzelnen Modellvarianten, die Ihnen bei der Entscheidung helfen, welche für Ihren Anwendungsfall am besten geeignet ist.
Sicherheit und bestimmungsgemäße Verwendung
Generative AI-Modelle sind leistungsstarke Tools, die jedoch nicht ohne ihre Einschränkungen funktionieren. Ihre Vielseitigkeit und Anwendbarkeit können manchmal zu unerwarteten Ausgaben führen, z. B. ungenaue, verzerrte oder anstößige Ergebnisse. Die Nachverarbeitung und eine strenge manuelle Bewertung sind unerlässlich, um das Risiko von Schäden durch solche Ergebnisse zu begrenzen. Weitere Vorschläge zur sicheren Verwendung finden Sie in den Sicherheitshinweisen.
Die von der Gemini API bereitgestellten Modelle können für eine Vielzahl von Anwendungen für Generative AI und Natural Language Processing (NLP) verwendet werden. Die Verwendung dieser Funktionen ist nur über die Gemini API oder die Google AI Studio-Web-App verfügbar. Ihre Verwendung der Gemini API unterliegt außerdem der Richtlinie zur unzulässigen Nutzung von Generative AI und den Nutzungsbedingungen der Gemini API.
Modellvarianten
Die Gemini API bietet verschiedene Modelle, die für bestimmte Anwendungsfälle optimiert sind. Hier ist eine kurze Übersicht der verfügbaren Gemini-Varianten:
Modellvariante | Eingabe(n) | Ausgabe | Optimiert für |
---|---|---|---|
Gemini 1.5 Pro (Vorabversion) | Audio, Bilder und Text | Text | Begründungsaufgaben, einschließlich, aber nicht beschränkt auf die Code- und Textgenerierung, Textbearbeitung, Problemlösung, Datenextraktion und -generierung |
Gemini 1.5 Flash (Vorabversion) | Audio, Bilder und Text | Text | Schnelle und vielseitige Leistung bei einer Vielzahl von Aufgaben |
Gemini 1.0 Pro | Text | Text | Natural Language Tasks, Multi-Turn-Text und Codechat sowie Codegenerierung |
Gemini 1.0 Pro Vision | Bilder und Text | Text | Leistungsoptimiert für visuelle Aufgaben wie das Generieren von Bildbeschreibungen oder das Erkennen von Objekten in Bildern |
Texteinbettung | Text | Texteinbettungen | Flexible Texteinbettungen mit bis zu 768 Dimensionen für Text mit bis zu 2.048 Tokens generieren |
Einbettung | Text | Texteinbettungen | Texteinbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens generieren |
Qualitätssicherung | Text | Text | Zugeordnete Fragen zum Antworten auf bereitgestellten Text ausführen |
In der folgenden Tabelle werden die Attribute der Gemini-Modelle beschrieben, die allen Modellvarianten gemeinsam sind:
Attribut | Beschreibung |
---|---|
Trainingsdaten | Gemini: Wissensschluss ist Anfang 2023. Das Wissen über Ereignisse nach diesem Zeitraum ist begrenzt. |
Unterstützte Sprachen | Verfügbare Sprachen |
Konfigurierbare Modellparameter |
|
Informationen zu den einzelnen Parametern finden Sie im Abschnitt „Modellparameter“ des Leitfadens zu generativen Modellen.
Gemini 1.5 Pro (Vorabversion)
Gemini 1.5 Pro ist ein mittelgroßes multimodales Modell, das für eine Vielzahl von Logikaufgaben optimiert ist, darunter:
- Codegenerierung
- Textgenerierung
- Textbearbeitung
- Probleme lösen
- Empfehlungsgenerierung
- Informationsextraktion
- Datenextraktion oder -generierung
- KI-Agents erstellen
1.5 Pro kann große Datenmengen gleichzeitig verarbeiten, einschließlich 1 Stunde Video, 9,5 Stunden Audio, Codebasis mit mehr als 30.000 Codezeilen oder mehr als 700.000 Wörtern.
1.5 Pro kann Zero-, One- und Low-Shot-Lernaufgaben bewältigen.
Modelldetails
Property | Beschreibung |
---|---|
Modellcode | models/gemini-1.5-pro-latest |
Eingaben | Audio, Bilder und Text |
Ausgabe | Text |
Unterstützte Generierungsmethoden |
generateContent
|
Limit für Eingabetoken[**] | 1.048.576 |
Ausgabetoken-Limit[**] | 8.192 |
Maximale Anzahl von Bildern pro Prompt | 3.600 |
Maximale Videolänge | 1 Stunde |
Maximale Audiolänge | Ungefähr 9,5 Stunden |
Maximale Anzahl von Audiodateien pro Prompt | 1 |
Modellsicherheit | Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu Sicherheitseinstellungen. |
Ratenbegrenzungen[*] |
|
Systemanweisung | Unterstützt |
JSON-Modus | Unterstützt |
Aktuelle Version | gemini-1.5-pro-latest |
Neueste stabile Version | gemini-1.5-pro |
Letzte Aktualisierung | April 2024 |
Gemini 1.5 Flash (Vorschau)
Gemini 1.5 Flash ist ein schnelles und vielseitiges multimodales Modell zur Skalierung für verschiedene Aufgaben.
Modelldetails
Property | Beschreibung |
---|---|
Modellcode | gemini-1.5-flash |
Eingabe(n) | Audio, Bilder und Text |
Ausgabe | Text |
Unterstützte Generierungsmethoden |
generateContent
|
Limit für Eingabetoken[**] | 1.048.576 |
Ausgabetoken-Limit[**] | 8.192 |
Maximale Anzahl von Bildern pro Prompt | 3.600 |
Maximale Videolänge | 1 Stunde |
Maximale Audiolänge | Ungefähr 9,5 Stunden |
Maximale Anzahl von Audiodateien pro Prompt | 1 |
Modellsicherheit | Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu Sicherheitseinstellungen. |
Ratenbegrenzungen[*] |
|
Systemanweisung | Unterstützt |
JSON-Modus | Unterstützt |
Aktuelle Version | gemini-1.5-flash-latest |
Neueste stabile Version | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro ist ein NLP-Modell, das Aufgaben wie Multi-Turn-Text und Codechat sowie die Codegenerierung übernimmt.
1.0 Pro kann Zero-, One- und Wenige-Shot-Lernaufgaben bewältigen.
Modelldetails
Property | Beschreibung |
---|---|
Modellcode | models/gemini-pro |
Eingabe | Text |
Ausgabe | Text |
Unterstützte Generierungsmethoden |
generate_content
generateContent
|
Ratenbegrenzungen[*] |
|
Systemanweisung | Nicht unterstützt |
JSON-Modus | Nicht unterstützt |
Aktuelle Version | gemini-1.0-pro-latest |
Neueste stabile Version | gemini-1.0-pro |
Stabile Versionen | gemini-1.0-pro-001 |
Letzte Aktualisierung | Februar 2024 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision ist ein leistungsoptimiertes multimodales Modell, das visuell bezogene Aufgaben ausführen kann. 1.0 Pro Vision kann beispielsweise Bildbeschreibungen generieren, Objekte in Bildern identifizieren, Informationen zu Orten oder Objekten in Bildern bereitstellen und vieles mehr.
1.0 Pro Vision kann Aufgaben mit Zero-, Einzel- und weniger Aufnahme erledigen.
Modelldetails
Property | Beschreibung |
---|---|
Modellcode | models/gemini-pro-vision |
Eingaben | Text und Bilder |
Ausgabe | Text |
Unterstützte Generierungsmethoden |
generate_content
generateContent
|
Limit für Eingabetoken[*] | 12.288 |
Ausgabetoken-Limit[*] | 4.096 |
Maximale Bildgröße | Kein Limit |
Maximale Anzahl von Bildern pro Prompt | 16 |
Maximale Videolänge | 2 Minuten |
Maximale Anzahl von Videos pro Prompt | 1 |
Modellsicherheit | Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu Sicherheitseinstellungen. |
Ratenbegrenzung[*] | 60 Anfragen pro Minute |
Aktuelle Version | gemini-1.0-pro-vision-latest |
Neueste stabile Version | gemini-1.0-pro-vision |
Letzte Aktualisierung | Dezember 2023 |
Texteinbettung und -einbettung
Texteinbettung
Mit dem Modell „Texteinbettung“ können Sie Texteinbettungen für Eingabetext generieren. Weitere Informationen zum Modell für Texteinbettungen finden Sie in der Dokumentation zu generativer KI in Vertex AI zu Texteinbettungen.
Das Texteinbettungsmodell ist für das Erstellen von Einbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens optimiert. Bei der Texteinbettung sind elastische Einbettungsgrößen unter 768 Zeichen möglich. Mit elastischen Einbettungen können Sie kleinere Ausgabedimensionen generieren und möglicherweise Computing- und Speicherkosten mit geringen Leistungsverlusten sparen.
Modelldetails
Property | Beschreibung |
---|---|
Modellcode |
models/text-embedding-004
(text-embedding-preview-0409 in
Vertex AI)
|
Eingabe | Text |
Ausgabe | Texteinbettungen |
Limit für Eingabetoken | 2.048 |
Größe der Ausgabedimension | 768 |
Unterstützte Generierungsmethoden |
embed_content
embedContent
|
Modellsicherheit | Sicherheitseinstellungen sind nicht anpassbar. |
Ratenbegrenzung[*] | 1.500 Anfragen pro Minute |
Letzte Aktualisierung | April 2024 |
Einbettung
Mit dem Einbettungsmodell können Sie Texteinbettungen für Eingabetext generieren.
Das Einbettungsmodell ist für das Erstellen von Einbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens optimiert.
Modelldetails einbetten
Property | Beschreibung |
---|---|
Modellcode | models/embedding-001 |
Eingabe | Text |
Ausgabe | Texteinbettungen |
Limit für Eingabetoken | 2.048 |
Größe der Ausgabedimension | 768 |
Unterstützte Generierungsmethoden |
embed_content
embedContent
|
Modellsicherheit | Sicherheitseinstellungen sind nicht anpassbar. |
Ratenbegrenzung[*] | 1.500 Anfragen pro Minute |
Letzte Aktualisierung | Dezember 2023 |
AQA
Sie können das AQA-Modell verwenden, um Aufgaben im Zusammenhang mit zugeordneten Fragenbeantwortung (Question Answering, AQA) für ein Dokument, einen Korpus oder eine Reihe von Passagen auszuführen. Das AQA-Modell gibt Antworten auf Fragen zurück, die auf den bereitgestellten Quellen basieren, zusammen mit einer Schätzung der beantwortbaren Wahrscheinlichkeit.
Modelldetails
Property | Beschreibung |
---|---|
Modellcode | models/aqa |
Eingabe | Text |
Ausgabe | Text |
Unterstützte Generierungsmethoden |
GenerateAnswerRequest
generateAnswer
|
Unterstützte Sprachen | Englisch |
Limit für Eingabetoken[**] | 7.168 |
Ausgabetoken-Limit[**] | 1.024 |
Modellsicherheit | Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu Sicherheitseinstellungen. |
Ratenbegrenzung[*] | 60 Anfragen pro Minute |
Letzte Aktualisierung | Dezember 2023 |
In den Beispielen erfahren Sie mehr über die Funktionen dieser Modellvarianten.
[*] Ein Token entspricht etwa 4 Zeichen für Gemini-Modelle. 100 Tokens entsprechen etwa 60–80 englischen Wörtern.
[**] RPM: Anfragen pro Minute
TPM: Tokens pro Minute
RPD: Anfragen pro Tag
TPD: Tokens pro Tag
Aufgrund von Kapazitätseinschränkungen werden angegebene maximale Ratenbegrenzungen nicht garantiert.
Namensmuster der Modellversion
Gemini-Modelle sind entweder als Vorabversion oder als stabile Version verfügbar. In Ihrem Code können Sie eines der folgenden Modellnamenformate verwenden, um anzugeben, welches Modell und welche Version Sie verwenden möchten.
Neueste:Verweist auf die neueste Version des Modells für eine bestimmte Generation und Variante. Das zugrunde liegende Modell wird regelmäßig aktualisiert und kann eine Vorabversion sein. Dieser Alias sollte nur für Apps und Prototypen verwendet werden, die explorative Tests durchführen.
Verwenden Sie das folgende Muster, um die neueste Version anzugeben:
<model>-<generation>-<variation>-latest
. Beispiel:gemini-1.0-pro-latest
Neueste stabile Version: Verweist auf die neueste stabile Version, die für die angegebene Modellgenerierung und -variante veröffentlicht wurde.
Verwenden Sie das folgende Muster, um die neueste stabile Version anzugeben:
<model>-<generation>-<variation>
. Beispiel:gemini-1.0-pro
.Stabil:Verweist auf ein bestimmtes stabiles Modell. Stabile Modelle ändern sich nicht. Die meisten Produktions-Apps sollten ein bestimmtes stabiles Modell verwenden.
Verwenden Sie das folgende Muster, um eine stabile Version anzugeben:
<model>-<generation>-<variation>-<version>
. Beispiel:gemini-1.0-pro-001