Gemini

Gemini ist eine Familie von Modellen basierend auf generativer KI, mit denen Entwickler Inhalte erstellen und Probleme lösen können. Diese Modelle sind darauf ausgelegt und trainiert, sowohl Text als auch Bilder als Eingabe zu verarbeiten. Dieser Leitfaden enthält Informationen zu jeder Modellvariante, damit Sie entscheiden können, welche Modellvariante am besten zu Ihrem Anwendungsfall passt.

Verfügbare Sprachen

Gemini-Modelle werden mit den folgenden Sprachen trainiert: arbnbgzhhrcsdanlenetfifrdeeliwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

PaLM-Modelle funktionieren nur auf Englisch. Die Verwendung anderer Sprachen kann zu unerwarteten Ergebnissen führen.

Modellvarianten

Die Gemini API bietet verschiedene Modelle, die für bestimmte Anwendungsfälle optimiert sind. Hier finden Sie einen kurzen Überblick über die verfügbaren Gemini-Varianten:

Modellvariante Eingabe(n) Ausgabe Optimiert für
Gemini 1.5 Pro (Vorabversion) Audio, Bilder, Videos und Text Text Logikaufgaben, einschließlich, aber nicht beschränkt auf, Code- und Textgenerierung, Textbearbeitung, Problemlösung, Datenextraktion und -generierung
Gemini 1.5 Flash (Vorschau) Audio, Bilder, Videos und Text Text Schnelle und vielseitige Leistung bei einer Vielzahl von Aufgaben
Gemini 1.0 Pro Text Text Aufgaben in natürlicher Sprache, mehrstufiger Text- und Codechat sowie Codegenerierung
Gemini 1.0 Pro Vision Bilder, Videos und Text Text Leistung optimiert für visuelle Aufgaben wie das Generieren von Bildbeschreibungen oder das Erkennen von Objekten in Bildern
Texteinbettung Text Texteinbettungen Elastische Texteinbettungen mit bis zu 768 Dimensionen für Text mit bis zu 2.048 Tokens generieren
Einbettung Text Texteinbettungen Texteinbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens generieren
AQA Text Text Aufgaben im Zusammenhang mit zugeordneten Fragen statt dem bereitgestellten Text ausführen

In der folgenden Tabelle werden die Attribute der Gemini-Modelle beschrieben, die für alle Modellvarianten gelten:

Attribut Beschreibung
Trainingsdaten Gemini erhält Anfang 2023 keine Informationen mehr. Das Wissen über Ereignisse nach diesem Zeitraum ist begrenzt.
Unterstützte Sprachen Verfügbare Sprachen
Konfigurierbare Modellparameter
  • Top P
  • Top k
  • Temperatur
  • Stoppsequenz
  • Maximale Ausgabelänge
  • Anzahl der Antwortkandidaten

Informationen zu den einzelnen Parametern finden Sie im Abschnitt zu Modellparametern im Leitfaden zu generativen Modellen.

Gemini 1.5 Pro (Vorschau)

Gemini 1.5 Pro ist ein mittelgroßes multimodales Modell, das für eine Vielzahl von Logikaufgaben optimiert ist, z. B.:

  • Codegenerierung
  • Textgenerierung
  • Textbearbeitung
  • Probleme lösen
  • Empfehlungen generieren
  • Extraktion von Informationen
  • Datenextraktion oder -generierung
  • KI-Agents erstellen

1.5 Pro kann große Datenmengen auf einmal verarbeiten, einschließlich 1 Stunde Video- und 9,5 Stunden Audiomaterial sowie Codebasen mit über 30.000 Codezeilen oder mehr als 700.000 Wörtern.

1.5 Pro kann keine, einen oder wenige Lernaufgaben ausführen.

Modelldetails

Attribut Beschreibung
Modellcode models/gemini-1.5-pro-latest
Eingaben Audio, Bilder, Video und Text
Ausgabe Text
Unterstützte Generierungsmethoden generateContent
Limit für Eingabetoken[**] 1.048.576
Tokenausgabelimit[**] 8.192
Maximale Anzahl von Bildern pro Prompt 3.600
Maximale Videolänge 1 Stunde
Maximale Audiolänge Etwa 9,5 Stunden
Maximale Anzahl von Audiodateien pro Prompt 1
Modellsicherheit Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu den Sicherheitseinstellungen.
Ratenbegrenzungen[*]
Kostenlos:
  • 2 U/min
  • 32.000 TPM
  • 50 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 RPM
  • 10 Millionen TPM
  • 10.000 Anfragen pro Sekunde
  • 14.400.000.000 TPD
Zwei Millionen Kontexte:
  • 1 U/min
  • 2 Millionen TPM
  • 50 RPD
Systemanweisungen Unterstützt
JSON-Modus Unterstützt
Aktuelle Version gemini-1.5-pro-latest
Neueste stabile Version gemini-1.5-pro
Letzte Aktualisierung April 2024

Gemini 1.5 Flash (Vorschau)

Gemini 1.5 Flash ist ein schnelles und vielseitiges multimodales Modell für die Skalierung über verschiedene Aufgaben hinweg.

Modelldetails

Attribut Beschreibung
Modellcode gemini-1.5-flash-latest
Eingabe(n) Audio, Bilder, Video und Text
Ausgabe Text
Unterstützte Generierungsmethoden generateContent
Limit für Eingabetoken[**] 1.048.576
Tokenausgabelimit[**] 8.192
Maximale Anzahl von Bildern pro Prompt 3.600
Maximale Videolänge 1 Stunde
Maximale Audiolänge Etwa 9,5 Stunden
Maximale Anzahl von Audiodateien pro Prompt 1
Modellsicherheit Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu den Sicherheitseinstellungen.
Ratenbegrenzungen[*]
Kostenlos:
  • 15 RPM
  • 1 Million TPM
  • 1.500 RPD
Pay-as-you-go:
  • 360 RPM
  • 10 Millionen TPM
  • 10.000 Anfragen pro Sekunde
Systemanweisungen Unterstützt
JSON-Modus Unterstützt
Aktuelle Version gemini-1.5-flash-latest
Neueste stabile Version gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro ist ein NLP-Modell, das Aufgaben wie Text- und Codechat in mehreren Schritten sowie Codegenerierung verarbeitet.

1.0 Pro kann keine, einen oder wenige Lernaufgaben ausführen.

Modelldetails

Attribut Beschreibung
Modellcode models/gemini-pro
Eingabe Text
Ausgabe Text
Unterstützte Generierungsmethoden
Python: generate_content
REST: generateContent
Ratenbegrenzungen[*]
Kostenlos:
  • 15 RPM
  • 32.000 TPM
  • 1.500 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 RPM
  • 120.000 TPM
  • 30.000 Anfragen pro Sekunde
  • 172.800.000 TPD
Systemanweisungen Nicht unterstützt
JSON-Modus Nicht unterstützt
Aktuelle Version gemini-1.0-pro-latest
Neueste stabile Version gemini-1.0-pro
Stabile Versionen gemini-1.0-pro-001
Letzte Aktualisierung Februar 2024

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision ist ein leistungsoptimiertes multimodales Modell, das visuelle Aufgaben ausführen kann. Mit 1.0 Pro Vision lassen sich beispielsweise Bildbeschreibungen generieren, Objekte in Bildern identifizieren, Informationen zu Orten oder Objekten in Bildern bereitstellen und vieles mehr.

1.0 Pro Vision kann keine, einen oder wenige Aufgaben ausführen.

Modelldetails

Attribut Beschreibung
Modellcode models/gemini-pro-vision
Eingaben Text, Video und Bilder
Ausgabe Text
Unterstützte Generierungsmethoden
Python: generate_content
REST: generateContent
Limit für Eingabetoken[*] 12.288
Tokenausgabelimit[*] 4.096
Maximale Bildgröße Kein Limit
Maximale Anzahl von Bildern pro Prompt 16
Maximale Videolänge 2 Minuten
Maximale Anzahl von Videos pro Prompt 1
Modellsicherheit Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu den Sicherheitseinstellungen.
Ratenbegrenzung[*] 60 Anfragen pro Minute
Aktuelle Version gemini-1.0-pro-vision-latest
Neueste stabile Version gemini-1.0-pro-vision
Letzte Aktualisierung Dezember 2023

Texteinbettungen

Texteinbettung

Mit dem Texteinbettungsmodell können Sie Texteinbettungen für Eingabetext generieren. Weitere Informationen zum Texteinbettungsmodell finden Sie in der Dokumentation zu Generative AI in Vertex AI zu Texteinbettungen.

Das Modell zur Texteinbettung ist für das Erstellen von Einbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens optimiert. Für die Texteinbettung sind elastische Einbettungsgrößen unter 768 verfügbar. Sie können elastische Einbettungen verwenden, um kleinere Ausgabedimensionen zu generieren und unter Umständen Rechen- und Speicherkosten bei geringfügigem Leistungsverlust zu sparen.

Modelldetails
Attribut Beschreibung
Modellcode models/text-embedding-004 (text-embedding-preview-0409 in Vertex AI)
Eingabe Text
Ausgabe Texteinbettungen
Limit für Eingabetoken 2.048
Größe der Ausgabeabmessungen 768
Unterstützte Generierungsmethoden
Python: embed_content
REST: embedContent
Modellsicherheit Keine anpassbaren Sicherheitseinstellungen.
Ratenbegrenzung[*] 1.500 Anfragen pro Minute
Letzte Aktualisierung April 2024

Einbettung

Mit dem Einbettungsmodell können Sie Texteinbettungen für Eingabetext generieren.

Das Einbettungsmodell ist für das Erstellen von Einbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens optimiert.

Details zum Einbettungsmodell
Attribut Beschreibung
Modellcode models/embedding-001
Eingabe Text
Ausgabe Texteinbettungen
Limit für Eingabetoken 2.048
Größe der Ausgabeabmessungen 768
Unterstützte Generierungsmethoden
Python: embed_content
REST: embedContent
Modellsicherheit Keine anpassbaren Sicherheitseinstellungen.
Ratenbegrenzung[*] 1.500 Anfragen pro Minute
Letzte Aktualisierung Dezember 2023

AQA

Sie können das AQA-Modell verwenden, um Aufgaben im Zusammenhang mit Attributed Question-Answering (AQA) für ein Dokument, einen Korpus oder eine Reihe von Abschnitten auszuführen. Das AQA-Modell gibt Antworten auf Fragen zurück, die auf bereitgestellten Quellen basieren, zusammen mit einer Schätzung der beantwortbaren Wahrscheinlichkeit.

Modelldetails

Attribut Beschreibung
Modellcode models/aqa
Eingabe Text
Ausgabe Text
Unterstützte Generierungsmethoden
Python: GenerateAnswerRequest
REST: generateAnswer
Unterstützte Sprachen Englisch
Limit für Eingabetoken[**] 7.168
Tokenausgabelimit[**] 1.024
Modellsicherheit Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu den Sicherheitseinstellungen.
Ratenbegrenzung[*] 60 Anfragen pro Minute
Letzte Aktualisierung Dezember 2023

Sehen Sie sich die Beispiele an, um die Möglichkeiten dieser Modellvarianten kennenzulernen.

[*] Ein Token entspricht bei Gemini-Modellen etwa 4 Zeichen. 100 Tokens entsprechen etwa 60–80 englischen Wörtern.

[**] RPM: Anfragen pro Minute
TPM: Tokens pro Minute
RPD: Anfragen pro Tag
TPD: Tokens pro Tag

Aufgrund von Kapazitätsbeschränkungen können angegebene maximale Ratenbegrenzungen nicht garantiert werden.

Muster für Modellversionsnamen

Gemini-Modelle sind als Vorabversion oder als stabile Version verfügbar. In Ihrem Code können Sie eines der folgenden Formate für Modellnamen verwenden, um anzugeben, welches Modell und welche Version Sie verwenden möchten.

  • Neueste: Verweist auf die neueste Version des Modells für eine angegebene Generierung und Variante. Das zugrunde liegende Modell wird regelmäßig aktualisiert und kann eine Vorabversion sein. Dieser Alias sollte nur für explorative Testanwendungen und Prototypen verwendet werden.

    Verwenden Sie das folgende Muster, um die neueste Version anzugeben: <model>-<generation>-<variation>-latest. Beispiel: gemini-1.0-pro-latest

  • Neueste stabile Version:Verweist auf die neueste stabile Version, die für die angegebene Modellgenerierung und -variante veröffentlicht wurde.

    Verwenden Sie das folgende Muster, um die neueste stabile Version anzugeben: <model>-<generation>-<variation>. Beispiel: gemini-1.0-pro.

  • Stable (Stabil): Verweist auf ein bestimmtes stabiles Modell. Stabile Modelle ändern sich nicht. Die meisten Produktions-Apps sollten ein bestimmtes stabiles Modell verwenden.

    Verwenden Sie das folgende Muster, um eine stabile Version anzugeben: <model>-<generation>-<variation>-<version>. Beispiel: gemini-1.0-pro-001