Gemini

Gemini ist eine Familie von generativen KI-Modellen, mit denen Entwickler Inhalte generieren und Probleme lösen können. Diese Modelle sind darauf ausgelegt, sowohl Text als auch Bilder als Eingabe zu verarbeiten. Dieser Leitfaden enthält Informationen zu den einzelnen Modellvarianten, die Ihnen bei der Entscheidung helfen, welche für Ihren Anwendungsfall am besten geeignet ist.

Sicherheit und bestimmungsgemäße Verwendung

Generative AI-Modelle sind leistungsstarke Tools, die jedoch nicht ohne ihre Einschränkungen funktionieren. Ihre Vielseitigkeit und Anwendbarkeit können manchmal zu unerwarteten Ausgaben führen, z. B. ungenaue, verzerrte oder anstößige Ergebnisse. Die Nachverarbeitung und eine strenge manuelle Bewertung sind unerlässlich, um das Risiko von Schäden durch solche Ergebnisse zu begrenzen. Weitere Vorschläge zur sicheren Verwendung finden Sie in den Sicherheitshinweisen.

Die von der Gemini API bereitgestellten Modelle können für eine Vielzahl von Anwendungen für Generative AI und Natural Language Processing (NLP) verwendet werden. Die Verwendung dieser Funktionen ist nur über die Gemini API oder die Google AI Studio-Web-App verfügbar. Ihre Verwendung der Gemini API unterliegt außerdem der Richtlinie zur unzulässigen Nutzung von Generative AI und den Nutzungsbedingungen der Gemini API.

Modellvarianten

Die Gemini API bietet verschiedene Modelle, die für bestimmte Anwendungsfälle optimiert sind. Hier ist eine kurze Übersicht der verfügbaren Gemini-Varianten:

Modellvariante Eingabe(n) Ausgabe Optimiert für
Gemini 1.5 Pro (Vorabversion) Audio, Bilder und Text Text Begründungsaufgaben, einschließlich, aber nicht beschränkt auf die Code- und Textgenerierung, Textbearbeitung, Problemlösung, Datenextraktion und -generierung
Gemini 1.5 Flash (Vorabversion) Audio, Bilder und Text Text Schnelle und vielseitige Leistung bei einer Vielzahl von Aufgaben
Gemini 1.0 Pro Text Text Natural Language Tasks, Multi-Turn-Text und Codechat sowie Codegenerierung
Gemini 1.0 Pro Vision Bilder und Text Text Leistungsoptimiert für visuelle Aufgaben wie das Generieren von Bildbeschreibungen oder das Erkennen von Objekten in Bildern
Texteinbettung Text Texteinbettungen Flexible Texteinbettungen mit bis zu 768 Dimensionen für Text mit bis zu 2.048 Tokens generieren
Einbettung Text Texteinbettungen Texteinbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens generieren
Qualitätssicherung Text Text Zugeordnete Fragen zum Antworten auf bereitgestellten Text ausführen

In der folgenden Tabelle werden die Attribute der Gemini-Modelle beschrieben, die allen Modellvarianten gemeinsam sind:

Attribut Beschreibung
Trainingsdaten Gemini: Wissensschluss ist Anfang 2023. Das Wissen über Ereignisse nach diesem Zeitraum ist begrenzt.
Unterstützte Sprachen Verfügbare Sprachen
Konfigurierbare Modellparameter
  • Top P
  • Top k
  • Temperatur
  • Sequenz stoppen
  • Maximale Ausgabelänge
  • Anzahl der Antwortkandidaten

Informationen zu den einzelnen Parametern finden Sie im Abschnitt „Modellparameter“ des Leitfadens zu generativen Modellen.

Gemini 1.5 Pro (Vorabversion)

Gemini 1.5 Pro ist ein mittelgroßes multimodales Modell, das für eine Vielzahl von Logikaufgaben optimiert ist, darunter:

  • Codegenerierung
  • Textgenerierung
  • Textbearbeitung
  • Probleme lösen
  • Empfehlungsgenerierung
  • Informationsextraktion
  • Datenextraktion oder -generierung
  • KI-Agents erstellen

1.5 Pro kann große Datenmengen gleichzeitig verarbeiten, einschließlich 1 Stunde Video, 9,5 Stunden Audio, Codebasis mit mehr als 30.000 Codezeilen oder mehr als 700.000 Wörtern.

1.5 Pro kann Zero-, One- und Low-Shot-Lernaufgaben bewältigen.

Modelldetails

Property Beschreibung
Modellcode models/gemini-1.5-pro-latest
Eingaben Audio, Bilder und Text
Ausgabe Text
Unterstützte Generierungsmethoden generateContent
Limit für Eingabetoken[**] 1.048.576
Ausgabetoken-Limit[**] 8.192
Maximale Anzahl von Bildern pro Prompt 3.600
Maximale Videolänge 1 Stunde
Maximale Audiolänge Ungefähr 9,5 Stunden
Maximale Anzahl von Audiodateien pro Prompt 1
Modellsicherheit Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu Sicherheitseinstellungen.
Ratenbegrenzungen[*]
Kostenlos:
  • 2 RPM
  • 32.000 TPM
  • 50 Anfragen pro Sekunde
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 RPM
  • 10 Millionen TPM
  • 10.000 RPD
  • 14.400.000.000 TPD
Zwei Millionen Kontext:
  • 1 U/min
  • 2 Millionen TPM
  • 50 Anfragen pro Sekunde
Systemanweisung Unterstützt
JSON-Modus Unterstützt
Aktuelle Version gemini-1.5-pro-latest
Neueste stabile Version gemini-1.5-pro
Letzte Aktualisierung April 2024

Gemini 1.5 Flash (Vorschau)

Gemini 1.5 Flash ist ein schnelles und vielseitiges multimodales Modell zur Skalierung für verschiedene Aufgaben.

Modelldetails

Property Beschreibung
Modellcode gemini-1.5-flash
Eingabe(n) Audio, Bilder und Text
Ausgabe Text
Unterstützte Generierungsmethoden generateContent
Limit für Eingabetoken[**] 1.048.576
Ausgabetoken-Limit[**] 8.192
Maximale Anzahl von Bildern pro Prompt 3.600
Maximale Videolänge 1 Stunde
Maximale Audiolänge Ungefähr 9,5 Stunden
Maximale Anzahl von Audiodateien pro Prompt 1
Modellsicherheit Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu Sicherheitseinstellungen.
Ratenbegrenzungen[*]
Kostenlos:
  • 15 RPM
  • 1 Million TPM
  • 1.500 RPD
Pay-as-you-go:
  • 360 RPM
  • 10 Millionen TPM
  • 10.000 RPD
Systemanweisung Unterstützt
JSON-Modus Unterstützt
Aktuelle Version gemini-1.5-flash-latest
Neueste stabile Version gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro ist ein NLP-Modell, das Aufgaben wie Multi-Turn-Text und Codechat sowie die Codegenerierung übernimmt.

1.0 Pro kann Zero-, One- und Wenige-Shot-Lernaufgaben bewältigen.

Modelldetails

Property Beschreibung
Modellcode models/gemini-pro
Eingabe Text
Ausgabe Text
Unterstützte Generierungsmethoden
Python: generate_content
REST: generateContent
Ratenbegrenzungen[*]
Kostenlos:
  • 15 RPM
  • 32.000 TPM
  • 1.500 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 RPM
  • 120.000 TPM
  • 30.000 RPD
  • 172.800.000 TPD
Systemanweisung Nicht unterstützt
JSON-Modus Nicht unterstützt
Aktuelle Version gemini-1.0-pro-latest
Neueste stabile Version gemini-1.0-pro
Stabile Versionen gemini-1.0-pro-001
Letzte Aktualisierung Februar 2024

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision ist ein leistungsoptimiertes multimodales Modell, das visuell bezogene Aufgaben ausführen kann. 1.0 Pro Vision kann beispielsweise Bildbeschreibungen generieren, Objekte in Bildern identifizieren, Informationen zu Orten oder Objekten in Bildern bereitstellen und vieles mehr.

1.0 Pro Vision kann Aufgaben mit Zero-, Einzel- und weniger Aufnahme erledigen.

Modelldetails

Property Beschreibung
Modellcode models/gemini-pro-vision
Eingaben Text und Bilder
Ausgabe Text
Unterstützte Generierungsmethoden
Python: generate_content
REST: generateContent
Limit für Eingabetoken[*] 12.288
Ausgabetoken-Limit[*] 4.096
Maximale Bildgröße Kein Limit
Maximale Anzahl von Bildern pro Prompt 16
Maximale Videolänge 2 Minuten
Maximale Anzahl von Videos pro Prompt 1
Modellsicherheit Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu Sicherheitseinstellungen.
Ratenbegrenzung[*] 60 Anfragen pro Minute
Aktuelle Version gemini-1.0-pro-vision-latest
Neueste stabile Version gemini-1.0-pro-vision
Letzte Aktualisierung Dezember 2023

Texteinbettung und -einbettung

Texteinbettung

Mit dem Modell „Texteinbettung“ können Sie Texteinbettungen für Eingabetext generieren. Weitere Informationen zum Modell für Texteinbettungen finden Sie in der Dokumentation zu generativer KI in Vertex AI zu Texteinbettungen.

Das Texteinbettungsmodell ist für das Erstellen von Einbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens optimiert. Bei der Texteinbettung sind elastische Einbettungsgrößen unter 768 Zeichen möglich. Mit elastischen Einbettungen können Sie kleinere Ausgabedimensionen generieren und möglicherweise Computing- und Speicherkosten mit geringen Leistungsverlusten sparen.

Modelldetails
Property Beschreibung
Modellcode models/text-embedding-004 (text-embedding-preview-0409 in Vertex AI)
Eingabe Text
Ausgabe Texteinbettungen
Limit für Eingabetoken 2.048
Größe der Ausgabedimension 768
Unterstützte Generierungsmethoden
Python: embed_content
REST: embedContent
Modellsicherheit Sicherheitseinstellungen sind nicht anpassbar.
Ratenbegrenzung[*] 1.500 Anfragen pro Minute
Letzte Aktualisierung April 2024

Einbettung

Mit dem Einbettungsmodell können Sie Texteinbettungen für Eingabetext generieren.

Das Einbettungsmodell ist für das Erstellen von Einbettungen mit 768 Dimensionen für Text mit bis zu 2.048 Tokens optimiert.

Modelldetails einbetten
Property Beschreibung
Modellcode models/embedding-001
Eingabe Text
Ausgabe Texteinbettungen
Limit für Eingabetoken 2.048
Größe der Ausgabedimension 768
Unterstützte Generierungsmethoden
Python: embed_content
REST: embedContent
Modellsicherheit Sicherheitseinstellungen sind nicht anpassbar.
Ratenbegrenzung[*] 1.500 Anfragen pro Minute
Letzte Aktualisierung Dezember 2023

AQA

Sie können das AQA-Modell verwenden, um Aufgaben im Zusammenhang mit zugeordneten Fragenbeantwortung (Question Answering, AQA) für ein Dokument, einen Korpus oder eine Reihe von Passagen auszuführen. Das AQA-Modell gibt Antworten auf Fragen zurück, die auf den bereitgestellten Quellen basieren, zusammen mit einer Schätzung der beantwortbaren Wahrscheinlichkeit.

Modelldetails

Property Beschreibung
Modellcode models/aqa
Eingabe Text
Ausgabe Text
Unterstützte Generierungsmethoden
Python: GenerateAnswerRequest
REST: generateAnswer
Unterstützte Sprachen Englisch
Limit für Eingabetoken[**] 7.168
Ausgabetoken-Limit[**] 1.024
Modellsicherheit Automatisch angewendete Sicherheitseinstellungen, die von Entwicklern angepasst werden können. Weitere Informationen findest du auf unserer Seite zu Sicherheitseinstellungen.
Ratenbegrenzung[*] 60 Anfragen pro Minute
Letzte Aktualisierung Dezember 2023

In den Beispielen erfahren Sie mehr über die Funktionen dieser Modellvarianten.

[*] Ein Token entspricht etwa 4 Zeichen für Gemini-Modelle. 100 Tokens entsprechen etwa 60–80 englischen Wörtern.

[**] RPM: Anfragen pro Minute
TPM: Tokens pro Minute
RPD: Anfragen pro Tag
TPD: Tokens pro Tag

Aufgrund von Kapazitätseinschränkungen werden angegebene maximale Ratenbegrenzungen nicht garantiert.

Namensmuster der Modellversion

Gemini-Modelle sind entweder als Vorabversion oder als stabile Version verfügbar. In Ihrem Code können Sie eines der folgenden Modellnamenformate verwenden, um anzugeben, welches Modell und welche Version Sie verwenden möchten.

  • Neueste:Verweist auf die neueste Version des Modells für eine bestimmte Generation und Variante. Das zugrunde liegende Modell wird regelmäßig aktualisiert und kann eine Vorabversion sein. Dieser Alias sollte nur für Apps und Prototypen verwendet werden, die explorative Tests durchführen.

    Verwenden Sie das folgende Muster, um die neueste Version anzugeben: <model>-<generation>-<variation>-latest. Beispiel: gemini-1.0-pro-latest

  • Neueste stabile Version: Verweist auf die neueste stabile Version, die für die angegebene Modellgenerierung und -variante veröffentlicht wurde.

    Verwenden Sie das folgende Muster, um die neueste stabile Version anzugeben: <model>-<generation>-<variation>. Beispiel: gemini-1.0-pro.

  • Stabil:Verweist auf ein bestimmtes stabiles Modell. Stabile Modelle ändern sich nicht. Die meisten Produktions-Apps sollten ein bestimmtes stabiles Modell verwenden.

    Verwenden Sie das folgende Muster, um eine stabile Version anzugeben: <model>-<generation>-<variation>-<version>. Beispiel: gemini-1.0-pro-001