Die Interactions API ist jetzt allgemein verfügbar. Wir empfehlen, diese API zu verwenden, um auf alle aktuellen Funktionen und Modelle zuzugreifen.

Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

Modelle

In diesem Leitfaden werden alle Modelle vorgestellt, die über die Gemini API verfügbar sind.

Gemini 3

Stabil

Gemini 3.5 Flash

Das intelligenteste Modell für nachhaltige Spitzenleistung bei agentischen und Programmieraufgaben.

Stabil

Gemini 3.1 Flash Lite

Spitzenleistung, die mit größeren Modellen mithalten kann, zu einem Bruchteil der Kosten.

Stabil

Nano Banana 2

Leistungsstarke und hocheffiziente Bildgenerierung und ‑bearbeitung, optimiert für Geschwindigkeit und Anwendungsfälle mit hohem Volumen.

Stabil

Nano Banana 2 Lite

Bildgenerierung und ‑bearbeitung mit extrem niedriger Latenz und kostengünstig, entwickelt für interaktive Anwendungsfälle mit hohem Volumen.

Stabil

Nano Banana Pro

Hochmoderne Modelle für die Bildgenerierung und ‑bearbeitung für die kontextbezogene native Bilderstellung.

Stabil

Vorschau

Gemini 3.1 Pro

Fortschrittliche Intelligenz, komplexe Problemlösungsfähigkeiten und leistungsstarke agentische und Vibe Coding-Funktionen.

Vorschau

Gemini 3 Flash

Spitzenleistung, die mit größeren Modellen mithalten kann, zu einem Bruchteil der Kosten.

Vorschau

Gemini 3.5 Live Translate

Modell für die Sprachübersetzung in Echtzeit mit niedriger Latenz, das mehr als 70 Sprachen unterstützt.

Neue Vorschau

Gemini 3.1 Flash Live

Hochwertiges Live API-Modell mit niedriger Latenz für Echtzeitdialoge und KI-Anwendungen mit Sprachsteuerung.

Neue Vorschau

Gemini 3.1 Flash TTS

Leistungsstarke Sprachgenerierung mit niedriger Latenz.

Neue Vorschau

Gemini Omni Flash

Schnelle, konversationelle Videogenerierung und ‑bearbeitung. Sie können Text und Bilder in Videos umwandeln und die Ergebnisse mit natürlicher Sprache optimieren.

Neue Vorschau

Gemini 2.5 Flash

Unser bestes Modell in Bezug auf Preis-Leistungs-Verhältnis für Aufgaben mit niedriger Latenz und hohem Volumen, die logisches Denken erfordern.

Nano Banana

Hochmoderne native Bildgenerierung und ‑bearbeitung für schnelle, kreative Workflows.

Gemini 2.5 Flash Live Live (Vorschau)

Optimiert für konversationelle Echtzeit-KI-Agenten mit nativem Audio-Streaming im Subsekundenbereich.

Gemini 2.5 Flash TTS Vorschau

Steuerbare Text-zu-Sprache-Audio-Generierung mit detaillierter Steuerung von Stil und Tempo.

Gemini 2.5 Flash Lite

Das schnellste und kostengünstigste multimodale Modell der 2.5-Familie.

Gemini 2.5 Pro

Unser fortschrittlichstes Modell für komplexe Aufgaben mit umfassenden logischen und Programmierfunktionen.

Gemini 2.5 Pro TTS (Vorschau)

Hochwertige Sprachsynthese, optimiert für Qualität in strukturierten Workflows wie Podcasts und Hörbüchern.

Audiomodelle

Dieser Abschnitt enthält alle Audiomodelle, einschließlich der Modelle, die möglicherweise bereits in anderen Abschnitten aufgeführt sind.

Gemini 3.1 Flash Live Vorschau

Unser hochwertiges Audio-zu-Audio-Modell (A2A) mit niedriger Latenz, das für Echtzeitdialoge und KI-Anwendungen mit Sprachsteuerung entwickelt wurde.

Gemini 3.1 Flash TTS Vorschau

Leistungsstarke Sprachgenerierung mit niedriger Latenz, mit natürlichen Ausgaben, steuerbaren Prompts und neuen ausdrucksstarken Audio-Tags für eine präzise Steuerung der Erzählung.

Gemini 2.5 Flash Live Live (Vorschau)

Unser Flaggschiff-Live API-Modell für bidirektionale Sprach- und Video-KI-Agenten mit niedriger Latenz und nativem logischen Audio.

Gemini 2.5 Flash TTS Vorschau

Schnelle und steuerbare Text-zu-Sprache-Funktion für kostengünstige Anwendungen mit niedriger Latenz und Echtzeit-Assistenten.

Gemini 2.5 Pro TTS (Vorschau)

Hochwertige Sprachsynthese, optimiert für Qualität in strukturierten Workflows wie Podcasts und Hörbüchern.

Generative Medienmodelle

Dieser Abschnitt enthält alle generativen Medienmodelle, einschließlich der Modelle, die möglicherweise bereits in anderen Abschnitten aufgeführt sind.

Nano Banana 2

Hocheffiziente visuelle Erstellung im Produktionsmaßstab, die die Intelligenz der Gemini 3-Serie mit blitzschnellen Generierungsgeschwindigkeiten kombiniert.

Nano Banana 2 Lite

Entwickelt als Effizienzspezialist der Bildgenerierungsfamilie mit extrem niedriger Latenz und kostengünstiger Bildgenerierung und ‑bearbeitung.

Veo 3.1 (Vorschau)

Hochmoderne filmische Videogenerierung mit erweiterten kreativen Steuerungselementen und nativ synchronisiertem Audio.

Nano Banana Pro

Eine professionelle Design-Engine mit einem logischen Kern für 4K-Visuals in Studioqualität, komplexe Layouts und präzise Textwiedergabe.

Veo 3.1 Lite (Vorschau)

Hocheffiziente, kostengünstige Videogenerierung, ‑bearbeitung und filmische Steuerung für Entwickler aus der Veo 3.1-Familie.

Gemini Omni Flash Vorschau

Schnelle, konversationelle Videogenerierung und ‑bearbeitung. Sie können Text und Bilder in Videos umwandeln und die Ergebnisse mit natürlicher Sprache optimieren.

Nano Banana

Hochmoderne native Bildgenerierung und ‑bearbeitung für schnelle, kreative Workflows.

Imagen 4 (verworfen)

Text-zu-Bild-Modell mit schneller und ultraschneller Generierung und außergewöhnlicher Klarheit bis zu einer Auflösung von 2K.

Modelle für die Musikgenerierung

Dieser Abschnitt enthält alle Modelle für die Musikgenerierung, einschließlich der Modelle, die möglicherweise bereits in anderen Abschnitten aufgeführt sind.

Lyria 3 Pro (Vorschau)

Unser Flaggschiffmodell für die Musikgenerierung, optimiert für vollständige Songs mit komplexer struktureller Kohärenz.

Lyria 3 Clip Vorschau

Optimiert für die Generierung kurzer Musikclips, Loops und Vorschauen von bis zu 30 Sekunden.

Lyria RealTime (experimentell)

Hochwertiges Modell für die Musikgenerierung mit detaillierter kreativer Steuerung und Echtzeit-Streamingfunktionen.

Tool- und Agentenmodelle

Computer Use Preview

Ein spezialisiertes Modell, das einen digitalen Bildschirm „sehen“ und UI-Aktionen wie Klicken, Tippen und Navigieren ausführen kann, um komplexe Browseraufgaben zu automatisieren.

Gemini Deep Research Vorschau

Ein agentisches Modell, das mehrstufige Recherchen aus Hunderten von Quellen autonom plant und ausführt, um zitierte, interaktive Berichte zu erstellen.

Gemini Deep Research Max (Vorschau)

Maximale Vollständigkeit für die automatisierte Kontexterfassung und ‑synthese aus Hunderten von Quellen.

Ein verwalteter Agent für allgemeine Zwecke, der autonom plant, logische Schlussfolgerungen zieht, Code ausführt, Dateien verwaltet und im Web surft – alles in einer sicheren, isolierten Linux-Sandbox.

Spezialisierte Aufgabenmodelle

Gemini Embedding 2

Unser erstes multimodales Einbettungsmodell, das Text, Bilder, Videos, Audio und PDFs in einen einheitlichen Einbettungsbereich für erweiterte semantische Such- und RAG-Systeme einordnet.

Gemini Embedding

Hochdimensionale Vektordarstellungen für erweiterte semantische Such-, Textklassifizierungs- und RAG-Systeme.

Gemini Robotics-ER 1.6(Vorschau)

Erweitertes Modell für logisches Denken, das physische Räume versteht und mehrstufige Aufgaben für Roboter-KI-Agenten plant. Es bietet neue Funktionen wie das Lesen von Instrumenten und verbesserte räumliche und physikalische Schlussfolgerungen.

Vorherige Modelle

Gemini 2.0 Flash Herunterfahren

Unser Arbeitstier der zweiten Generation mit Funktionen der nächsten Generation und verbesserten Möglichkeiten, darunter höhere Geschwindigkeit, native Tool-Nutzung und ein Kontextfenster von 1 Mio. Tokens.

Gemini 2.0 Flash Lite Herunterfahren

Unser schnellstes Modell der zweiten Generation, optimiert für Kosteneffizienz und niedrige Latenz.

Gemini 3.1 Flash Lite (Vorschau) Herunterfahren

Unser kostengünstigstes multimodales Modell, das die schnellste Leistung für leichte Aufgaben mit hoher Frequenz bietet.

Gemini 3 Pro (Vorschau) (Einstellung)

Unser hochmodernes Modell für logisches Denken mit erweitertem multimodalen Verständnis.

Namensmuster für Modellversionen

Gemini-Modelle sind in den Versionen stabil, Vorschau, neueste oder experimentell verfügbar.

Stabil

Verweist auf ein bestimmtes stabiles Modell. Stabile Modelle ändern sich in der Regel nicht. Die meisten Produktions-Apps sollten ein bestimmtes stabiles Modell verwenden.

Beispiel: gemini-3.5-flash.

Vorschau

Verweist auf ein Vorschau-Modell, das für die Produktion verwendet werden kann. Für Vorschau-Modelle ist in der Regel die Abrechnung aktiviert. Sie haben möglicherweise restriktivere Ratenlimits und werden mindestens zwei Wochen im Voraus eingestellt.

Beispiel: gemini-2.5-flash-preview-09-2025.

Neueste

Verweist auf die neueste Version für eine bestimmte Modellvariante. Dies kann eine stabile, Vorschau- oder experimentelle Version sein. Dieser Alias wird bei jeder neuen Version einer bestimmten Modellvariante ausgetauscht. Bei wichtigen Änderungen werden Sie zwei Wochen im Voraus per E-Mail benachrichtigt, bevor die Version hinter „Neueste“ geändert wird.

Beispiel: gemini-flash-latest.

Experimentell

Verweist auf ein experimentelles Modell, das in der Regel nicht für die Produktion geeignet ist und restriktivere Ratenlimits hat. Wir veröffentlichen experimentelle Modelle, um Feedback zu erhalten und Entwicklern schnell die neuesten Updates zur Verfügung zu stellen.

Experimentelle Modelle sind nicht stabil und die Verfügbarkeit von Modellendpunkten kann sich ändern.

Modelleinstellungen

Informationen zur Einstellung von Modellen finden Sie auf der Seite Gemini-Einstellungen.