Gemini Deep Research ist jetzt in der Vorabversion mit Funktionen wie gemeinsamer Planung, Visualisierung und MCP-Unterstützung verfügbar.

Gemini Live API overview

Die Live API ermöglicht latenzarme Sprach- und Bildinteraktionen in Echtzeit mit Gemini. Es verarbeitet kontinuierliche Streams von Audio, Bildern und Text, um sofortige, menschenähnliche gesprochene Antworten zu liefern und so eine natürliche Konversationsumgebung für Ihre Nutzer zu schaffen.

Live API – Übersicht

Live-API in Google AI Studio ausprobieren Beispiel-Apps von GitHub klonen Coding-Agent-Skills verwenden

Anwendungsfälle

Mit der Live API können Sie Sprach-Agents in Echtzeit für verschiedene Branchen erstellen, darunter:

E-Commerce und Einzelhandel:Einkaufsassistenten, die personalisierte Empfehlungen geben, und Support-Agenten, die Kundenprobleme lösen.
Gaming:Interaktive Non-Player Characters (NPCs), In-Game-Hilfeassistenten und Echtzeitübersetzung von In-Game-Inhalten.
Schnittstellen der nächsten Generation:Sprach- und videobasierte Funktionen in Robotern, Smart Glasses und Fahrzeugen.
Gesundheitswesen:Gesundheitsbegleiter zur Unterstützung und Aufklärung von Patienten.
Finanzdienstleistungen:KI-basierte Beratung für Vermögensverwaltung und Anlageempfehlungen.
Bildung:KI-Mentoren und Lernbegleiter, die personalisierte Anleitungen und Feedback geben.

Wichtige Features

Die Live API bietet eine umfassende Reihe von Funktionen zum Erstellen leistungsstarker Sprach-Agents:

Mehrsprachiger Support: Unterhalten Sie sich in 70 unterstützten Sprachen.
Barge-in: Nutzer können das Modell jederzeit unterbrechen, um responsive Interaktionen zu starten.
Tool-Nutzung: Integriert Tools wie Funktionsaufrufe und die Google Suche für dynamische Interaktionen.
Audio-Transkriptionen: Bietet Texttranskriptionen sowohl der Nutzereingabe als auch der Modellausgabe.
Proaktive Audioausgabe: Damit können Sie steuern, wann und in welchen Kontexten das Modell antwortet.
Affektiver Dialog: Der Antwortstil und der Tonfall werden an die Ausdrucksweise des Nutzers angepasst.

Technische Spezifikationen

In der folgenden Tabelle sind die technischen Spezifikationen für die Live API aufgeführt:

Kategorie	Details
Eingabemodalitäten	Audio (rohes 16-Bit-PCM-Audio, 16 kHz, Little Endian), Bilder (JPEG <= 1 FPS), Text
Ausgabemodalitäten	Audio (rohes 16‑Bit-PCM-Audio, 24 kHz, Little Endian)
Protokoll	Zustandsbehaftete WebSocket-Verbindung (WSS)

Einrichtungsansatz auswählen

Bei der Integration mit der Live API müssen Sie einen der folgenden Implementierungsansätze auswählen:

Server-zu-Server: Ihr Backend stellt über WebSockets eine Verbindung zur Live API her. Normalerweise sendet Ihr Client Streamdaten (Audio, Video, Text) an Ihren Server, der sie dann an die Live API weiterleitet.
Client-zu-Server: Ihr Frontend-Code stellt über WebSockets eine direkte Verbindung zur Live API her, um Daten zu streamen. Ihr Backend wird dabei umgangen.

Jetzt starten

Wählen Sie die Anleitung aus, die Ihrer Entwicklungsumgebung entspricht:

Server-zu-Server

Einbindung in Partnerlösungen

Um die Entwicklung von Audio- und Video-Apps in Echtzeit zu optimieren, können Sie eine Drittanbieterintegration verwenden, die die Gemini Live API über WebRTC oder WebSockets unterstützt.

LiveKit

Gemini Live API mit LiveKit-Agents verwenden

Pipecat by Daily

Mit Gemini Live und Pipecat einen KI-Chatbot in Echtzeit erstellen

Fishjam von Software Mansion

Mit Fishjam können Sie Anwendungen für Live-Video- und ‑Audiostreams erstellen.

Vision Agents nach Stream

Mit Vision Agents können Sie KI-Anwendungen für Sprach- und Videoinhalte in Echtzeit entwickeln.

Voximplant

Eingehende und ausgehende Anrufe mit Voximplant mit der Live API verbinden

Agora

Echtzeit-Anwendungen für Conversational AI mit Agora entwickeln

Firebase AI SDK

Erste Schritte mit der Gemini Live API mit Firebase AI Logic