Die Live API ermöglicht latenzarme Sprach- und Bildinteraktionen in Echtzeit mit Gemini. Es verarbeitet kontinuierliche Streams von Audio, Bildern und Text, um sofortige, menschenähnliche gesprochene Antworten zu liefern und so eine natürliche Konversationsumgebung für Ihre Nutzer zu schaffen.

Anwendungsfälle
Mit der Live API können Sie Echtzeit-Sprach-Agents für verschiedene Branchen erstellen, darunter:
- E-Commerce und Einzelhandel:Einkaufsassistenten, die personalisierte Empfehlungen geben, und Support-Agenten, die Kundenprobleme lösen.
- Gaming:Interaktive Non-Player Characters (NPCs), In-Game-Hilfeassistenten und Echtzeitübersetzung von In-Game-Inhalten.
- Schnittstellen der nächsten Generation:Sprach- und videobasierte Funktionen in Robotern, Smart Glasses und Fahrzeugen.
- Gesundheitswesen:Gesundheitsbegleiter zur Unterstützung und Aufklärung von Patienten.
- Finanzdienstleistungen:KI-basierte Beratung für Vermögensverwaltung und Anlageempfehlungen.
- Bildung:KI-Mentoren und Lernbegleiter, die personalisierte Anleitungen und Feedback geben.
Wichtige Features
Die Live API bietet eine umfassende Reihe von Funktionen zum Erstellen leistungsstarker Sprach-Agents:
- Mehrsprachiger Support: Unterhalten Sie sich in 70 unterstützten Sprachen.
- Barge-in: Nutzer können das Modell jederzeit unterbrechen, um responsive Interaktionen zu ermöglichen.
- Tool-Nutzung: Integriert Tools wie Funktionsaufrufe und die Google Suche für dynamische Interaktionen.
- Audio-Transkriptionen: Hier finden Sie Texttranskriptionen sowohl der Nutzereingabe als auch der Modellausgabe.
- Proaktive Audioausgabe: Damit können Sie steuern, wann und in welchem Kontext das Modell antwortet.
- Affektiver Dialog: Passt den Antwortstil und den Tonfall an die Ausdrucksweise des Nutzers an.
Technische Spezifikationen
In der folgenden Tabelle sind die technischen Spezifikationen für die Live API aufgeführt:
| Kategorie | Details |
|---|---|
| Eingabemodalitäten | Audio (rohes 16-Bit-PCM-Audio, 16 kHz, Little Endian), Bilder (JPEG <= 1 FPS), Text |
| Ausgabemodalitäten | Audio (rohes 16‑Bit-PCM-Audio, 24 kHz, Little Endian) |
| Protokoll | Zustandsbehaftete WebSocket-Verbindung (WSS) |
Implementierungsansatz auswählen
Bei der Integration mit der Live API müssen Sie einen der folgenden Implementierungsansätze auswählen:
- Server-zu-Server: Ihr Backend stellt über WebSockets eine Verbindung zur Live API her. Normalerweise sendet Ihr Client Streamdaten (Audio, Video, Text) an Ihren Server, der sie dann an die Live API weiterleitet.
- Client-zu-Server: Ihr Frontend-Code stellt über WebSockets eine direkte Verbindung zur Live API her, um Daten zu streamen. Ihr Backend wird dabei umgangen.
Jetzt starten
Wählen Sie die Anleitung aus, die Ihrer Entwicklungsumgebung entspricht:
GenAI SDK-Tutorial
Mit dem GenAI SDK eine Verbindung zur Gemini Live API herstellen, um eine multimodale Echtzeitanwendung mit einem Python-Backend zu erstellen.
WebSocket-Tutorial
Stellen Sie über WebSockets eine Verbindung zur Gemini Live API her, um eine multimodale Echtzeitanwendung mit einem JavaScript-Frontend und temporären Tokens zu erstellen.
ADK-Tutorial
Erstellen Sie einen Agenten und verwenden Sie das ADK-Streaming (Agent Development Kit), um Sprach- und Videokommunikation zu ermöglichen.
Einbindung in Partnerlösungen
Um die Entwicklung von Audio- und Video-Apps in Echtzeit zu optimieren, können Sie eine Drittanbieterintegration verwenden, die die Gemini Live API über WebRTC oder WebSockets unterstützt.
LiveKit
Gemini Live API mit LiveKit-Agents verwenden
Pipecat von Daily
Mit Gemini Live und Pipecat einen KI-Chatbot in Echtzeit erstellen
Fishjam von Software Mansion
Mit Fishjam können Sie Anwendungen für Live-Video- und ‑Audiostreams erstellen.
Vision Agents nach Stream
Mit Vision Agents können Sie KI-Anwendungen für Sprach- und Videoinhalte in Echtzeit entwickeln.
Voximplant
Eingehende und ausgehende Anrufe mit Voximplant mit der Live API verbinden
Firebase AI SDK
Erste Schritte mit der Gemini Live API und Firebase AI Logic