Die Interactions API ist jetzt allgemein verfügbar. Wir empfehlen, diese API zu verwenden, um auf alle aktuellen Funktionen und Modelle zuzugreifen.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Übersicht über die Gemini Live API

Die Live API ermöglicht Sprach- und Bildinteraktionen mit Gemini in Echtzeit und mit geringer Latenz. Es verarbeitet kontinuierliche Streams von Audio, Bildern und Text, um sofortige, menschenähnliche gesprochene Antworten zu liefern und so eine natürliche Konversationsumgebung für Ihre Nutzer zu schaffen.

Live API – Übersicht

Live API in Google AI Studio ausprobieren Beispiel-Apps von GitHub klonen Coding-Agent-Skills verwenden

Anwendungsfälle

Mit der Live API können Sie Echtzeit-Sprach-Agents für verschiedene Branchen erstellen, darunter:

E-Commerce und Einzelhandel:Einkaufsassistenten, die personalisierte Empfehlungen geben, und Support-Agenten, die Kundenprobleme lösen.
Gaming:Interaktive Non-Player Characters (NPCs), In-Game-Hilfeassistenten und Echtzeitübersetzung von In-Game-Inhalten.
Schnittstellen der nächsten Generation:Sprach- und videobasierte Funktionen in Robotern, Smart Glasses und Fahrzeugen.
Gesundheitswesen:Gesundheitsbegleiter zur Unterstützung und Aufklärung von Patienten.
Finanzdienstleistungen:KI-basierte Beratung für Vermögensverwaltung und Anlageempfehlungen.
Bildung:KI-Mentoren und Lernbegleiter, die personalisierte Anleitungen und Feedback geben.
Übersetzung und Lokalisierung:Übersetzung gesprochener Unterhaltungen in Echtzeit mit geringer Latenz, um eine nahtlose mehrsprachige Kommunikation zu ermöglichen.

Wichtige Features

Die Live API bietet eine umfassende Reihe von Funktionen zum Erstellen leistungsstarker Sprach-Agents:

Unterstützung mehrerer Sprachen: Unterhalten Sie sich in 70 unterstützten Sprachen.
Barge-in: Nutzer können das Modell jederzeit unterbrechen, um responsive Interaktionen zu ermöglichen.
Toolnutzung: Integriert Tools wie Funktionsaufrufe und die Google Suche für dynamische Interaktionen.
Audio-Transkriptionen: Bietet Texttranskriptionen sowohl der Nutzereingabe als auch der Modellausgabe.
Proaktive Audioausgabe: Damit können Sie steuern, wann und in welchem Kontext das Modell antwortet.
Affektiver Dialog: Das Modell passt den Antwortstil und den Tonfall an die Ausdrucksweise des Nutzers an.
Live-Übersetzung: Echtzeit-Sprachübersetzung in über 70 Sprachen.

Technische Spezifikationen

In der folgenden Tabelle sind die technischen Spezifikationen für die Live API aufgeführt:

Kategorie	Details
Eingabemodalitäten	Audio (rohes 16-Bit-PCM-Audio, 16 kHz, Little Endian), Bilder (JPEG <= 1 FPS), Text
Ausgabemodalitäten	Audio (rohes 16‑Bit-PCM-Audio, 24 kHz, Little Endian)
Protokoll	Statusbehaftete WebSocket-Verbindung (WSS)

Implementierungsansatz auswählen

Bei der Integration mit der Live API müssen Sie einen der folgenden Implementierungsansätze auswählen:

Server-zu-Server: Ihr Backend stellt über WebSockets eine Verbindung zur Live API her. Normalerweise sendet Ihr Client Streamdaten (Audio, Video, Text) an Ihren Server, der sie dann an die Live API weiterleitet.
Client-zu-Server: Ihr Frontend-Code stellt über WebSockets eine direkte Verbindung zur Live API her, um Daten zu streamen. Ihr Backend wird dabei umgangen.

Jetzt starten

Wählen Sie die Anleitung aus, die Ihrer Entwicklungsumgebung entspricht:

Server-zu-Server

Einbindung in Partnerlösungen

Um die Entwicklung von Audio- und Video-Apps in Echtzeit zu optimieren, können Sie eine Drittanbieterintegration verwenden, die die Gemini Live API über WebRTC oder WebSockets unterstützt.

LiveKit

Gemini Live API mit LiveKit-Agents verwenden

Pipecat by Daily

Mit Gemini Live und Pipecat einen KI-Chatbot in Echtzeit erstellen

Fishjam von Software Mansion

Mit Fishjam können Sie Anwendungen für Live-Video- und ‑Audiostreams erstellen.

Vision Agents nach Stream

Mit Vision Agents können Sie KI-Anwendungen für Sprach- und Videoinhalte in Echtzeit entwickeln.

Voximplant

Eingehende und ausgehende Anrufe mit Voximplant mit der Live API verbinden

Agora

Mit Agora können Sie konversationelle KI-Anwendungen in Echtzeit entwickeln.

Firebase AI SDK

Erste Schritte mit der Gemini Live API mit Firebase AI Logic