Gemini Live API overview

Die Live API ermöglicht latenzarme Sprach- und Bildinteraktionen in Echtzeit mit Gemini. Es verarbeitet kontinuierliche Streams von Audio, Bildern und Text, um sofortige, menschenähnliche gesprochene Antworten zu liefern und so eine natürliche Konversationsumgebung für Ihre Nutzer zu schaffen.

Live API – Übersicht

Anwendungsfälle

Mit der Live API können Sie Echtzeit-Sprach-Agents für verschiedene Branchen erstellen, darunter:

  • E-Commerce und Einzelhandel:Einkaufsassistenten, die personalisierte Empfehlungen geben, und Support-Agenten, die Kundenprobleme lösen.
  • Gaming:Interaktive Non-Player Characters (NPCs), In-Game-Hilfeassistenten und Echtzeitübersetzung von In-Game-Inhalten.
  • Schnittstellen der nächsten Generation:Sprach- und videobasierte Funktionen in Robotern, Smart Glasses und Fahrzeugen.
  • Gesundheitswesen:Gesundheitsbegleiter zur Unterstützung und Aufklärung von Patienten.
  • Finanzdienstleistungen:KI-basierte Beratung für Vermögensverwaltung und Anlageempfehlungen.
  • Bildung:KI-Mentoren und Lernbegleiter, die personalisierte Anleitungen und Feedback geben.

Wichtige Features

Die Live API bietet eine umfassende Reihe von Funktionen zum Erstellen leistungsstarker Sprach-Agents:

  • Mehrsprachiger Support: Unterhalten Sie sich in 70 unterstützten Sprachen.
  • Barge-in: Nutzer können das Modell jederzeit unterbrechen, um responsive Interaktionen zu ermöglichen.
  • Tool-Nutzung: Integriert Tools wie Funktionsaufrufe und die Google Suche für dynamische Interaktionen.
  • Audio-Transkriptionen: Hier finden Sie Texttranskriptionen sowohl der Nutzereingabe als auch der Modellausgabe.
  • Proaktive Audioausgabe: Damit können Sie steuern, wann und in welchem Kontext das Modell antwortet.
  • Affektiver Dialog: Passt den Antwortstil und den Tonfall an die Ausdrucksweise des Nutzers an.

Technische Spezifikationen

In der folgenden Tabelle sind die technischen Spezifikationen für die Live API aufgeführt:

Kategorie Details
Eingabemodalitäten Audio (rohes 16-Bit-PCM-Audio, 16 kHz, Little Endian), Bilder (JPEG <= 1 FPS), Text
Ausgabemodalitäten Audio (rohes 16‑Bit-PCM-Audio, 24 kHz, Little Endian)
Protokoll Zustandsbehaftete WebSocket-Verbindung (WSS)

Implementierungsansatz auswählen

Bei der Integration mit der Live API müssen Sie einen der folgenden Implementierungsansätze auswählen:

  • Server-zu-Server: Ihr Backend stellt über WebSockets eine Verbindung zur Live API her. Normalerweise sendet Ihr Client Streamdaten (Audio, Video, Text) an Ihren Server, der sie dann an die Live API weiterleitet.
  • Client-zu-Server: Ihr Frontend-Code stellt über WebSockets eine direkte Verbindung zur Live API her, um Daten zu streamen. Ihr Backend wird dabei umgangen.

Jetzt starten

Wählen Sie die Anleitung aus, die Ihrer Entwicklungsumgebung entspricht:

Server-zu-Server

Mit dem GenAI SDK eine Verbindung zur Gemini Live API herstellen, um eine multimodale Echtzeitanwendung mit einem Python-Backend zu erstellen.

Client-zu-Server

Stellen Sie über WebSockets eine Verbindung zur Gemini Live API her, um eine multimodale Echtzeitanwendung mit einem JavaScript-Frontend und temporären Tokens zu erstellen.

Agent Development Kit

Erstellen Sie einen Agenten und verwenden Sie das ADK-Streaming (Agent Development Kit), um Sprach- und Videokommunikation zu ermöglichen.

Einbindung in Partnerlösungen

Um die Entwicklung von Audio- und Video-Apps in Echtzeit zu optimieren, können Sie eine Drittanbieterintegration verwenden, die die Gemini Live API über WebRTC oder WebSockets unterstützt.