Gemini Live API overview

Die Live API ermöglicht latenzarme Sprach- und Bildinteraktionen mit Gemini in Echtzeit. Sie verarbeitet kontinuierliche Streams von Audio, Bildern und Text, um sofortige, menschenähnliche gesprochene Antworten zu liefern und so eine natürliche Unterhaltung für Ihre Nutzer zu ermöglichen.

Live API – Übersicht

Anwendungsfälle

Mit der Live API können Sprachagenten in Echtzeit für eine Vielzahl von Branchen entwickelt werden, darunter:

  • E-Commerce und Einzelhandel:Einkaufsassistenten, die personalisierte Empfehlungen geben, und Kundenservicemitarbeiter, die Kundenprobleme lösen.
  • Gaming:Interaktive Non-Player Characters (NPCs), In-Game-Hilfeassistenten und Echtzeitübersetzung von In-Game-Inhalten.
  • Schnittstellen der nächsten Generation:Sprach- und videofähige Erlebnisse in Robotik, Smart Glasses und Fahrzeugen.
  • Gesundheitswesen:Gesundheitsbegleiter für die Unterstützung und Aufklärung von Patienten.
  • Finanzdienstleistungen:KI-Berater für die Vermögensverwaltung und Anlageberatung.
  • Bildung:KI-Mentoren und Lernbegleiter, die personalisierte Anleitungen und Feedback geben.

Wichtige Features

Die Live API bietet eine umfassende Reihe von Funktionen zum Erstellen robuster Sprachagenten:

  • Mehrsprachiger Support: Unterhaltungen in 70 unterstützten Sprachen.
  • Barge-in: Nutzer können das Modell jederzeit unterbrechen, um reaktionsschnelle Interaktionen zu ermöglichen.
  • Tool-Nutzung: Tools wie Funktionsaufrufe und die Google Suche für dynamische Interaktionen einbinden.
  • Audio-Transkriptionen: Texttranskripte der Nutzereingabe und der Modellausgabe bereitstellen.
  • Proaktives Audio: Sie können festlegen, wann und in welchen Kontexten das Modell antwortet.
  • Affektiver Dialog: Antwortstil und Tonfall an die Ausdrucksweise des Nutzers anpassen.

Technische Spezifikationen

In der folgenden Tabelle sind die technischen Spezifikationen für die Live API aufgeführt:

Kategorie Details
Eingabemodalitäten Audio (rohes 16-Bit-PCM-Audio, 16 kHz, Little-Endian), Bilder (JPEG <= 1 FPS), Text
Ausgabemodalitäten Audio (rohes 16-Bit-PCM-Audio, 24 kHz, Little-Endian)
Protokoll Zustandsbehaftete WebSocket-Verbindung (WSS)

Implementierungsansatz auswählen

Bei der Einbindung in die Live API müssen Sie einen der folgenden Implementierungsansätze auswählen:

  • Server-zu-Server: Ihr Back-End stellt über WebSockets eine Verbindung zur Live API her. In der Regel sendet Ihr Client Streamdaten (Audio, Video, Text) an Ihren Server, der sie dann an die Live API weiterleitet.
  • WebSockets

Jetzt starten

Wählen Sie die Anleitung aus, die zu Ihrer Entwicklungsumgebung passt:

Server-zu-Server

Stellen Sie mit dem GenAI SDK eine Verbindung zur Gemini Live API her, um eine multimodale Echtzeitanwendung mit einem Python-Back-End zu erstellen.

Client-zu-Server

Stellen Sie mit WebSockets eine Verbindung zur Gemini Live API her, um eine multimodale Echtzeitanwendung mit einem JavaScript-Front-End und ephemeren Tokens zu erstellen.

Agent Development Kit

Erstellen Sie einen Agenten und verwenden Sie das Agent Development Kit (ADK) Streaming, um die Sprach- und Videokommunikation zu aktivieren.

Einbindung in Partnerlösungen

Um die Entwicklung von Audio- und Video-Apps in Echtzeit zu optimieren, können Sie eine Drittanbieterintegration verwenden, die die Gemini Live API über WebRTC oder WebSockets unterstützt.