Gemini Live API overview

L'API Live consente interazioni vocali e visive in tempo reale a bassa latenza con Gemini. Elabora flussi continui di audio, immagini e testo per fornire risposte vocali immediate e simili a quelle umane, creando un'esperienza di conversazione naturale per gli utenti.

Panoramica dell'API Live

Casi d'uso

L'API Live può essere utilizzata per creare agenti vocali in tempo reale per una varietà di settori, tra cui:

  • E-commerce e vendita al dettaglio:assistenti allo shopping che offrono consigli personalizzati e agenti di assistenza che risolvono i problemi dei clienti.
  • Videogiochi:personaggi non giocanti (PNG) interattivi, assistenti di aiuto in-game e traduzione in tempo reale dei contenuti in-game.
  • Interfacce di nuova generazione:esperienze abilitate per voce e video in robotica, occhiali smart e veicoli.
  • Sanità:compagni di salute per il supporto e l'istruzione dei pazienti.
  • Servizi finanziari:consulenti AI per la gestione patrimoniale e la consulenza sugli investimenti.
  • Istruzione:mentori AI e compagni di apprendimento che forniscono istruzioni e feedback personalizzati.

Funzionalità principali

L'API Live offre un insieme completo di funzionalità per la creazione di agenti vocali robusti:

  • Supporto multilingue: conversazione in 70 lingue supportate.
  • Barge-in: Gli utenti possono interrompere il modello in qualsiasi momento per interazioni reattive.
  • **Utilizzo degli strumenti**: integra strumenti come la chiamata di funzioni e la Ricerca Google per interazioni dinamiche.
  • Trascrizioni audio: fornisce trascrizioni di testo sia dell'input utente che dell'output del modello.
  • Audio proattivo: consente di controllare quando e in quali contesti il modello risponde.
  • Dialogo empatico: adatta lo stile e il tono della risposta in base all'espressione dell'input dell'utente.

Specifiche tecniche

La tabella seguente illustra le specifiche tecniche dell'API Live:

Categoria Dettagli
Modalità di input Audio (audio PCM a 16 bit non elaborato, 16 kHz, little-endian), immagini (JPEG <= 1 FPS), testo
Modalità di output Audio (audio PCM a 16 bit non elaborato, 24 kHz, little-endian)
Protocollo Connessione WebSocket con stato (WSS)

Scegli un approccio di implementazione

Quando esegui l'integrazione con l'API Live, devi scegliere uno dei seguenti approcci di implementazione:

  • Da server a server: il backend si connette all'API Live utilizzando WebSockets. In genere, il client invia i dati dello stream (audio, video, testo) al server, che poi li inoltra all'API Live.
  • Da client a server: il codice frontend si connette direttamente all'API Live utilizzando WebSockets per lo streaming dei dati, bypassando il backend.

Inizia

Seleziona la guida che corrisponde al tuo ambiente di sviluppo:

Da server a server

Connettiti all'API Gemini Live utilizzando l'SDK GenAI per creare un'applicazione multimodale in tempo reale con un backend Python.

Da client a server

Connettiti all'API Gemini Live utilizzando WebSocket per creare un'applicazione multimodale in tempo reale con un frontend JavaScript e token temporanei.

Kit di sviluppo dell'agente

Crea un agente e utilizza lo streaming dell'Agent Development Kit (ADK) per abilitare la comunicazione vocale e video.

Integrazioni con i partner

Per semplificare lo sviluppo di app audio e video in tempo reale, puoi utilizzare un'integrazione di terze parti che supporta l'API Gemini Live su WebRTC o WebSocket.