L'API Live consente interazioni vocali e visive in tempo reale a bassa latenza con Gemini. Elabora flussi continui di audio, immagini e testo per fornire risposte vocali immediate e simili a quelle umane, creando un'esperienza di conversazione naturale per gli utenti.

Casi d'uso
L'API Live può essere utilizzata per creare agenti vocali in tempo reale per una varietà di settori, tra cui:
- E-commerce e vendita al dettaglio:assistenti allo shopping che offrono consigli personalizzati e agenti di assistenza che risolvono i problemi dei clienti.
- Videogiochi:personaggi non giocanti (PNG) interattivi, assistenti di aiuto in-game e traduzione in tempo reale dei contenuti in-game.
- Interfacce di nuova generazione:esperienze abilitate per voce e video in robotica, occhiali smart e veicoli.
- Sanità:compagni di salute per il supporto e l'istruzione dei pazienti.
- Servizi finanziari:consulenti AI per la gestione patrimoniale e la consulenza sugli investimenti.
- Istruzione:mentori AI e compagni di apprendimento che forniscono istruzioni e feedback personalizzati.
Funzionalità principali
L'API Live offre un insieme completo di funzionalità per la creazione di agenti vocali robusti:
- Supporto multilingue: conversazione in 70 lingue supportate.
- Barge-in: Gli utenti possono interrompere il modello in qualsiasi momento per interazioni reattive.
- **Utilizzo degli strumenti**: integra strumenti come la chiamata di funzioni e la Ricerca Google per interazioni dinamiche.
- Trascrizioni audio: fornisce trascrizioni di testo sia dell'input utente che dell'output del modello.
- Audio proattivo: consente di controllare quando e in quali contesti il modello risponde.
- Dialogo empatico: adatta lo stile e il tono della risposta in base all'espressione dell'input dell'utente.
Specifiche tecniche
La tabella seguente illustra le specifiche tecniche dell'API Live:
| Categoria | Dettagli |
|---|---|
| Modalità di input | Audio (audio PCM a 16 bit non elaborato, 16 kHz, little-endian), immagini (JPEG <= 1 FPS), testo |
| Modalità di output | Audio (audio PCM a 16 bit non elaborato, 24 kHz, little-endian) |
| Protocollo | Connessione WebSocket con stato (WSS) |
Scegli un approccio di implementazione
Quando esegui l'integrazione con l'API Live, devi scegliere uno dei seguenti approcci di implementazione:
- Da server a server: il backend si connette all'API Live utilizzando WebSockets. In genere, il client invia i dati dello stream (audio, video, testo) al server, che poi li inoltra all'API Live.
- Da client a server: il codice frontend si connette direttamente all'API Live utilizzando WebSockets per lo streaming dei dati, bypassando il backend.
Inizia
Seleziona la guida che corrisponde al tuo ambiente di sviluppo:
Tutorial sull'SDK GenAI
Connettiti all'API Gemini Live utilizzando l'SDK GenAI per creare un'applicazione multimodale in tempo reale con un backend Python.
Tutorial su WebSocket
Connettiti all'API Gemini Live utilizzando WebSocket per creare un'applicazione multimodale in tempo reale con un frontend JavaScript e token temporanei.
Tutorial sull'ADK
Crea un agente e utilizza lo streaming dell'Agent Development Kit (ADK) per abilitare la comunicazione vocale e video.
Integrazioni con i partner
Per semplificare lo sviluppo di app audio e video in tempo reale, puoi utilizzare un'integrazione di terze parti che supporta l'API Gemini Live su WebRTC o WebSocket.
LiveKit
Utilizza l'API Gemini Live con gli agenti LiveKit.
Pipecat di Daily
Crea un chatbot AI in tempo reale utilizzando Gemini Live e Pipecat.
Fishjam di Software Mansion
Crea applicazioni di streaming video e audio in diretta con Fishjam.
Agenti Vision di Stream
Crea applicazioni AI vocali e video in tempo reale con gli agenti Vision.
Voximplant
Collega le chiamate in entrata e in uscita all'API Live con Voximplant.
SDK Firebase AI
Inizia a utilizzare l'API Gemini Live utilizzando Firebase AI Logic.