Gemini Deep Research è ora disponibile in anteprima con pianificazione collaborativa, visualizzazione, supporto MCP e altro ancora.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Live API overview

L'API Live consente interazioni vocali e visive a bassa latenza e in tempo reale con Gemini. Elabora flussi continui di audio, immagini e testo per fornire risposte immediate e simili a quelle umane, creando un'esperienza conversazionale naturale per i tuoi utenti.

Panoramica dell'API Live

Prova l'API live in Google AI Studio Clona app di esempio da GitHub Utilizza le competenze dell'agente di codifica

Casi d'uso

L'API Live può essere utilizzata per creare agenti vocali in tempo reale per una varietà di settori, tra cui:

E-commerce e vendita al dettaglio: assistenti per lo shopping che offrono consigli personalizzati e agenti di assistenza che risolvono i problemi dei clienti.
Gaming:personaggi non giocanti (NPC) interattivi, assistenti di aiuto in-game e traduzione in tempo reale dei contenuti in-game.
Interfacce di nuova generazione:esperienze abilitate per voce e video in robotica, occhiali smart e veicoli.
Sanità:assistenti per la salute per l'assistenza e l'istruzione dei pazienti.
Servizi finanziari:consulenti AI per la gestione patrimoniale e la consulenza sugli investimenti.
Istruzione:mentori AI e compagni di apprendimento che forniscono istruzioni e feedback personalizzati.

Funzionalità principali

L'API Live offre un insieme completo di funzionalità per la creazione di agenti vocali robusti:

Supporto multilingue: Parla in 70 lingue supportate.
Interruzione: Gli utenti possono interrompere il modello in qualsiasi momento per interazioni reattive.
Uso di strumenti: integra strumenti come la chiamata di funzioni e la Ricerca Google per interazioni dinamiche.
Trascrizioni audio: Fornisce trascrizioni di testo sia dell'input dell'utente che dell'output del modello.
Audio proattivo: consente di controllare quando e in quali contesti il modello risponde.
Dialogo empatico: Adatta lo stile e il tono della risposta in base all'espressione dell'input dell'utente.

Specifiche tecniche

La seguente tabella descrive le specifiche tecniche dell'API Live:

Categoria	Dettagli
Modalità di input	Audio (audio PCM a 16 bit non elaborato, 16 kHz, little-endian), immagini (JPEG <= 1 FPS), testo
Modalità di output	Audio (audio PCM a 16 bit non elaborato, 24 kHz, little-endian)
Protocollo	Connessione WebSocket con stato (WSS)

Scegliere un approccio di implementazione

Quando esegui l'integrazione con l'API Live, devi scegliere uno dei seguenti approcci di implementazione:

Da server a server: il backend si connette all'API Live utilizzando WebSockets. In genere, il client invia i dati dello stream (audio, video, testo) al server, che a sua volta li inoltra all'API Live.
Da client a server: il codice frontend si connette direttamente all'API Live utilizzando WebSockets per trasmettere dati in streaming, bypassando il backend.

Inizia

Seleziona la guida corrispondente al tuo ambiente di sviluppo:

Server-to-server

Integrazioni con i partner

Per semplificare lo sviluppo di app audio e video in tempo reale, puoi utilizzare un'integrazione di terze parti che supporta l'API Gemini Live tramite WebRTC o WebSockets.

LiveKit

Utilizza l'API Gemini Live con LiveKit Agents.

Pipecat by Daily

Crea un chatbot AI in tempo reale utilizzando Gemini Live e Pipecat.

Fishjam di Software Mansion

Crea applicazioni di streaming video e audio in diretta con Fishjam.

Vision Agents di Stream

Crea applicazioni di AI vocali e video in tempo reale con Vision Agents.

Voximplant

Collega le chiamate in entrata e in uscita all'API Live con Voximplant.

Agora

Crea applicazioni di AI conversazionale in tempo reale con Agora.

Firebase AI SDK

Inizia a utilizzare l'API Gemini Live con Firebase AI Logic.