A API Live permite interações de voz e visão em tempo real e de baixa latência com o Gemini. Ele processa fluxos contínuos de áudio, imagens e texto para oferecer respostas faladas imediatas e semelhantes às humanas, criando uma experiência de conversa natural para seus usuários.

Casos de uso
A API Live pode ser usada para criar agentes de voz em tempo real para vários setores, incluindo:
- E-commerce e varejo:assistentes de compras que oferecem recomendações personalizadas e agentes de suporte que resolvem problemas dos clientes.
- Jogos:personagens não jogáveis (NPCs) interativos, assistentes de ajuda no jogo e tradução em tempo real do conteúdo do jogo.
- Interfaces de última geração:experiências ativadas por voz e vídeo em robótica, óculos inteligentes e veículos.
- Saúde:assistentes de saúde para suporte e educação de pacientes.
- Serviços financeiros:consultores de IA para gestão de patrimônio e orientação de investimentos.
- Educação:mentores e acompanhantes de aprendizado com IA que oferecem instruções e feedback personalizados.
Principais recursos
A API Live oferece um conjunto abrangente de recursos para criar agentes de voz robustos:
- Suporte multilíngue: converse em 70 idiomas disponíveis.
- Interrupção: os usuários podem interromper o modelo a qualquer momento para ter interações responsivas.
- Uso de ferramentas: integra ferramentas como chamada de função e Pesquisa Google para interações dinâmicas.
- Transcrição de áudio: fornece transcrições de texto da entrada do usuário e da saída do modelo.
- Áudio proativo: permite controlar quando e em quais contextos o modelo responde.
- Computação afetiva: adapta o estilo e o tom da resposta para corresponder à expressão da entrada do usuário.
Especificações técnicas
A tabela a seguir descreve as especificações técnicas da API Live:
| Categoria | Detalhes |
|---|---|
| Modalidades de entrada | Áudio (áudio PCM bruto de 16 bits, 16 kHz, little-endian), imagens (JPEG <= 1 FPS), texto |
| Modalidades de saída | Áudio (áudio PCM bruto de 16 bits, 24 kHz, little endian) |
| Protocolo | Conexão WebSocket com estado (WSS) |
Escolher uma abordagem de implementação
Ao fazer a integração com a API Live, você precisa escolher uma das seguintes abordagens de implementação:
- De servidor para servidor: seu back-end se conecta à API Live usando WebSockets. Normalmente, o cliente envia dados de stream (áudio, vídeo, texto) para o servidor, que os encaminha para a API Live.
- Cliente para servidor: seu código de front-end se conecta diretamente à API Live usando WebSockets para transmitir dados, ignorando o back-end.
Primeiros passos
Selecione o guia que corresponde ao seu ambiente de desenvolvimento:
Tutorial do SDK de IA generativa
Conecte-se à API Gemini Live usando o SDK da IA generativa para criar um aplicativo multimodal em tempo real com um back-end em Python.
Tutorial do WebSocket
Conecte-se à API Gemini Live usando WebSockets para criar um aplicativo multimodal em tempo real com um front-end JavaScript e tokens efêmeros.
Tutorial do ADK
Crie um agente e use o streaming do Kit de Desenvolvimento de Agente (ADK) para ativar a comunicação por voz e vídeo.
Integrações com parceiros
Para simplificar o desenvolvimento de apps de áudio e vídeo em tempo real, use uma integração de terceiros que ofereça suporte à API Gemini Live via WebRTC ou WebSockets.
LiveKit
Use a API Gemini Live com agentes do LiveKit.
Pipecat da Daily
Crie um chatbot de IA em tempo real usando o Gemini Live e o Pipecat.
Fishjam da Software Mansion
Crie aplicativos de streaming de áudio e vídeo ao vivo com o Fishjam.
Agentes do Vision por stream
Crie aplicativos de IA de voz e vídeo em tempo real com os agentes de visão.
Voximplant
Conecte chamadas recebidas e efetuadas à API Live com o Voximplant.
SDK de IA do Firebase
Comece a usar a API Gemini Live com o Firebase AI Logic.