Gemini Live API overview

A API Live permite interações de voz e visão em tempo real e de baixa latência com o Gemini. Ele processa fluxos contínuos de áudio, imagens e texto para oferecer respostas faladas imediatas e semelhantes às humanas, criando uma experiência de conversa natural para seus usuários.

Visão geral da API Live

Casos de uso

A API Live pode ser usada para criar agentes de voz em tempo real para vários setores, incluindo:

  • E-commerce e varejo:assistentes de compras que oferecem recomendações personalizadas e agentes de suporte que resolvem problemas dos clientes.
  • Jogos:personagens não jogáveis (NPCs) interativos, assistentes de ajuda no jogo e tradução em tempo real do conteúdo do jogo.
  • Interfaces de última geração:experiências ativadas por voz e vídeo em robótica, óculos inteligentes e veículos.
  • Saúde:assistentes de saúde para suporte e educação de pacientes.
  • Serviços financeiros:consultores de IA para gestão de patrimônio e orientação de investimentos.
  • Educação:mentores e acompanhantes de aprendizado com IA que oferecem instruções e feedback personalizados.

Principais recursos

A API Live oferece um conjunto abrangente de recursos para criar agentes de voz robustos:

  • Suporte multilíngue: converse em 70 idiomas disponíveis.
  • Interrupção: os usuários podem interromper o modelo a qualquer momento para ter interações responsivas.
  • Uso de ferramentas: integra ferramentas como chamada de função e Pesquisa Google para interações dinâmicas.
  • Transcrição de áudio: fornece transcrições de texto da entrada do usuário e da saída do modelo.
  • Áudio proativo: permite controlar quando e em quais contextos o modelo responde.
  • Computação afetiva: adapta o estilo e o tom da resposta para corresponder à expressão da entrada do usuário.

Especificações técnicas

A tabela a seguir descreve as especificações técnicas da API Live:

Categoria Detalhes
Modalidades de entrada Áudio (áudio PCM bruto de 16 bits, 16 kHz, little-endian), imagens (JPEG <= 1 FPS), texto
Modalidades de saída Áudio (áudio PCM bruto de 16 bits, 24 kHz, little endian)
Protocolo Conexão WebSocket com estado (WSS)

Escolher uma abordagem de implementação

Ao fazer a integração com a API Live, você precisa escolher uma das seguintes abordagens de implementação:

  • De servidor para servidor: seu back-end se conecta à API Live usando WebSockets. Normalmente, o cliente envia dados de stream (áudio, vídeo, texto) para o servidor, que os encaminha para a API Live.
  • Cliente para servidor: seu código de front-end se conecta diretamente à API Live usando WebSockets para transmitir dados, ignorando o back-end.

Primeiros passos

Selecione o guia que corresponde ao seu ambiente de desenvolvimento:

Servidor para servidor

Conecte-se à API Gemini Live usando o SDK da IA generativa para criar um aplicativo multimodal em tempo real com um back-end em Python.

Cliente para servidor

Conecte-se à API Gemini Live usando WebSockets para criar um aplicativo multimodal em tempo real com um front-end JavaScript e tokens efêmeros.

Kit de desenvolvimento de agente

Crie um agente e use o streaming do Kit de Desenvolvimento de Agente (ADK) para ativar a comunicação por voz e vídeo.

Integrações com parceiros

Para simplificar o desenvolvimento de apps de áudio e vídeo em tempo real, use uma integração de terceiros que ofereça suporte à API Gemini Live via WebRTC ou WebSockets.