Multimodal Live API

A API Multimodal Live permite interações bidirecionais de baixa latência que usam entrada de texto, áudio e vídeo, com saída de áudio e texto. Isso facilita conversas por voz naturais e semelhantes a humanos com a capacidade de interromper o modelo a qualquer momento. O recurso de compreensão de vídeo do modelo amplia as modalidades de comunicação, permitindo que você compartilhe a entrada da câmera ou screencasts e faça perguntas sobre eles.

A API Multimodal Live inclui os seguintes recursos principais:

  • Multimodalidade: o modelo pode ver, ouvir e falar.
  • Interação em tempo real com baixa latência: o modelo pode fornecer respostas rápidas.
  • Memória de sessão: o modelo retém a memória de todas as interações em uma única sessão, lembrando informações ouvidas ou vistas anteriormente.
  • Suporte a chamada de função, execução de código e pesquisa como ferramenta: é possível integrar o modelo a serviços e fontes de dados externos.

A API Multimodal Live foi projetada para comunicação de servidor para servidor.

Para apps da Web e para dispositivos móveis, recomendamos usar a integração dos nossos parceiros no Daily.

Guia de integração

Sessões

Uma sessão representa uma única conexão WebSocket entre o cliente e o servidor Gemini.

Depois que um cliente inicia uma nova conexão, a sessão pode trocar mensagens com o servidor para:

  • Enviar texto, áudio ou vídeo para o servidor do Gemini.
  • Receba respostas de áudio, texto ou chamada de função do servidor do Gemini.

A configuração da sessão é enviada na primeira mensagem após a conexão. Uma configuração de sessão inclui o modelo, os parâmetros de geração, instruções do sistema e ferramentas.

Confira o exemplo de configuração a seguir:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

Para mais informações, consulte BidiGenerateContentSetup.

Enviar mensagens

As mensagens são strings formatadas em JSON trocadas pela conexão WebSocket.

Para enviar uma mensagem, o cliente precisa enviar uma mensagem de cliente com suporte em uma string formatada em JSON com uma das opções em uma conexão WebSocket aberta.

Consulte também