A API Multimodal Live permite interações bidirecionais de baixa latência que usam entrada de texto, áudio e vídeo, com saída de áudio e texto. Isso facilita conversas por voz naturais e semelhantes a humanos com a capacidade de interromper o modelo a qualquer momento. O recurso de compreensão de vídeo do modelo amplia as modalidades de comunicação, permitindo que você compartilhe a entrada da câmera ou screencasts e faça perguntas sobre eles.
A API Multimodal Live inclui os seguintes recursos principais:
- Multimodalidade: o modelo pode ver, ouvir e falar.
- Interação em tempo real com baixa latência: o modelo pode fornecer respostas rápidas.
- Memória de sessão: o modelo retém a memória de todas as interações em uma única sessão, lembrando informações ouvidas ou vistas anteriormente.
- Suporte a chamada de função, execução de código e pesquisa como ferramenta: é possível integrar o modelo a serviços e fontes de dados externos.
A API Multimodal Live foi projetada para comunicação de servidor para servidor.
Para apps da Web e para dispositivos móveis, recomendamos usar a integração dos nossos parceiros no Daily.
Guia de integração
Sessões
Uma sessão representa uma única conexão WebSocket entre o cliente e o servidor Gemini.
Depois que um cliente inicia uma nova conexão, a sessão pode trocar mensagens com o servidor para:
- Enviar texto, áudio ou vídeo para o servidor do Gemini.
- Receba respostas de áudio, texto ou chamada de função do servidor do Gemini.
A configuração da sessão é enviada na primeira mensagem após a conexão. Uma configuração de sessão inclui o modelo, os parâmetros de geração, instruções do sistema e ferramentas.
Confira o exemplo de configuração a seguir:
{ "model": string, "generation_config": { "candidateCount": integer, "maxOutputTokens": integer, "temperature": number, "topP": number, "topK": integer, "presencePenalty": number, "frequencyPenalty": number, "response_modalities": string, "speech_config":object }, "system_instruction": "", "tools":[] }
Para mais informações, consulte BidiGenerateContentSetup.
Enviar mensagens
As mensagens são strings formatadas em JSON trocadas pela conexão WebSocket.
Para enviar uma mensagem, o cliente precisa enviar uma mensagem de cliente com suporte em uma string formatada em JSON com uma das opções em uma conexão WebSocket aberta.
Consulte também
- Para mais informações sobre campos de API usados com frequência (por exemplo,
Content
eTool
), consulte Como gerar conteúdo. - Saiba mais sobre chamadas de função.