A API Gemini pode executar inferência em imagens e vídeos transmitidos a ela. Após a aprovação uma imagem, uma série de imagens ou um vídeo, o Gemini pode:
- Descreva ou responda a perguntas sobre o conteúdo
- Resumir o conteúdo
- Extrapolar do conteúdo
Este tutorial demonstra algumas maneiras possíveis de solicitar a API Gemini com imagens e vídeos. Todas as saídas são somente de texto.
A seguir
Neste guia, mostramos como usar
generateContent
e
para gerar saídas de texto com base em entradas de imagem e vídeo. Para saber mais,
consulte os seguintes recursos:
- Como executar comandos com arquivos de mídia: o A API Gemini oferece suporte a comandos com dados de texto, imagem, áudio e vídeo, também conhecidos como comandos multimodais.
- Instruções do sistema: System permitem que você direcione o comportamento do modelo com base necessidades e casos de uso.
- Orientação de segurança: às vezes, a IA generativa os modelos produzem saídas inesperadas, como saídas imprecisas, enviesada ou ofensiva. O pós-processamento e a avaliação humana são essenciais e limitar o risco de danos desses resultados.