Ver em ai.google.dev | Executar no Google Colab | Veja o código-fonte no GitHub |
A API Gemini pode executar inferência em imagens e vídeos transmitidos a ela. Ao transmitir uma imagem, uma série de imagens ou um vídeo, o Gemini pode:
- Descreva ou responda a perguntas sobre o conteúdo
- Resumir o conteúdo
- Extrapolar do conteúdo
Neste tutorial, demonstramos algumas maneiras possíveis de enviar entradas de imagens e vídeo à API Gemini. Todas as saídas são somente de texto.
A seguir
Este guia mostra como usar
generateContent
e
gerar saídas de texto com base em entradas de imagem e vídeo. Para saber mais,
consulte os seguintes recursos:
- Comandos com arquivos de mídia: a API Gemini oferece suporte a comandos com dados de texto, imagem, áudio e vídeo, também conhecidos como comandos multimodais.
- Instruções do sistema: as instruções do sistema permitem orientar o comportamento do modelo com base nas suas necessidades e casos de uso específicos.
- Orientação de segurança: às vezes, os modelos de IA generativa produzem saídas inesperadas, como saídas imprecisas, tendenciosas ou ofensivas. O pós-processamento e a avaliação humana são essenciais para limitar o risco de danos causados por esses resultados.