A API Gemini pode processar imagens e vídeos, permitindo uma variedade de casos de uso interessantes para desenvolvedores. Alguns dos recursos de visão do Gemini incluem a capacidade de:
- Adicionar legendas e responder a perguntas sobre imagens
- Transcrever e analisar PDFs, incluindo documentos longos com uma janela de contexto de até 2 milhões de tokens
- Descrever, segmentar e extrair informações de vídeos, incluindo frames visuais e áudio, com até 90 minutos de duração
- Detectar objetos em uma imagem e retornar as coordenadas da caixa delimitadora
Este tutorial demonstra algumas maneiras possíveis de solicitar a API Gemini com entrada de imagens e vídeos, fornece exemplos de código e descreve as práticas recomendadas de solicitação com recursos de visão multimodal. Toda a saída é somente texto.
A seguir
Este guia mostra como fazer upload de arquivos de imagem e vídeo usando a API File e como gerar saídas de texto de entradas de imagem e vídeo. Para saber mais, confira estes recursos:
- Estratégias de solicitação de arquivo: a API Gemini oferece suporte a solicitações com dados de texto, imagem, áudio e vídeo, também conhecidas como solicitações multimodais.
- Instruções do sistema: as instruções do sistema permitem orientar o comportamento do modelo com base nas suas necessidades e casos de uso específicos.
- Orientações de segurança: às vezes, os modelos de IA generativa produzem resultados inesperados, como respostas imprecisas, parciais ou ofensivas. O pós-processamento e a avaliação humana são essenciais para limitar o risco de danos causados por essas saídas.