A API Gemini oferece suporte à entrada de PDF, incluindo documentos longos (até 3.600 páginas). Os modelos Gemini processam PDFs com visão nativa e, portanto, são capazes de entender o conteúdo de texto e imagem nos documentos. Com suporte nativo à visão de PDF, os modelos do Gemini podem:
- Analise diagramas, gráficos e tabelas nos documentos.
- Extraia informações em formatos de saída estruturados.
- Responda a perguntas sobre conteúdo visual e de texto em documentos.
- Resumir documentos.
- Transcrever o conteúdo do documento (por exemplo, para HTML) preservando layouts e formatação para uso em aplicativos downstream (como em pipelines de RAG).
Este tutorial demonstra algumas maneiras de usar a API Gemini com documentos PDF. Toda a saída é somente texto.
A seguir
Este guia mostra como usar
generateContent
e
gerar saídas de texto de documentos processados. Para saber mais,
confira estes recursos:
- Estratégias de solicitação de arquivo: a API Gemini oferece suporte a solicitações com dados de texto, imagem, áudio e vídeo, também conhecidas como solicitações multimodais.
- Instruções do sistema: as instruções do sistema permitem orientar o comportamento do modelo com base nas suas necessidades e casos de uso específicos.
- Orientações de segurança: às vezes, os modelos de IA generativa produzem resultados inesperados, como respostas imprecisas, parciais ou ofensivas. O pós-processamento e a avaliação humana são essenciais para limitar o risco de danos causados por essas saídas.