A API Gemini oferece suporte à entrada de PDF, incluindo documentos longos (até 3.600 páginas).
Os modelos Gemini processam PDFs com visão nativa e, portanto, são capazes de
entender o conteúdo de texto e imagem nos documentos. Com o suporte nativo à visão de PDF, os modelos do Gemini podem:
Analisar diagramas, gráficos e tabelas nos documentos
Extrair informações em formatos de saída estruturados
Responder a perguntas sobre conteúdo visual e de texto em documentos
Resumir documentos
Transcrever o conteúdo do documento (por exemplo, para HTML) preservando layouts e formatação para uso em aplicativos secundários
Este tutorial demonstra algumas maneiras de usar a API Gemini para processar documentos
PDF.
A seguir
Para saber mais, consulte os seguintes recursos:
Estratégias de solicitação de arquivo: a
API Gemini oferece suporte a solicitações com dados de texto, imagem, áudio e vídeo, também
conhecidas como solicitações multimodais.
Instruções do sistema: as instruções
do sistema permitem orientar o comportamento do modelo com base nas suas necessidades e casos de uso específicos.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Não contém as informações de que eu preciso","missingTheInformationINeed","thumb-down"],["Muito complicado / etapas demais","tooComplicatedTooManySteps","thumb-down"],["Desatualizado","outOfDate","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Problema com as amostras / o código","samplesCodeIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-04-21 UTC."],[],[]]