Entendimento de documentos

A API Gemini oferece suporte à entrada de PDF, incluindo documentos longos (até 1.000 páginas). Os modelos Gemini processam PDFs com visão nativa e, portanto, são capazes de entender o conteúdo de texto e imagem nos documentos. Com o suporte nativo à visão de PDF, os modelos do Gemini podem:

  • Analisar diagramas, gráficos e tabelas nos documentos
  • Extrair informações em formatos de saída estruturados
  • Responder a perguntas sobre conteúdo visual e de texto em documentos
  • Resumir documentos
  • Transcrever o conteúdo do documento (por exemplo, para HTML) preservando layouts e formatação para uso em aplicativos secundários

Este tutorial demonstra algumas maneiras de usar a API Gemini para processar documentos PDF.

Detalhes técnicos

O Gemini oferece suporte para um máximo de 1.000 páginas de documento. As páginas do documento precisam estar em um dos seguintes tipos MIME de dados de texto:

  • PDF - application/pdf
  • JavaScript: application/x-javascript, text/javascript
  • Python: application/x-python, text/x-python
  • TXT: text/plain
  • HTML: text/html
  • CSS - text/css
  • Markdown - text/md
  • CSV: text/csv
  • XML - text/xml
  • RTF - text/rtf

Cada página de documento equivale a 258 tokens.

Embora não haja limites específicos para o número de pixels em um documento além da janela de contexto do modelo, páginas maiores são reduzidas para uma resolução máxima de 3072 x 3072, preservando a proporção original, enquanto páginas menores são aumentadas para 768 x 768 pixels. Não há redução de custo para páginas de tamanhos menores, exceto a largura de banda, ou melhoria de desempenho para páginas de resolução maior.

Para os melhores resultados:

  • Gire as páginas para a orientação correta antes de fazer o upload.
  • Evite páginas desfocadas.
  • Se você estiver usando uma única página, coloque o comando de texto depois dela.

A seguir

Para saber mais, consulte os seguintes recursos:

  • Estratégias de solicitação de arquivo: a API Gemini oferece suporte a solicitações com dados de texto, imagem, áudio e vídeo, também conhecidas como solicitações multimodais.
  • Instruções do sistema: as instruções do sistema permitem orientar o comportamento do modelo com base nas suas necessidades e casos de uso específicos.