A API Gemini oferece suporte à entrada de PDF, incluindo documentos longos (até 1.000 páginas). Os modelos Gemini processam PDFs com visão nativa e, portanto, são capazes de entender o conteúdo de texto e imagem nos documentos. Com o suporte nativo à visão de PDF, os modelos do Gemini podem:
- Analisar diagramas, gráficos e tabelas nos documentos
- Extrair informações em formatos de saída estruturados
- Responder a perguntas sobre conteúdo visual e de texto em documentos
- Resumir documentos
- Transcrever o conteúdo do documento (por exemplo, para HTML) preservando layouts e formatação para uso em aplicativos secundários
Este tutorial demonstra algumas maneiras de usar a API Gemini para processar documentos PDF.
Detalhes técnicos
O Gemini oferece suporte para um máximo de 1.000 páginas de documento. As páginas do documento precisam estar em um dos seguintes tipos MIME de dados de texto:
- PDF -
application/pdf
- JavaScript:
application/x-javascript
,text/javascript
- Python:
application/x-python
,text/x-python
- TXT:
text/plain
- HTML:
text/html
- CSS -
text/css
- Markdown -
text/md
- CSV:
text/csv
- XML -
text/xml
- RTF -
text/rtf
Cada página de documento equivale a 258 tokens.
Embora não haja limites específicos para o número de pixels em um documento além da janela de contexto do modelo, páginas maiores são reduzidas para uma resolução máxima de 3072 x 3072, preservando a proporção original, enquanto páginas menores são aumentadas para 768 x 768 pixels. Não há redução de custo para páginas de tamanhos menores, exceto a largura de banda, ou melhoria de desempenho para páginas de resolução maior.
Para os melhores resultados:
- Gire as páginas para a orientação correta antes de fazer o upload.
- Evite páginas desfocadas.
- Se você estiver usando uma única página, coloque o comando de texto depois dela.
A seguir
Para saber mais, consulte os seguintes recursos:
- Estratégias de solicitação de arquivo: a API Gemini oferece suporte a solicitações com dados de texto, imagem, áudio e vídeo, também conhecidas como solicitações multimodais.
- Instruções do sistema: as instruções do sistema permitem orientar o comportamento do modelo com base nas suas necessidades e casos de uso específicos.