Comprensión de documentos

La API de Gemini admite la entrada de PDF, incluidos los documentos largos (hasta 1,000 páginas). Los modelos de Gemini procesan archivos PDF con visión nativa y, por lo tanto, pueden interpretar el contenido de texto e imagen dentro de los documentos. Con la compatibilidad nativa con la visión de PDF, los modelos de Gemini pueden hacer lo siguiente:

  • Analizar diagramas, gráficos y tablas dentro de documentos
  • Extrae información en formatos de salida estructurados
  • Responde preguntas sobre el contenido visual y de texto en los documentos
  • Resume documentos
  • Transcribir el contenido de un documento (p.ej., a HTML) y conservar los diseños y el formato para usarlo en aplicaciones posteriores

En este instructivo, se muestran algunas formas posibles de usar la API de Gemini para procesar documentos PDF.

Detalles técnicos

Gemini admite un máximo de 1,000 páginas de documentos. Las páginas del documento deben estar en uno de los siguientes tipos MIME de datos de texto:

  • PDF - application/pdf
  • JavaScript: application/x-javascript, text/javascript
  • Python: application/x-python, text/x-python
  • TXT: text/plain
  • HTML: text/html
  • CSS: text/css
  • Markdown: text/md
  • CSV: text/csv
  • XML: text/xml
  • RTF: text/rtf

Cada página del documento equivale a 258 tokens.

Si bien no hay límites específicos para la cantidad de píxeles en un documento además de la ventana de contexto del modelo, las páginas más grandes se reducen a una resolución máxima de 3,072 x 3,072, a la vez que conservan su relación de aspecto original, mientras que las páginas más pequeñas se aumentan a 768 x 768 píxeles. No hay reducción de costos para las páginas de tamaños más pequeños, aparte del ancho de banda, ni mejora del rendimiento para las páginas de resolución más alta.

Para lograr resultados óptimos, haz lo siguiente:

  • Rota las páginas a la orientación correcta antes de subirlas.
  • Evita las páginas borrosas.
  • Si usas una sola página, coloca la instrucción de texto después de ella.

¿Qué sigue?

Para obtener más información, consulta los siguientes recursos:

  • Estrategias de indicaciones de archivos: La API de Gemini admite indicaciones con datos de texto, imagen, audio y video, también conocidos como indicaciones multimodales.
  • Instrucciones del sistema: Las instrucciones del sistema te permiten dirigir el comportamiento del modelo según tus necesidades y casos de uso específicos.