La API de Gemini admite la entrada de PDF, incluidos los documentos largos (hasta 3,600 páginas). Los modelos de Gemini procesan archivos PDF con visión nativa y, por lo tanto, pueden interpretar el contenido de texto e imagen dentro de los documentos. Con la compatibilidad nativa con la visión de PDF, los modelos de Gemini pueden hacer lo siguiente:
- Analizar diagramas, gráficos y tablas dentro de documentos
- Extrae información en formatos de salida estructurados
- Responde preguntas sobre el contenido visual y de texto en los documentos
- Resume documentos
- Transcribir el contenido de un documento (p.ej., a HTML) y conservar los diseños y el formato para usarlo en aplicaciones posteriores
En este instructivo, se muestran algunas formas posibles de usar la API de Gemini para procesar documentos PDF.
¿Qué sigue?
Para obtener más información, consulta los siguientes recursos:
- Estrategias de indicaciones de archivos: La API de Gemini admite indicaciones con datos de texto, imagen, audio y video, también conocidos como indicaciones multimodales.
- Instrucciones del sistema: Las instrucciones del sistema te permiten dirigir el comportamiento del modelo según tus necesidades y casos de uso específicos.