La API de Gemini admite la entrada de PDF, incluidos los documentos largos (hasta 3,600 páginas). Los modelos de Gemini procesan archivos PDF con visión nativa y, por lo tanto, pueden interpretar el contenido de texto y de imagen dentro de los documentos. Con la compatibilidad nativa con la visión de PDF, los modelos de Gemini pueden hacer lo siguiente:
- Analiza diagramas, gráficos y tablas dentro de los documentos.
- Extrae información en formatos de salida estructurados.
- Responde preguntas sobre el contenido visual y de texto de los documentos.
- Resumir documentos
- Transcribe el contenido de los documentos (p.ej., a HTML) preservando los diseños y el formato para usarlos en aplicaciones descendentes (como en las canalizaciones de RAG).
En este instructivo, se muestran algunas formas posibles de usar la API de Gemini con documentos PDF. Todo el resultado es solo texto.
¿Qué sigue?
En esta guía, se muestra cómo usar generateContent
y generar resultados de texto a partir de documentos procesados. Para obtener más información, consulta los siguientes recursos:
- Estrategias de indicaciones de archivos: La API de Gemini admite indicaciones con datos de texto, imagen, audio y video, también conocidos como indicaciones multimodales.
- Instrucciones del sistema: Las instrucciones del sistema te permiten dirigir el comportamiento del modelo según tus necesidades y casos de uso específicos.
- Orientación de seguridad: A veces, los modelos de IA generativa producen resultados inesperados, como resultados imprecisos, sesgados o ofensivos. El procesamiento posterior y la evaluación humana son esenciales para limitar el riesgo de daños que pueden causar estos resultados.