Explora las capacidades de procesamiento de documentos con la API de Gemini

La API de Gemini puede procesar y ejecutar inferencias en los documentos PDF que se le pasan. Cuando se carga un PDF, la API de Gemini puede hacer lo siguiente:

  • Describir o responder preguntas sobre el contenido
  • Resume el contenido
  • Extrapolar a partir del contenido

En este instructivo, se muestran algunas formas posibles de solicitar a la API de Gemini los documentos PDF proporcionados. Todo el resultado es solo texto.

¿Qué sigue?

En esta guía, se muestra cómo usar generateContent y generar resultados de texto a partir de documentos procesados. Para obtener más información, consulta los siguientes recursos:

  • Estrategias de instrucciones de archivos: La API de Gemini admite instrucciones con datos de texto, imagen, audio y video, también conocidas como instrucciones multimodales.
  • Instrucciones del sistema: Las instrucciones del sistema te permiten controlar el comportamiento del modelo según tus necesidades específicas y casos de uso.
  • Orientación de seguridad: En ocasiones, los modelos de IA generativa producen resultados inesperados, como resultados ofensivos, imprecisos o sesgados. El procesamiento posterior y la evaluación manual son esenciales para limitar el riesgo de daños como resultado de tales resultados.