Explora las capacidades de visión con la API de Gemini

La API de Gemini puede ejecutar inferencias sobre las imágenes y los videos que se le pasan. Cuando se aprueba una imagen, una serie de imágenes o un video, Gemini puede hacer lo siguiente:

  • Describe o responde preguntas sobre el contenido
  • Resume el contenido
  • Extrapolar a partir del contenido

En este instructivo, se muestran algunas formas posibles de usar instrucciones para la API de Gemini imágenes y video. Todos los resultados son de solo texto.

¿Qué sigue?

En esta guía, se muestra cómo usar generateContent y para generar texto a partir de entradas de imagen y video. Para obtener más información, consulta los siguientes recursos:

  • Instrucciones con archivos multimedia: La La API de Gemini admite instrucciones con datos de texto, imagen, audio y video. conocida como instrucción multimodal.
  • Instrucciones del sistema: Sistema instrucciones te permiten guiar el comportamiento del modelo según tu necesidades y casos de uso.
  • Orientación sobre seguridad: A veces, la IA generativa los modelos generan resultados inesperados, como resultados inexactos ofensiva o sesgada. El procesamiento posterior y la evaluación humana son esenciales limitar el riesgo de daños derivados de dichos productos.