Explora las capacidades de visión con la API de Gemini

Ver en ai.google.dev Ejecutar en Google Colab Ver el código fuente en GitHub

La API de Gemini puede ejecutar inferencias sobre las imágenes y los videos que se le pasan. Cuando se le pasa una imagen, una serie de imágenes o un video, Gemini puede hacer lo siguiente:

  • Describe o responde preguntas sobre el contenido
  • Resume el contenido
  • Extrapolar a partir del contenido

En este instructivo, se muestran algunas formas posibles de indicarle a la API de Gemini con imágenes y entrada de video. Todos los resultados son de solo texto.

¿Qué sigue?

En esta guía, se muestra cómo usar generateContent y generar salidas de texto a partir de entradas de imagen y video. Para obtener más información, consulta los siguientes recursos:

  • Instrucciones con archivos multimedia: La API de Gemini admite instrucciones con datos de texto, imagen, audio y video, también conocidas como instrucciones multimodales.
  • Instrucciones del sistema: Las instrucciones del sistema te permiten controlar el comportamiento del modelo según tus necesidades específicas y casos de uso.
  • Orientación de seguridad: En ocasiones, los modelos de IA generativa producen resultados inesperados, como resultados ofensivos, imprecisos o sesgados. El procesamiento posterior y la evaluación manual son esenciales para limitar el riesgo de daños como resultado de tales resultados.