Explora las capacidades de visión con la API de Gemini
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
La API de Gemini puede ejecutar inferencias sobre las imágenes y los videos que se le pasan. Cuando se aprueba
una imagen, una serie de imágenes o un video, Gemini puede hacer lo siguiente:
Describe o responde preguntas sobre el contenido
Resume el contenido
Extrapolar a partir del contenido
En este instructivo, se muestran algunas formas posibles de usar instrucciones para la API de Gemini
imágenes y video. Todos los resultados son de solo texto.
¿Qué sigue?
En esta guía, se muestra cómo usar
generateContent y
para generar texto a partir de entradas de imagen y video. Para obtener más información,
consulta los siguientes recursos:
Instrucciones con archivos multimedia: La
La API de Gemini admite instrucciones con datos de texto, imagen, audio y video.
conocida como instrucción multimodal.
Instrucciones del sistema: Sistema
instrucciones te permiten guiar el comportamiento del modelo según tu
necesidades y casos de uso.
Orientación sobre seguridad: A veces, la IA generativa
los modelos generan resultados inesperados,
como resultados inexactos
ofensiva o sesgada. El procesamiento posterior y la evaluación humana son esenciales
limitar el riesgo de daños derivados de dichos productos.