Ver en ai.google.dev | Ejecutar en Google Colab | Ver el código fuente en GitHub |
La API de Gemini puede ejecutar inferencias sobre las imágenes y los videos que se le pasan. Cuando se le pasa una imagen, una serie de imágenes o un video, Gemini puede hacer lo siguiente:
- Describe o responde preguntas sobre el contenido
- Resume el contenido
- Extrapolar a partir del contenido
En este instructivo, se muestran algunas formas posibles de indicarle a la API de Gemini con imágenes y entrada de video. Todos los resultados son de solo texto.
¿Qué sigue?
En esta guía, se muestra cómo usar generateContent
y generar salidas de texto a partir de entradas de imagen y video. Para obtener más información, consulta los siguientes recursos:
- Instrucciones con archivos multimedia: La API de Gemini admite instrucciones con datos de texto, imagen, audio y video, también conocidas como instrucciones multimodales.
- Instrucciones del sistema: Las instrucciones del sistema te permiten controlar el comportamiento del modelo según tus necesidades específicas y casos de uso.
- Orientación de seguridad: En ocasiones, los modelos de IA generativa producen resultados inesperados, como resultados ofensivos, imprecisos o sesgados. El procesamiento posterior y la evaluación manual son esenciales para limitar el riesgo de daños como resultado de tales resultados.