La API de Gemini puede procesar imágenes y videos, lo que permite una gran cantidad de casos de uso interesantes para los desarrolladores. Estas son algunas de las capacidades de visión de Gemini:
- Agrega leyendas y responde preguntas sobre imágenes
- Transcribe y razona sobre archivos PDF, incluidos documentos largos con una ventana de contexto de hasta 2 millones de tokens
- Describe, segmenta y extrae información de videos, incluidos marcos visuales y audio, de hasta 90 minutos de duración
- Detecta objetos en una imagen y muestra las coordenadas del cuadro delimitador
En este instructivo, se muestran algunas formas posibles de solicitar a la API de Gemini con entradas de imágenes y videos, se proporcionan ejemplos de código y se describen las prácticas recomendadas para generar indicaciones con capacidades de visión multimodal. Todo el resultado es solo texto.
¿Qué sigue?
En esta guía, se muestra cómo subir archivos de imagen y video con la API de File y, luego, generar resultados de texto a partir de entradas de imagen y video. Para obtener más información, consulta los siguientes recursos:
- Estrategias de indicaciones de archivos: La API de Gemini admite indicaciones con datos de texto, imagen, audio y video, también conocidos como indicaciones multimodales.
- Instrucciones del sistema: Las instrucciones del sistema te permiten dirigir el comportamiento del modelo según tus necesidades y casos de uso específicos.
- Orientación de seguridad: A veces, los modelos de IA generativa producen resultados inesperados, como resultados imprecisos, sesgados o ofensivos. El procesamiento posterior y la evaluación humana son esenciales para limitar el riesgo de daños que pueden causar estos resultados.