PaliGemma
PaliGemma es un modelo de lenguaje de visión (VLM) ligero y abierto inspirado en PaLI-3 y basado en componentes abiertos como el modelo de visión SigLIP y el modelo de lenguaje Gemma. PaliGemma toma imágenes y texto como entradas, y puede responder preguntas sobre imágenes con detalles y contexto, lo que significa que PaliGemma puede realizar un análisis más profundo de las imágenes y proporcionar estadísticas útiles, como subtítulos para imágenes y videos cortos, detección de objetos y lectura de texto incorporado en imágenes.
Hay dos conjuntos de modelos de PaliGemma, uno de uso general y uno orientado a la investigación:
- PaliGemma: Son modelos previamente entrenados de uso general que pueden ajustarse en una variedad de tareas.
- PaliGemma-FT: Son modelos orientados a la investigación que se ajustan a conjuntos de datos de investigación específicos.
Los beneficios principales son:
-
Comprensión multimodal
Comprende imágenes y texto de forma simultánea. -
Modelo base versátil
Se puede ajustar en una amplia gama de tareas de lenguaje visual. -
Exploración lista para usar
Incluye un punto de control ajustado en una combinación de tareas para su uso inmediato en la investigación.