PaliGemma
PaliGemma es un modelo de lenguaje de visión (VLM) abierto y ligero inspirado en PaLI-3, y se basa en componentes abiertos como el método SigLIP el modelo de visión y el lenguaje Gemma automático. PaliGemma toma imágenes y texto como entradas y puede responder preguntas sobre con detalles y contexto, lo que significa que PaliGemma puede realizar un análisis imágenes y proporcionar estadísticas útiles, como subtítulos para imágenes y videos cortos, detección de objetos y lectura de texto incorporado en imágenes.
Hay dos conjuntos de modelos PaliGemma, un conjunto de uso general y un conjunto orientado a la investigación:
- PaliGemma: Modelos previamente entrenados de uso general que pueden ajustarse en una variedad de tareas.
- PaliGemma-FT: Modelos orientados a la investigación que se ajustan en conjuntos de datos de investigación específicos.
Los beneficios principales son:
-
Comprensión multimodal
Comprende imágenes y texto de forma simultánea. -
Modelo base versátil
Se puede ajustar en una amplia gama de tareas de lenguaje visual. -
Exploración lista para usar
Incluye un punto de control ajustado en una combinación de tareas para su uso inmediato en la investigación.