PaliGemma

PaliGemma es un modelo de lenguaje de visión (VLM) abierto y ligero inspirado en PaLI-3, y se basa en componentes abiertos como el método SigLIP el modelo de visión y el lenguaje Gemma automático. PaliGemma toma imágenes y texto como entradas y puede responder preguntas sobre con detalles y contexto, lo que significa que PaliGemma puede realizar un análisis imágenes y proporcionar estadísticas útiles, como subtítulos para imágenes y videos cortos, detección de objetos y lectura de texto incorporado en imágenes.

Hay dos conjuntos de modelos PaliGemma, un conjunto de uso general y un conjunto orientado a la investigación:

  • PaliGemma: Modelos previamente entrenados de uso general que pueden ajustarse en una variedad de tareas.
  • PaliGemma-FT: Modelos orientados a la investigación que se ajustan en conjuntos de datos de investigación específicos.

Los beneficios principales son:

  • Comprende imágenes y texto de forma simultánea.
  • Se puede ajustar en una amplia gama de tareas de lenguaje visual.
  • Incluye un punto de control ajustado en una combinación de tareas para su uso inmediato en la investigación.

Más información

La tarjeta de modelo de PaliGemma contiene información detallada sobre el modelo, la información de implementación, la información de evaluación, el uso y las limitaciones del modelo, y mucho más.
Consulta más código, notebooks de Colab, información y debates sobre PaliGemma en Kaggle.
Ejecuta un ejemplo de trabajo para ajustar PaliGemma con JAX en Colab.