PaliGemma

PaliGemma es un modelo de lenguaje de visión (VLM) ligero y abierto inspirado en PaLI-3 y basado en componentes abiertos como el modelo de visión SigLIP y el modelo de lenguaje Gemma. PaliGemma toma imágenes y texto como entradas, y puede responder preguntas sobre imágenes con detalles y contexto, lo que significa que PaliGemma puede realizar un análisis más profundo de las imágenes y proporcionar estadísticas útiles, como subtítulos para imágenes y videos cortos, detección de objetos y lectura de texto incorporado en imágenes.

Hay dos conjuntos de modelos de PaliGemma, uno de uso general y uno orientado a la investigación:

  • PaliGemma: Son modelos previamente entrenados de uso general que pueden ajustarse en una variedad de tareas.
  • PaliGemma-FT: Son modelos orientados a la investigación que se ajustan a conjuntos de datos de investigación específicos.

Los beneficios principales son:

  • Comprende imágenes y texto de forma simultánea.
  • Se puede ajustar en una amplia gama de tareas de lenguaje visual.
  • Incluye un punto de control ajustado en una combinación de tareas para su uso inmediato en la investigación.

Más información

La tarjeta de modelo de PaliGemma contiene información detallada sobre el modelo, la información de implementación, la información de evaluación, el uso y las limitaciones del modelo, y mucho más.
Consulta más código, notebooks de Colab, información y debates sobre PaliGemma en Kaggle.
Ejecuta un ejemplo de trabajo para ajustar PaliGemma con JAX en Colab.