PaliGemma

Se lanzó Gemma 4 con entrada de texto, audio y video, y una ventana de contexto de hasta 256,000 tokens. Más información

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 y PaliGemma son modelos de lenguaje y visión (VLM) abiertos y ligeros, inspirados en PaLI-3, y se basan en componentes abiertos, como el modelo de visión de SigLIP y el modelo de lenguaje de Gemma. PaliGemma toma imágenes y texto como entradas y puede responder preguntas sobre las imágenes con detalle y contexto, lo que significa que puede realizar un análisis más profundo de las imágenes y proporcionar estadísticas útiles, como subtítulos para imágenes y videos cortos, detección de objetos y lectura de texto incorporado en imágenes.

PaliGemma 2 está disponible en tamaños de parámetros de 3,000 millones, 10,000 millones y 28,000 millones, que se basan en los modelos Gemma 2 de 2,000 millones, 9,000 millones y 27,000 millones, respectivamente. Los modelos originales de PaliGemma están disponibles en el tamaño 3B. Para obtener más información sobre las variantes de modelos de Gemma, consulta la lista de modelos de Gemma. Las variantes del modelo de PaliGemma admiten diferentes resoluciones de píxeles para las entradas de imágenes, como 224 x 224, 448 x 448 y 896 x 896 píxeles.

Puedes ver y descargar modelos de PaliGemma en los siguientes sitios:

Descarga desde Kaggle.
Descarga desde Hugging Face.

Existen tres categorías de modelos de PaliGemma:

PaliGemma PT: Son modelos previamente entrenados de uso general que se pueden ajustar en una variedad de tareas.
PaliGemma FT: Son modelos orientados a la investigación que se ajustan en conjuntos de datos de investigación específicos.
PaliGemma mix: Son modelos ajustados a una combinación de tareas que se pueden usar directamente para casos de uso comunes.

Los beneficios principales son:

Capacidad multimodal

Controla imágenes y entradas de texto de forma simultánea.
Modelo base versátil

Se puede ajustar en una amplia gama de tareas de lenguaje visual.
Exploración lista para usar

Incluye un punto de control ajustado en una combinación de tareas para uso de investigación inmediato.

PaliGemma

Capacidad multimodal

Modelo base versátil

Exploración lista para usar

Más información

Ejecutar en Colab

Cómo ajustar en Colab

Ver en Kaggle