Consulta el repositorio de Libro de recetas de Gemma para ver ejemplos de generación y ajuste. Más información

Se usó la API de Cloud Translation para traducir esta página.

Tarjeta de modelo de PaliGemma 2

Página del modelo: PaliGemma

Recursos y documentación técnica:

Condiciones de Uso: Términos

Autores: Google

Información del modelo

Resumen del modelo

PaliGemma 2 es una actualización del modelo de lenguaje de visión (VLM) PaliGemma que incorpora las capacidades de los modelos Gemma 2. La familia de modelos PaliGemma se inspira en PaLI-3 y se basa en componentes abiertos, como el modelo de visión SigLIP y los modelos de lenguaje Gemma 2. Toma imágenes y texto como entrada y genera texto como salida, y admite varios idiomas. Está diseñado para lograr un rendimiento de ajuste fino líder en su clase en una amplia variedad de tareas de lenguaje visual, como la leyenda de imágenes y videos cortos, la respuesta a preguntas visuales, la lectura de texto, la detección de objetos y la segmentación de objetos.

Arquitectura del modelo

PaliGemma 2 es la composición de un decodificador de Transformer y un codificador de imágenes de Vision Transformer. El decodificador de texto se inicializa desde Gemma 2 en los tamaños de parámetros 2B, 9B y 27B. El codificador de imágenes se inicializa desde SigLIP-So400m/14. Al igual que el modelo PaliGemma original, PaliGemma 2 se entrena siguiendo las recetas de PaLI-3.

Entradas y salidas

Entrada: Cadena de imagen y texto, como una instrucción para subtitular la imagen o una pregunta.
Salida: Es el texto generado en respuesta a la entrada, como una leyenda de la imagen, una respuesta a una pregunta, una lista de coordenadas del cuadro de límite del objeto o palabras de código de segmentación.

Cita

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Datos del modelo

Conjuntos de datos de entrenamiento previo

PaliGemma 2 está previamente entrenado con la siguiente combinación de conjuntos de datos:

WebLI: WebLI (Web Language Image) es un conjunto de datos de texto e imagen multilingüe a escala web creado a partir de la Web pública. Se usa una amplia variedad de divisiones de WebLI para adquirir capacidades de modelos versátiles, como la comprensión semántica visual, la localización de objetos, la comprensión de texto situado visualmente y la multilingüismo.
CC3M-35L: Parejas de imagen-texto alternativo en inglés seleccionadas de páginas web (Sharma et al., 2018). Usamos la API de Google Cloud Translation para traducir a 34 idiomas adicionales.
VQ²A-CC3M-35L/VQG-CC3M-35L: Un subconjunto de VQ2A-CC3M (Changpinyo et al., 2022a), traducido a los mismos 34 idiomas adicionales que CC3M-35L, con la API de Google Cloud Translation.
OpenImages: Detección y preguntas y respuestas conscientes de objetos (Piergiovanni et al. 2022) generadas por reglas manuales en el conjunto de datos de OpenImages.
WIT: Imágenes y textos recopilados de Wikipedia (Srinivasan et al., 2021).

PaliGemma 2 se basa en Gemma 2, y puedes encontrar información sobre los conjuntos de datos de entrenamiento previo de Gemma 2 en la tarjeta de modelo de Gemma 2.

Filtrado de responsabilidad con los datos

Los siguientes filtros se aplican a WebLI con el objetivo de entrenar a PaliGemma 2 en datos seguros y responsables:

Filtrado de imágenes pornográficas: Este filtro quita las imágenes que se consideran de naturaleza pornográfica.
Filtrado de seguridad del texto: Identificamos y filtramos las imágenes que se vinculan con texto no seguro. El texto no seguro es cualquier texto que se considere que contiene o trata sobre imágenes de abuso sexual infantil (CSAI), pornografía, lenguaje vulgar o que sea ofensivo de otra manera.
Filtrado de toxicidad de texto: Además, usamos la API de Perspective para identificar y filtrar las imágenes que se combinan con texto que se considera insultante, obsceno, agraviante o, de alguna otra manera, tóxico.
Filtrado de información personal de texto: Filtramos cierta información personal y otros datos sensibles con la API de Cloud Data Loss Prevention (DLP) para proteger la privacidad de las personas. Se quitaron los identificadores, como los números de seguridad social y otros tipos de información sensible.
Métodos adicionales: Filtrado según la calidad y seguridad del contenido en línea con nuestras políticas y prácticas

Información de implementación

Hardware

PaliGemma 2 se entrenó con la generación más reciente de hardware de la unidad de procesamiento tensorial (TPU) (TPUv5e).

Software

El entrenamiento se completó con JAX, Flax, TFDS y big_vision.

JAX permite a los investigadores aprovechar la última generación de hardware, incluidas las TPU, para el entrenamiento más rápido y eficiente de modelos grandes.

TFDS se usa para acceder a los conjuntos de datos y Flax se usa para la arquitectura del modelo. El código de ajuste fino y de inferencia de PaliGemma 2 se publica en el repositorio de GitHub de big_vision.

Información de la evaluación

Resultados de comparativas

Para verificar la transferibilidad de PaliGemma 2 a una amplia variedad de tareas académicas, ajustamos los modelos previamente entrenados en cada tarea. Informamos los resultados en diferentes resoluciones para brindar una impresión de qué tareas se benefician de una resolución más alta. Es importante destacar que ninguna de estas tareas o conjuntos de datos forma parte de la combinación de datos de entrenamiento previo, y sus imágenes se quitan de forma explícita de los datos de entrenamiento previo a escala web.

Resultados de PaliGemma 2 por resolución y tamaño del modelo

Comparativa	224-3B	224-10B	224-28B	448-3B	448-10B	448-28B
AI2D	74.7	83.1	83.2	76.0	84.4	84.6
AOKVQA-DA (val)	64.2	68.9	70.2	67.9	70.8	71.2
AOKVQA-MC (val)	79.7	83.7	84.7	82.5	85.9	87.0
ActivityNet-CAP	34.2	35.9	-	-	-	-
ActivityNet-QA	51.3	53.2	-	-	-	-
COCO-35L (avg34)	113.9	115.8	116.5	115.8	117.2	117.2
COCO-35L (en)	138.4	140.8	142.4	140.4	142.4	142.3
COCOcap	141.3	143.7	144.0	143.4	145.0	145.2
ChartQA (promedio)	74.4	74.2	68.9	89.2	90.1	85.1
ChartQA (humano)	42.0	48.4	46.8	54.0	66.4	61.3
CountBenchQA	81.0	84.0	86.4	82.0	85.3	87.4
DocVQA (val)	39.9	43.9	44.9	73.6	76.6	76.1
GQA	66.2	67.2	67.3	68.1	68.3	68.3
InfoVQA (val)	25.2	33.6	36.4	37.5	47.8	46.7
MARVL (avg5)	83.5	89.5	90.6	82.7	89.1	89.7
MSRVTT-CAP	68.5	72.1	-	-	-	-
MSRVTT-QA	50.5	51.9	-	-	-	-
MSVD-QA	61.1	62.5	-	-	-	-
NLVR2	91.4	93.9	94.2	91.6	93.7	94.1
NoCaps	123.1	126.3	127.1	123.5	126.9	127.0
OCR-VQA	73.4	74.7	75.3	75.7	76.3	76.6
OKVQA	64.2	68.0	71.2	64.1	68.6	70.6
RSVQA-hr (prueba)	92.7	92.6	92.7	92.8	92.8	92.8
RSVQA-hr (prueba 2)	90.9	90.8	90.9	90.7	90.7	90.8
RSVQA-lr	93.0	92.8	93.5	92.7	93.1	93.7
RefCOCO (testA)	75.7	77.2	76.8	78.6	79.7	79.3
RefCOCO (testB)	71.0	74.2	73.9	73.5	76.2	74.8
RefCOCO (val)	73.4	75.9	75.0	76.3	78.2	77.3
RefCOCO+ (testA)	72.7	74.7	73.6	76.1	77.7	76.6
RefCOCO+ (testB)	64.2	68.4	67.1	67.0	71.1	68.6
RefCOCO+ (val)	68.6	72.0	70.3	72.1	74.4	72.8
RefCOCOg (prueba)	69.0	71.9	70.7	72.7	74.8	73.7
RefCOCOg (val)	68.3	71.4	70.5	72.3	74.4	73.0
ST-VQA (val)	61.9	64.3	65.1	80.5	82.0	81.8
SciCap	165.1	159.5	156.9	183.3	177.2	172.7
ScienceQA	96.1	98.2	98.2	96.2	98.5	98.6
Screen2Words	113.3	117.8	122.8	114.0	119.1	123.4
TallyQA (complejo)	70.3	73.4	74.2	73.6	76.7	76.8
TallyQA (simple)	81.8	83.2	83.4	85.3	86.2	85.7
TextCaps	127.5	137.9	139.9	152.1	157.7	153.6
TextVQA (val)	59.6	64.0	64.7	75.2	76.6	76.2
VATEX	80.8	82.7	-	-	-	-
VQAv2 (minival)	83.0	84.3	84.5	84.8	85.8	85.8
VizWizVQA (val)	76.4	78.1	78.7	77.5	78.6	78.9
WidgetCap	138.1	139.8	138.8	151.4	151.9	148.9
XM3600 (avg35)	42.8	44.5	45.2	43.2	44.6	45.2
XM3600 (en)	79.8	80.7	81.0	80.3	81.5	81.0
xGQA (promedio de 7 días)	58.6	61.4	61.1	60.4	62.6	62.1

Comparativas adicionales

ICDAR 2015 Incidental

Modelo	Precisión	Recuperación	F1
PaliGemma 2 3B	81.88	70.73	75.9

Total-Text

Modelo	Precisión	Recuperación	F1
PaliGemma 2 3B	73.8.	74.54	74.17

FinTabNet

Modelo	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	99.18	98.94	99.43	99.21

PubTabNet

Modelo	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	97.6	97.31	97.99	97.84

GrandStaff

Modelo	CER	LER	SER
PaliGemma 2 3B	1.6	6.7	2.3

PubChem

PaliGemma 2 3B, concordancia completa: 94.8

DOCCI

Modelo	avg#char	avg#sent	Porcentaje de NES
PaliGemma 2 3B	529	7.74	28.42
PaliGemma 2 10B	521	7.45	20.27

avg#char: Cantidad promedio de caracteres
avg#sent: Cantidad promedio de oraciones
NES: Oraciones sin implicación

MIMIC-CXR

Modelo	CIDEr	BLEU4	Rojo-L	RadGraph F1
PaliGemma 2 3B	19.9%	14.6%	31.92%	28.8%
PaliGemma 2 10B	17.4%	15%	32.41%	29.5%

Razonamiento espacial visual

Modelo	División sin entrenamiento previo (prueba) de VSR	División aleatoria (prueba) de VSR
PaliGemma 2 3B	0.75	0.82
PaliGemma 2 10B	0.80	0.87

Ética y seguridad

Enfoque de evaluación

Nuestros métodos de evaluación incluyen evaluaciones de ética y seguridad estructuradas en las políticas de contenido relevantes, incluidas las siguientes:

Evaluación humana de instrucciones sobre la seguridad infantil, la seguridad del contenido y los daños de representación Consulta la tarjeta del modelo de Gemma para obtener más detalles sobre el enfoque de evaluación, pero con configuraciones de subtítulos de imágenes y respuestas visuales a preguntas.
Evaluación de comparativas de imagen a texto: Realiza comparativas con conjuntos de datos académicos relevantes, como el conjunto de datos de FairFace (Karkkainen et al., 2021).

Resultados de la evaluación

Los resultados de las evaluaciones manuales de ética y seguridad están dentro de los umbrales aceptables para cumplir con las políticas internas de categorías como la seguridad infantil, la seguridad del contenido y los daños de representación.
Además de las evaluaciones internas sólidas, también usamos la API de Perspective (umbral de 0.8) para medir la toxicidad, la profanidad y otros posibles problemas en los subtítulos generados para las imágenes provenientes del conjunto de datos de FairFace. Informamos los valores máximos y medios observados en los subgrupos para cada uno de los atributos percibidos de género, etnia y edad.

Métrica	Género percibido			Etnia			Edad
Tamaño del modelo	3,000 millones	10,000 millones	28,000 millones	3,000 millones	10,000 millones	28,000 millones	3,000 millones	10,000 millones	28,000 millones
	Máximo
Toxicidad	0.14%	0.15%	0.19%	0.29%	0.39%	0.39%	0.26%	0.18%	0.32%
Ataque de identidad	0.04%	0.02%	0.02%	0.13%	0.06%	0.06%	0.06%	0.03%	0.06%
Insultos	0.17%	0.25%	0.17%	0.37%	0,52%	0,52%	0.27%	0.39%	0.24%
Amenaza	0,55%	0.43%	0.57%	0,83%	0.48%	0.48%	0.64%	0.43%	0.64%
Lenguaje obsceno	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
	Mediana
Toxicidad	0.13%	0.10%	0.18%	0.07%	0.07%	0.14%	0,12%	0.08%	0,12%
Ataque de identidad	0.02%	0.01%	0.02%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
Insultos	0.15%	0.23%	0.14%	0.14%	0.17%	0.13%	0.09%	0.18%	0.16%
Amenaza	0.35%	0.27%	0.41%	0.28%	0.19%	0.42%	0.27%	0.31%	0,40%
Lenguaje obsceno	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

Uso y limitaciones

Uso previsto

Los modelos de lenguaje de visión abierta (VLM) tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de usos potenciales no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y desarrollo del modelo. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.

Ajusta la tarea específica de lenguaje y visión:

Los modelos previamente entrenados se pueden ajustar en un amplio rango de tareas de lenguaje visual, como la escritura de leyendas de imágenes, la escritura de leyendas de videos cortos, la respuesta a preguntas visuales, la lectura de texto, la detección de objetos y la segmentación de objetos.
Los modelos previamente entrenados se pueden ajustar para dominios específicos, como la respuesta de preguntas de detección remota, las preguntas visuales de personas ciegas, la respuesta de preguntas de ciencia y la descripción de las funciones de los elementos de la IU.
Los modelos previamente entrenados se pueden ajustar para tareas con resultados no textuales, como cuadros de límite o máscaras de segmentación.

Investigación de lenguaje visual:

Los modelos previamente entrenados y los modelos ajustados pueden servir como base para que los investigadores experimenten con técnicas de VLM, desarrollen algoritmos y contribuyan al avance del campo.

Consideraciones y riesgos éticos

El desarrollo de modelos de lenguaje visual (VLM) plantea varias inquietudes éticas. Para crear un modelo abierto, consideramos cuidadosamente lo siguiente:

Sesgos y equidad
- Los VLM entrenados con datos de imagen y texto del mundo real a gran escala pueden reflejar sesgos socioculturales incorporados en el material de entrenamiento. Estos modelos se sometieron a un escrutinio cuidadoso, se describió el procesamiento previo de los datos de entrada y se informaron las evaluaciones posteriores en esta tarjeta.
Información errónea y uso inadecuado
- Los VLM se pueden usar de forma inadecuada para generar texto falso, engañoso o dañino.
- Se proporcionan lineamientos para el uso responsable del modelo. Consulta el kit de herramientas de IA generativa responsable.
Transparencia y responsabilidad
- En esta tarjeta de modelo, se resumen los detalles de la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
- Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que permite que la tecnología de VLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

Perpetuación de sesgos: Se recomienda realizar una supervisión continua (con métricas de evaluación y revisión humana) y la exploración de técnicas de eliminación de sesgos durante el entrenamiento del modelo, el ajuste fino y otros casos de uso.
Generación de contenido perjudicial: Los mecanismos y los lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que tengan precaución y que implementen las protecciones de seguridad del contenido adecuadas según sus políticas de productos y casos de uso de aplicaciones específicos.
Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la educación de los desarrolladores y usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los LLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado: consulta el kit de herramientas de IA generativa responsable. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.
Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar cierta información personal y datos sensibles. Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad con técnicas que preserven la privacidad.

Limitaciones

Aún se aplican la mayoría de las limitaciones heredadas de los modelos subyacentes de Gemma 2:
- Los VLM son mejores para las tareas que se pueden enmarcar con instrucciones y consignas claras. Las tareas abiertas o muy complejas pueden ser un desafío.
- El lenguaje natural es intrínsecamente complejo. Los VLM pueden tener dificultades para captar matices sutiles, sarcasmo o lenguaje figurado.
- Los VLM generan respuestas basadas en la información que aprendieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones factuales incorrectas o desactualizadas.
- Los VLM se basan en patrones estadísticos en el lenguaje y las imágenes. Es posible que no tengan la capacidad de aplicar el razonamiento de sentido común en ciertas situaciones.
PaliGemma 2 se diseñó principalmente para servir como un modelo general previamente entrenado para ajustarse a tareas especializadas. Por lo tanto, su rendimiento “listo para usar” o “sin entrenamiento previo” podría quedarse atrás en comparación con los modelos diseñados específicamente para uso general.
PaliGemma 2 no es un chatbot de varios turnos. Está diseñado para una sola ronda de entrada de imagen y texto.