Tarjeta de modelo de PaliGemma 2

Página del modelo: PaliGemma

Recursos y documentación técnica:

Condiciones de Uso: Términos

Autores: Google

Información del modelo

Resumen del modelo

PaliGemma 2 es una actualización del modelo de lenguaje de visión (VLM) PaliGemma que incorpora las capacidades de los modelos Gemma 2. La familia de modelos PaliGemma se inspira en PaLI-3 y se basa en componentes abiertos, como el modelo de visión SigLIP y los modelos de lenguaje Gemma 2. Toma imágenes y texto como entrada y genera texto como salida, y admite varios idiomas. Está diseñado para lograr un rendimiento de ajuste fino líder en su clase en una amplia variedad de tareas de lenguaje visual, como la leyenda de imágenes y videos cortos, la respuesta a preguntas visuales, la lectura de texto, la detección de objetos y la segmentación de objetos.

Arquitectura del modelo

PaliGemma 2 es la composición de un decodificador de Transformer y un codificador de imágenes de Vision Transformer. El decodificador de texto se inicializa desde Gemma 2 en los tamaños de parámetros 2B, 9B y 27B. El codificador de imágenes se inicializa desde SigLIP-So400m/14. Al igual que el modelo PaliGemma original, PaliGemma 2 se entrena siguiendo las recetas de PaLI-3.

Entradas y salidas

  • Entrada: Cadena de imagen y texto, como una instrucción para subtitular la imagen o una pregunta.
  • Salida: Es el texto generado en respuesta a la entrada, como una leyenda de la imagen, una respuesta a una pregunta, una lista de coordenadas del cuadro de límite del objeto o palabras de código de segmentación.

Cita

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Datos del modelo

Conjuntos de datos de entrenamiento previo

PaliGemma 2 está previamente entrenado con la siguiente combinación de conjuntos de datos:

PaliGemma 2 se basa en Gemma 2, y puedes encontrar información sobre los conjuntos de datos de entrenamiento previo de Gemma 2 en la tarjeta de modelo de Gemma 2.

Filtrado de responsabilidad con los datos

Los siguientes filtros se aplican a WebLI con el objetivo de entrenar a PaliGemma 2 en datos seguros y responsables:

  • Filtrado de imágenes pornográficas: Este filtro quita las imágenes que se consideran de naturaleza pornográfica.
  • Filtrado de seguridad del texto: Identificamos y filtramos las imágenes que se vinculan con texto no seguro. El texto no seguro es cualquier texto que se considere que contiene o trata sobre imágenes de abuso sexual infantil (CSAI), pornografía, lenguaje vulgar o que sea ofensivo de otra manera.
  • Filtrado de toxicidad de texto: Además, usamos la API de Perspective para identificar y filtrar las imágenes que se combinan con texto que se considera insultante, obsceno, agraviante o, de alguna otra manera, tóxico.
  • Filtrado de información personal de texto: Filtramos cierta información personal y otros datos sensibles con la API de Cloud Data Loss Prevention (DLP) para proteger la privacidad de las personas. Se quitaron los identificadores, como los números de seguridad social y otros tipos de información sensible.
  • Métodos adicionales: Filtrado según la calidad y seguridad del contenido en línea con nuestras políticas y prácticas

Información de implementación

Hardware

PaliGemma 2 se entrenó con la generación más reciente de hardware de la unidad de procesamiento tensorial (TPU) (TPUv5e).

Software

El entrenamiento se completó con JAX, Flax, TFDS y big_vision.

JAX permite a los investigadores aprovechar la última generación de hardware, incluidas las TPU, para el entrenamiento más rápido y eficiente de modelos grandes.

TFDS se usa para acceder a los conjuntos de datos y Flax se usa para la arquitectura del modelo. El código de ajuste fino y de inferencia de PaliGemma 2 se publica en el repositorio de GitHub de big_vision.

Información de la evaluación

Resultados de comparativas

Para verificar la transferibilidad de PaliGemma 2 a una amplia variedad de tareas académicas, ajustamos los modelos previamente entrenados en cada tarea. Informamos los resultados en diferentes resoluciones para brindar una impresión de qué tareas se benefician de una resolución más alta. Es importante destacar que ninguna de estas tareas o conjuntos de datos forma parte de la combinación de datos de entrenamiento previo, y sus imágenes se quitan de forma explícita de los datos de entrenamiento previo a escala web.

Resultados de PaliGemma 2 por resolución y tamaño del modelo

Comparativa 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 83.2 76.0 84.4 84.6
AOKVQA-DA (val) 64.2 68.9 70.2 67.9 70.8 71.2
AOKVQA-MC (val) 79.7 83.7 84.7 82.5 85.9 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (avg34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L (en) 138.4 140.8 142.4 140.4 142.4 142.3
COCOcap 141.3 143.7 144.0 143.4 145.0 145.2
ChartQA (promedio) 74.4 74.2 68.9 89.2 90.1 85.1
ChartQA (humano) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 86.4 82.0 85.3 87.4
DocVQA (val) 39.9 43.9 44.9 73.6 76.6 76.1
GQA 66.2 67.2 67.3 68.1 68.3 68.3
InfoVQA (val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL (avg5) 83.5 89.5 90.6 82.7 89.1 89.7
MSRVTT-CAP 68.5 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
OKVQA 64.2 68.0 71.2 64.1 68.6 70.6
RSVQA-hr (prueba) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-hr (prueba 2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO (testA) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO (testB) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO (val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+ (testA) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+ (testB) 64.2 68.4 67.1 67.0 71.1 68.6
RefCOCO+ (val) 68.6 72.0 70.3 72.1 74.4 72.8
RefCOCOg (prueba) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg (val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA (val) 61.9 64.3 65.1 80.5 82.0 81.8
SciCap 165.1 159.5 156.9 183.3 177.2 172.7
ScienceQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA (complejo) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA (simple) 81.8 83.2 83.4 85.3 86.2 85.7
TextCaps 127.5 137.9 139.9 152.1 157.7 153.6
TextVQA (val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 82.7 - - - -
VQAv2 (minival) 83.0 84.3 84.5 84.8 85.8 85.8
VizWizVQA (val) 76.4 78.1 78.7 77.5 78.6 78.9
WidgetCap 138.1 139.8 138.8 151.4 151.9 148.9
XM3600 (avg35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600 (en) 79.8 80.7 81.0 80.3 81.5 81.0
xGQA (promedio de 7 días) 58.6 61.4 61.1 60.4 62.6 62.1

Comparativas adicionales

ICDAR 2015 Incidental

Modelo Precisión Recuperación F1
PaliGemma 2 3B 81.88 70.73 75.9

Total-Text

Modelo Precisión Recuperación F1
PaliGemma 2 3B 73.8. 74.54 74.17

FinTabNet

Modelo S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99.18 98.94 99.43 99.21

PubTabNet

Modelo S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97.6 97.31 97.99 97.84

GrandStaff

Modelo CER LER SER
PaliGemma 2 3B 1.6 6.7 2.3

PubChem

  • PaliGemma 2 3B, concordancia completa: 94.8

DOCCI

Modelo avg#char avg#sent Porcentaje de NES
PaliGemma 2 3B 529 7.74 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char: Cantidad promedio de caracteres
  • avg#sent: Cantidad promedio de oraciones
  • NES: Oraciones sin implicación

MIMIC-CXR

Modelo CIDEr BLEU4 Rojo-L RadGraph F1
PaliGemma 2 3B 19.9% 14.6% 31.92% 28.8%
PaliGemma 2 10B 17.4% 15% 32.41% 29.5%

Razonamiento espacial visual

Modelo División sin entrenamiento previo (prueba) de VSR División aleatoria (prueba) de VSR
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

Ética y seguridad

Enfoque de evaluación

Nuestros métodos de evaluación incluyen evaluaciones de ética y seguridad estructuradas en las políticas de contenido relevantes, incluidas las siguientes:

  • Evaluación humana de instrucciones sobre la seguridad infantil, la seguridad del contenido y los daños de representación Consulta la tarjeta del modelo de Gemma para obtener más detalles sobre el enfoque de evaluación, pero con configuraciones de subtítulos de imágenes y respuestas visuales a preguntas.
  • Evaluación de comparativas de imagen a texto: Realiza comparativas con conjuntos de datos académicos relevantes, como el conjunto de datos de FairFace (Karkkainen et al., 2021).

Resultados de la evaluación

  • Los resultados de las evaluaciones manuales de ética y seguridad están dentro de los umbrales aceptables para cumplir con las políticas internas de categorías como la seguridad infantil, la seguridad del contenido y los daños de representación.
  • Además de las evaluaciones internas sólidas, también usamos la API de Perspective (umbral de 0.8) para medir la toxicidad, la profanidad y otros posibles problemas en los subtítulos generados para las imágenes provenientes del conjunto de datos de FairFace. Informamos los valores máximos y medios observados en los subgrupos para cada uno de los atributos percibidos de género, etnia y edad.
Métrica Género percibido Etnia Edad
Tamaño del modelo 3,000 millones 10,000 millones 28,000 millones 3,000 millones 10,000 millones 28,000 millones 3,000 millones 10,000 millones 28,000 millones
Máximo
Toxicidad 0.14% 0.15% 0.19% 0.29% 0.39% 0.39% 0.26% 0.18% 0.32%
Ataque de identidad 0.04% 0.02% 0.02% 0.13% 0.06% 0.06% 0.06% 0.03% 0.06%
Insultos 0.17% 0.25% 0.17% 0.37% 0,52% 0,52% 0.27% 0.39% 0.24%
Amenaza 0,55% 0.43% 0.57% 0,83% 0.48% 0.48% 0.64% 0.43% 0.64%
Lenguaje obsceno 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
Mediana
Toxicidad 0.13% 0.10% 0.18% 0.07% 0.07% 0.14% 0,12% 0.08% 0,12%
Ataque de identidad 0.02% 0.01% 0.02% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
Insultos 0.15% 0.23% 0.14% 0.14% 0.17% 0.13% 0.09% 0.18% 0.16%
Amenaza 0.35% 0.27% 0.41% 0.28% 0.19% 0.42% 0.27% 0.31% 0,40%
Lenguaje obsceno 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

Uso y limitaciones

Uso previsto

Los modelos de lenguaje de visión abierta (VLM) tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de usos potenciales no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y desarrollo del modelo. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.

Ajusta la tarea específica de lenguaje y visión:

  • Los modelos previamente entrenados se pueden ajustar en un amplio rango de tareas de lenguaje visual, como la escritura de leyendas de imágenes, la escritura de leyendas de videos cortos, la respuesta a preguntas visuales, la lectura de texto, la detección de objetos y la segmentación de objetos.
  • Los modelos previamente entrenados se pueden ajustar para dominios específicos, como la respuesta de preguntas de detección remota, las preguntas visuales de personas ciegas, la respuesta de preguntas de ciencia y la descripción de las funciones de los elementos de la IU.
  • Los modelos previamente entrenados se pueden ajustar para tareas con resultados no textuales, como cuadros de límite o máscaras de segmentación.

Investigación de lenguaje visual:

  • Los modelos previamente entrenados y los modelos ajustados pueden servir como base para que los investigadores experimenten con técnicas de VLM, desarrollen algoritmos y contribuyan al avance del campo.

Consideraciones y riesgos éticos

El desarrollo de modelos de lenguaje visual (VLM) plantea varias inquietudes éticas. Para crear un modelo abierto, consideramos cuidadosamente lo siguiente:

  • Sesgos y equidad
    • Los VLM entrenados con datos de imagen y texto del mundo real a gran escala pueden reflejar sesgos socioculturales incorporados en el material de entrenamiento. Estos modelos se sometieron a un escrutinio cuidadoso, se describió el procesamiento previo de los datos de entrada y se informaron las evaluaciones posteriores en esta tarjeta.
  • Información errónea y uso inadecuado
  • Transparencia y responsabilidad
    • En esta tarjeta de modelo, se resumen los detalles de la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
    • Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que permite que la tecnología de VLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

  • Perpetuación de sesgos: Se recomienda realizar una supervisión continua (con métricas de evaluación y revisión humana) y la exploración de técnicas de eliminación de sesgos durante el entrenamiento del modelo, el ajuste fino y otros casos de uso.
  • Generación de contenido perjudicial: Los mecanismos y los lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que tengan precaución y que implementen las protecciones de seguridad del contenido adecuadas según sus políticas de productos y casos de uso de aplicaciones específicos.
  • Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la educación de los desarrolladores y usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los LLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado: consulta el kit de herramientas de IA generativa responsable. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.
  • Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar cierta información personal y datos sensibles. Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad con técnicas que preserven la privacidad.

Limitaciones

  • Aún se aplican la mayoría de las limitaciones heredadas de los modelos subyacentes de Gemma 2:
    • Los VLM son mejores para las tareas que se pueden enmarcar con instrucciones y consignas claras. Las tareas abiertas o muy complejas pueden ser un desafío.
    • El lenguaje natural es intrínsecamente complejo. Los VLM pueden tener dificultades para captar matices sutiles, sarcasmo o lenguaje figurado.
    • Los VLM generan respuestas basadas en la información que aprendieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones factuales incorrectas o desactualizadas.
    • Los VLM se basan en patrones estadísticos en el lenguaje y las imágenes. Es posible que no tengan la capacidad de aplicar el razonamiento de sentido común en ciertas situaciones.
  • PaliGemma 2 se diseñó principalmente para servir como un modelo general previamente entrenado para ajustarse a tareas especializadas. Por lo tanto, su rendimiento “listo para usar” o “sin entrenamiento previo” podría quedarse atrás en comparación con los modelos diseñados específicamente para uso general.
  • PaliGemma 2 no es un chatbot de varios turnos. Está diseñado para una sola ronda de entrada de imagen y texto.