Tarjeta de modelo PaliGemma

Página del modelo: PaliGemma

Recursos y documentación técnica:

Condiciones de Uso: Condiciones

Autores: Google

Información del modelo

Resumen del modelo

Descripción

PaliGemma es un modelo de lenguaje de visión (VLM) versátil y ligero inspirado en PaLI-3 y basado en componentes abiertos como el modelo de visión SigLIP y el modelo de lenguaje Gemma. Toma imágenes y texto como entrada, y genera texto como salida, lo que admite varios idiomas. Está diseñada para optimizar el rendimiento en una amplia variedad de tareas de lenguaje visual, como imágenes y subtítulos de video cortos, respuestas visuales de preguntas, lectura de texto, detección de objetos y segmentación de objetos.

Arquitectura del modelo

PaliGemma es la composición de un decodificador de Transformer y un codificador de imágenes de Vision Transformer, con un total de 3,000 millones de parámetros. El decodificador de texto se inicializa desde Gemma-2B. El codificador de imágenes se inicializa desde SigLIP-So400m/14. PaliGemma se entrena siguiendo las recetas de PaLI-3.

Entradas y salidas

  • Entrada: Es una cadena de imagen y texto, como una instrucción para subtitular la imagen o una pregunta.
  • Salida: texto generado en respuesta a la entrada, como una leyenda de la imagen, una respuesta a una pregunta, una lista de coordenadas del cuadro delimitador de objetos o palabras de código de segmentación.

Datos del modelo

Entrenar previamente los conjuntos de datos

PaliGemma está previamente entrenado con la siguiente combinación de conjuntos de datos:

Filtrado de responsabilidad de datos

Los siguientes filtros se aplican a WebLI con el objetivo de entrenar PaliGemma en datos limpios:

  • Filtrado de imágenes pornográficas: Este filtro quita las imágenes que se consideran de naturaleza pornográfica.
  • Filtrado de seguridad de texto: Identificamos y filtramos las imágenes que están asociadas con texto no seguro. El texto no seguro es cualquier texto que se considere que contiene la IA generativa (CSAI), pornografía, lenguaje vulgar o cualquier otro tipo de lenguaje ofensivo.
  • Filtrado de toxicidad de texto: Además, usamos la API de Perspective para identificar y filtrar imágenes que están vinculadas con texto que se considera insultante, obsceno, que incita al odio o es tóxico.
  • Filtrado de información personal de texto: Filtramos cierta información personal y otros datos sensibles con la API de Cloud Data Loss Prevention (DLP) para proteger la privacidad de las personas. Se quitaron identificadores como los números de seguridad social y otros tipos de información sensible.
  • Métodos adicionales: Filtra en función de la calidad y la seguridad del contenido de acuerdo con nuestras políticas y prácticas.

Información de implementación

Hardware

PaliGemma se entrenó con la última generación de hardware de unidad de procesamiento tensorial (TPU) (TPUv5e).

Software

El entrenamiento se realizó con JAX, Flax, TFDS y big_vision.

JAX permite a los investigadores aprovechar la última generación de hardware, incluidas las TPU, para un entrenamiento más rápido y eficiente de modelos grandes.

TFDS se usa para acceder a conjuntos de datos, y Flax se usa para la arquitectura de modelos. El código de ajuste y el código de inferencia PaliGemma se publican en el repositorio big_vision de GitHub.

Información de la evaluación

Resultados de comparativas

Con el fin de verificar la transferibilidad de PaliGemma a una amplia variedad de tareas académicas, ajustamos los modelos previamente entrenados en cada tarea. Además, entrenamos el modelo de combinación con una combinación de tareas de transferencia. Registramos los resultados en diferentes resoluciones para dar una impresión de qué tareas se benefician de una mayor resolución. Es importante destacar que ninguna de estas tareas o conjuntos de datos son parte de la combinación de datos de entrenamiento previo, y sus imágenes se quitan de forma explícita de los datos de entrenamiento previo de escala web.

Tarea única (ajuste en una sola tarea)

Comparativa (división del tren) Métrica (división) pt-224 pt-448 pt-896
Subtítulos
Subtítulos de COCO (tren + rescate) CIDEr (val) 141,92 144,60
NoCaps (evaluación de la transferencia de subtítulos de COCO) CIDEr (val) 121,72 123,58
COCO-35L (tren) Desarrollo de CIDEr (en/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (evaluación de la transferencia de COCO-35L) Desarrollo de CIDEr (en/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (entrenamiento) CIDEr (val) 127,48 153,94
SciCap (primera oración, sin subfigura) (train+val) CIDEr/BLEU-4 (prueba)
162.25
0.192
181.49
0.211
Screen2words (train+dev) CIDEr (prueba) 117,57 119,59
Subtítulos de widgets (train+dev) CIDEr (prueba) 136,07 148,36
Búsqueda de respuestas
VQAv2 (entrenamiento + validación) Exactitud (servidor de prueba - std) 83,19 85,64
MMVP (evaluación de la transferencia de VQAv2) Precisión sincronizada 47,33 45,33
POPE (evaluación de la transferencia de VQAv2) Exactitud (aleatoria/popular/adversaria)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (tren) Exactitud (val) 63,54 63,15
A-OKVQA (MC) (tren+val) Exactitud (servidor de prueba) 76,37 76,90
A-OKVQA (DA) (tren+val) Exactitud (servidor de prueba) 61,85 63,22
GQA (train_balanced+val_balanced) Exactitud (testdev equilibrado) 65,61 67,03
xGQA (evaluación de la transferencia de GQA) Exactitud media (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (tren + desviación) Exactitud (prueba) 90,02 88,93
MaRVL (evaluación de la transferencia de NLVR2) Precisión media (prueba) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (tren) Exactitud (prueba) 72,12 73,28
ScienceQA (subconjunto de img, sin CoT) (entrenamiento y evaluación) Exactitud (prueba) 95,39 95,93
RSVQA-LR (no numérico) (tren + val) Exactitud media (prueba) 92,65 93,11
RSVQA-HR (no numérico) (entrenamiento + val) Exactitud media (prueba/prueba2)
92.61
90.58
92.79
90.54
ChartQA (humano+aug)x(tren+val) Precisión media relajada (test_human, test_aug) 57,08 71,36
VizWiz VQA (tren + val) Exactitud (servidor de prueba - std) 73,7 75,52
TallyQA (tren) Exactitud (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (entrenamiento + valor) Exactitud (prueba) 72,32 74,61 74.93
TextVQA (entrenamiento + evaluación) Exactitud (servidor de prueba - std) 55,47 73,15 76,48
DocVQA (entrenamiento y evaluación) ANLS (servidor de prueba) 43,74 78,02 84,77
Infografía VQA (entrenamiento y evaluación) ANLS (servidor de prueba) 28,46 40,47 47,75
SceneText VQA (train+val) ANLS (servidor de prueba) 63,29 81,82 84,40
Segmentación
RefCOCO (combinación de refcoco, refcoco+ y refcog sin incluir las imágenes de val y de prueba) MIoU (validación) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
Tareas de video (subtítulos/control de calidad)
MSR-VTT (Subtítulos) CIDEr (prueba) 70,54
MSR-VTT (QA) Exactitud (prueba) 50,09
ActivityNet (subtítulos) CIDEr (prueba) 34,62
ActivityNet (QA) Exactitud (prueba) 50,78
IVAEX (subtítulos) CIDEr (prueba) 79,73
MSVD (QA) Exactitud (prueba) 60,22

Modelo de combinación (ajusta la combinación de tareas de transferencia)

Benchmark Métrica (división) mix-224 mix-448
MMV Precisión sincronizada 46,00 45,33
POPA Exactitud (aleatoria/popular/adversaria)
88.00
86.63
85.67
89.37
88.40
87.47

Ética y seguridad

Enfoque de la evaluación

Nuestros métodos de evaluación incluyen evaluaciones estructuradas y pruebas internas del equipo de simulación de ataque de las políticas de contenido relevantes. Varios equipos diferentes llevaron a cabo la formación de equipos de simulación de ataque, cada uno con diferentes objetivos y métricas de evaluación humana. Estos modelos se evaluaron con respecto a una serie de categorías diferentes relevantes para la ética y la seguridad, incluidas las siguientes:

  • Evaluación humana en instrucciones sobre seguridad infantil, seguridad del contenido y daños representativos Consulta la tarjeta de modelo de Gemma para obtener más detalles sobre el enfoque de evaluación, pero con configuraciones de leyendas de imágenes y respuestas visuales de preguntas.
  • Evaluación de comparativas de imagen a texto: comparativas con conjuntos de datos académicos relevantes, como el conjunto de datos FairFace (Karkkainen et ál., 2021).

Resultados de la evaluación

  • Los resultados de la evaluación manual de las evaluaciones de ética y seguridad se encuentran dentro de umbrales aceptables para cumplir con las políticas internas de categorías como seguridad infantil, seguridad del contenido y perjuicios en la representación.
  • Además de las evaluaciones internas sólidas, también usamos la API de Perspective (umbral de 0.8) para medir la toxicidad, el lenguaje obsceno y otros problemas potenciales en las leyendas generadas para las imágenes que se obtienen del conjunto de datos de FairFace. Informamos los valores máximos y medios observados en los subgrupos para cada uno de los atributos percibidos como género, etnia y edad.
Métrica Género percibido Etnia Edad
Máximo Mediana Máximo Mediana Máximo Mediana
Toxicidad 0,04% 0,03% 0,08% 0.00% 0,09% 0.00%
Ataque de identidad 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
Insultos 0,06% 0,04% 0,09% 0,07% 0.16% 0.00%
Amenaza 0,06% 0.05% 0.14% 0.05% 0,17% 0.00%
Lenguaje obsceno 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

Uso y limitaciones

Uso previsto

Los modelos de Open Vision Language (VLM) tienen una gran variedad de aplicaciones en varios sectores y dominios. La siguiente lista de posibles usos no es completa. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores de modelos consideraron como parte del entrenamiento y desarrollo de modelos.

Ajustar una tarea específica de lenguaje visual:

  • Los modelos previamente entrenados se pueden ajustar en una amplia gama de tareas de lenguaje visual, como leyendas de imágenes, subtítulos de video cortos, respuestas visuales de preguntas, lectura de texto, detección de objetos y segmentación de objetos.
  • Los modelos previamente entrenados se pueden ajustar para dominios específicos, como la respuesta a preguntas de detección remota, las preguntas visuales de personas ciegas, la respuesta a preguntas científicas y la descripción de las funcionalidades de los elementos de la IU.
  • Los modelos previamente entrenados se pueden ajustar para tareas con salidas no textuales, como cuadros delimitadores o máscaras de segmentación.

Investigación del lenguaje de la visión:

  • Los modelos previamente entrenados y los ajustados pueden servir de base para que los investigadores experimenten con técnicas de VLM, desarrollen algoritmos y contribuyan al avance del campo.

Consideraciones y riesgos éticos

El desarrollo de modelos de lenguaje de visión (VLM) genera varias inquietudes éticas. Al crear un modelo abierto, hemos considerado cuidadosamente lo siguiente:

  • Sesgo y equidad
    • Los VLM entrenados con datos de texto de imagen del mundo real y a gran escala pueden reflejar sesgos socioculturales incorporados en el material de capacitación. Estos modelos se sometieron a un escrutinio cuidadoso, se describió el procesamiento previo de los datos de entrada y las evaluaciones posteriores informadas en esta tarjeta.
  • Información errónea y uso inadecuado
    • Los VLM pueden usarse de forma inadecuada para generar texto falso, engañoso o dañino.
    • Se proporcionan lineamientos para el uso responsable con el modelo. Consulta el kit de herramientas de IA generativa responsable.
  • Transparencia y responsabilidad
    • En esta tarjeta de modelo, se resumen los detalles sobre la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
    • Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir innovación, ya que permite que la tecnología de VLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

  • Perpetuación de sesgos: Se recomienda realizar una supervisión continua (mediante métricas de evaluación, revisión manual) y la exploración de técnicas de eliminación de sesgo durante el entrenamiento de modelos, el ajuste y otros casos de uso.
  • Generación de contenido dañino: Los mecanismos y los lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que tengan precaución y implementen las protecciones de seguridad del contenido adecuadas en función de sus políticas de productos y casos de uso de aplicaciones específicos.
  • Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la educación para desarrolladores y usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los LLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado: consulta el kit de herramientas de IA generativa responsable. Los usos prohibidos de los modelos de Gemma se describen en la Política de uso prohibido de Gemma.
  • Incumplimientos de privacidad: Los modelos se entrenaron con datos filtrados para quitar cierta información personal y datos sensibles. Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad con técnicas de preservación de la privacidad.

Limitaciones

  • La mayoría de las limitaciones heredadas del modelo de Gemma subyacente aún se aplican:
    • Los VLM son mejores para las tareas que se pueden enmarcar con instrucciones y mensajes claros. Las tareas abiertas o muy complejas pueden ser desafiantes.
    • El lenguaje natural es intrínsecamente complejo. Es posible que los VLM tengan dificultades para captar sutiles matices, sarcasmo o lenguaje figurado.
    • Los VLM generan respuestas basadas en la información que aprendieron de los conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar declaraciones fácticas incorrectas o desactualizadas.
    • Los VLM se basan en patrones estadísticos en el idioma y las imágenes. Es posible que no puedan aplicar el razonamiento del sentido común en ciertas situaciones.
  • PaliGemma se diseñó en primer lugar con el objetivo de que sirva como un modelo general previamente entrenado para ajustarse a tareas especializadas. Por lo tanto, su rendimiento “listo para usar” o “sin ejemplos” podría retrasarse con respecto a los modelos diseñados específicamente para eso.
  • PaliGemma no es un chatbot de varios turnos. Se diseñó para una sola ronda de entrada de imagen y texto.