Página del modelo: PaliGemma
Recursos y documentación técnica:
Condiciones de Uso: Términos
Autores: Google
Información del modelo
Resumen del modelo
Descripción
PaliGemma es un modelo de lenguaje de visión (VLM) versátil y ligero inspirado en PaLI-3 y basado en componentes abiertos, como el modelo de visión de SigLIP y el modelo de lenguaje de Gemma. Toma imágenes y texto como entrada y genera texto como resultado, y admite varios idiomas. Está diseñado para lograr un rendimiento de ajuste fino líder en su clase en una amplia variedad de tareas de lenguaje visual, como subtítulos de imágenes y videos cortos, respuesta a preguntas visuales, lectura de texto, detección y segmentación de objetos.
Arquitectura del modelo
PaliGemma es la composición de un decodificador de Transformer y un codificador de imágenes de Vision Transformer, que tiene un total de 3,000 millones de parámetros. El decodificador de texto se inicializa desde Gemma-2B. El codificador de imágenes se inicializa desde SigLIP-So400m/14. PaliGemma se entrena siguiendo las recetas de PaLI-3.
Entradas y salidas
- Entrada: Cadena de imagen y texto, como una instrucción para subtitular la imagen o una pregunta.
- Salida: Es el texto generado en respuesta a la entrada, como una leyenda de la imagen, una respuesta a una pregunta, una lista de coordenadas del cuadro de límite del objeto o palabras de código de segmentación.
Cita
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
Datos del modelo
Conjuntos de datos de entrenamiento previo
PaliGemma está previamente entrenado con la siguiente combinación de conjuntos de datos:
- WebLI: WebLI (Web Language Image) es un conjunto de datos de texto e imagen multilingüe a escala web creado a partir de la Web pública. Se usa una amplia variedad de divisiones de WebLI para adquirir capacidades de modelos versátiles, como la comprensión semántica visual, la localización de objetos, la comprensión de texto situado visualmente, la multilingüismo, etcétera.
- CC3M-35L: Pares de imagen-texto alternativo en inglés seleccionados de páginas web (Sharma et al., 2018). Usamos la API de Google Cloud Translation para traducir a 34 idiomas adicionales.
- VQ²A-CC3M-35L/VQG-CC3M-35L: Es un subconjunto de VQ2A-CC3M (Changpinyo et al., 2022a), traducido a los mismos 34 idiomas adicionales que CC3M-35L, con la API de Google Cloud Translation.
- OpenImages: Detección y preguntas y respuestas conscientes de objetos (Piergiovanni et al. 2022) generadas por reglas manuales en el conjunto de datos de OpenImages.
- WIT: Imágenes y textos recopilados de Wikipedia (Srinivasan et al., 2021).
Filtrado de responsabilidad con los datos
Los siguientes filtros se aplican a WebLI, con el objetivo de entrenar a PaliGemma con datos limpios:
- Filtrado de imágenes pornográficas: Este filtro quita las imágenes que se consideran de naturaleza pornográfica.
- Filtrado de seguridad del texto: Identificamos y filtramos las imágenes que se vinculan con texto no seguro. El texto no seguro es cualquier texto que se considere que contiene o trata sobre imágenes de abuso sexual infantil (CSAI), pornografía, lenguaje vulgar o que sea ofensivo de otra manera.
- Filtrado de toxicidad de texto: También usamos la API de Perspective para identificar y filtrar las imágenes que se combinan con texto que se considera insultante, obsceno, agraviante o tóxico de otra manera.
- Filtrado de información personal de texto: Filtramos cierta información personal y otros datos sensibles con la API de Cloud Data Loss Prevention (DLP) para proteger la privacidad de las personas. Se quitaron los identificadores, como los números de seguridad social y otros tipos de información sensible.
- Métodos adicionales: Filtrado según la calidad y seguridad del contenido en línea con nuestras políticas y prácticas
Información de implementación
Hardware
PaliGemma se entrenó con la generación más reciente de hardware de la unidad de procesamiento tensorial (TPU) (TPUv5e).
Software
El entrenamiento se completó con JAX, Flax, TFDS y big_vision
.
JAX permite a los investigadores aprovechar la última generación de hardware, incluidas las TPU, para el entrenamiento más rápido y eficiente de modelos grandes.
TFDS se usa para acceder a los conjuntos de datos y Flax se usa para la arquitectura del modelo. El código de ajuste fino y de inferencia de PaliGemma se publica en el repositorio de GitHub de big_vision
.
Información de la evaluación
Resultados de comparativas
Para verificar la transferibilidad de PaliGemma a una amplia variedad de tareas académicas, ajustamos los modelos previamente entrenados en cada tarea. Además, entrenamos el modelo mixto con una combinación de las tareas de transferencia. Informamos los resultados en diferentes resoluciones para proporcionar una impresión de qué tareas se benefician de una resolución más alta. Es importante destacar que ninguna de estas tareas o conjuntos de datos forma parte de la combinación de datos de entrenamiento previo, y sus imágenes se quitan de forma explícita de los datos de entrenamiento previo a escala web.
Tarea única (ajuste fino en una sola tarea)
Comparativa (división de trenes) | Métrica (división) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
Subtítulos | ||||
Subtítulos de COCO (entrenamiento y validación restante) | CIDEr (val) | 141.92 | 144.60 | |
NoCaps (evaluación de la transferencia de subtítulos de COCO) | CIDEr (val) | 121.72 | 123.58 | |
COCO-35L (tren) | CIDEr dev (en/avg-34/avg) |
|
|
|
XM3600 (evaluación de la transferencia de COCO-35L) | CIDEr dev (en/avg-34/avg) |
|
|
|
TextCaps (entrenamiento) | CIDEr (val) | 127.48 | 153.94 | |
SciCap (primera oración, sin subfigura) (entrenamiento y validación) | CIDEr/BLEU-4 (prueba) |
|
|
|
Screen2words (entrenamiento y desarrollo) | CIDEr (prueba) | 117.57 | 119.59 | |
Subtítulos de widgets (entrenamiento y desarrollo) | CIDEr (prueba) | 136.07 | 148.36 | |
Búsqueda de respuestas | ||||
VQAv2 (entrenamiento y validación) | Precisión (servidor de prueba - std) | 83.19 | 85.64 | |
MMVP (evaluación de la transferencia de VQAv2) | Precisión de la vinculación | 47.33 | 45.33 | |
POPE (evaluación de la transferencia de VQAv2) | Precisión (aleatoria, popular o adversarial) |
|
|
|
OKVQA (tren) | Precisión (val) | 63.54 | 63.15 | |
A-OKVQA (MC) (entrenamiento y validación) | Precisión (servidor de prueba) | 76.37 | 76.90 | |
A-OKVQA (DA) (entrenamiento y validación) | Precisión (servidor de prueba) | 61.85 | 63.22 | |
GQA (train_balanced+val_balanced) | Precisión (equilibrada para testdev) | 65.61 | 67.03 | |
xGQA (evaluación de la transferencia de GQA) | Precisión promedio (bn, de, en, id, ko, pt, ru, zh) | 58.37 | 59.07 | |
NLVR2 (entrenamiento y desarrollo) | Precisión (prueba) | 90.02 | 88.93 | |
MaRVL (evaluación de la transferencia de NLVR2) | Precisión promedio (prueba) (id, sw, ta, tr, zh) | 80.57 | 76.78 | |
AI2D (tren) | Precisión (prueba) | 72.12 | 73.28 | |
ScienceQA (subconjunto de imágenes, sin CoT) (entrenamiento y validación) | Precisión (prueba) | 95.39 | 95.93 | |
RSVQA-LR (no numérico) (entrenamiento y validación) | Precisión promedio (prueba) | 92.65 | 93.11 | |
RSVQA-HR (no numérico) (entrenamiento y validación) | Precisión promedio (prueba/prueba2) |
|
|
|
ChartQA (humano+aumento) ×(entrenamiento+validación) | Precisión relajada promedio (test_human, test_aug) | 57.08 | 71.36 | |
VQA de VizWiz (entrenamiento y validación) | Precisión (servidor de prueba - std) | 73.7 | 75.52 | |
TallyQA (tren) | Precisión (test_simple/test_complex) |
|
|
|
OCR-VQA (entrenamiento y validación) | Precisión (prueba) | 72.32 | 74.61 | 74.93 |
TextVQA (entrenamiento y validación) | Precisión (servidor de prueba - std) | 55.47 | 73.15 | 76.48 |
DocVQA (entrenamiento y validación) | ANLS (servidor de prueba) | 43.74 | 78.02 | 84.77 |
VQA de infografía (entrenamiento y validación) | ANLS (servidor de prueba) | 28.46 | 40.47 | 47.75 |
VQA de SceneText (entrenamiento y validación) | ANLS (servidor de prueba) | 63.29 | 81.82 | 84.40 |
Segmentación | ||||
RefCOCO (combinación de refcoco, refcoco+ y refcocog, sin imágenes de validación ni prueba) | MIoU (validación) refcoco/refcoco+/refcocog |
|
|
|
Tareas de video (subtítulos/QA) | ||||
MSR-VTT (subtítulos) | CIDEr (prueba) | 70.54 | ||
MSR-VTT (QA) | Precisión (prueba) | 50.09 | ||
ActivityNet (subtítulos) | CIDEr (prueba) | 34.62 | ||
ActivityNet (QA) | Precisión (prueba) | 50.78 | ||
VATEX (subtítulos) | CIDEr (prueba) | 79.73 | ||
MSVD (QA) | Precisión (prueba) | 60.22 |
Modelo mixto (ajuste fino en la combinación de tareas de transferencia)
Comparativa | Métrica (división) | mix-224 | mix-448 |
---|---|---|---|
MMVP | Precisión de la vinculación | 46.00 | 45.33 |
POPE | Precisión (aleatoria, popular o adversarial) |
|
|
Ética y seguridad
Enfoque de evaluación
Nuestros métodos de evaluación incluyen evaluaciones estructuradas y pruebas internas de equipo rojo de las políticas de contenido relevantes. Varios equipos diferentes realizaron el equipo rojo, cada uno con diferentes objetivos y métricas de evaluación humana. Estos modelos se evaluaron en función de varias categorías relevantes para la ética y la seguridad, como las siguientes:
- Evaluación humana de instrucciones sobre la seguridad infantil, la seguridad del contenido y los daños de representación Consulta la tarjeta del modelo de Gemma para obtener más detalles sobre el enfoque de evaluación, pero con configuraciones de subtítulos de imágenes y respuestas visuales a preguntas.
- Evaluación de comparativas de imagen a texto: Realiza comparativas con conjuntos de datos académicos relevantes, como el conjunto de datos de FairFace (Karkkainen et al., 2021).
Resultados de la evaluación
- Los resultados de las evaluaciones manuales de ética y seguridad se encuentran dentro de los umbrales aceptables para cumplir con las políticas internas de categorías como la seguridad infantil, la seguridad del contenido y los daños de representación.
- Además de las evaluaciones internas sólidas, también usamos la API de Perspective (umbral de 0.8) para medir la toxicidad, la profanidad y otros posibles problemas en los subtítulos generados para las imágenes que provienen del conjunto de datos de FairFace. Informamos los valores máximos y medios observados en los subgrupos para cada uno de los atributos percibidos de género, etnia y edad.
Métrica | Género percibido | Etnia | Edad | |||
---|---|---|---|---|---|---|
Máximo | Mediana | Máximo | Mediana | Máximo | Mediana | |
Toxicidad | 0.04% | 0.03% | 0.08% | 0.00% | 0.09% | 0.00% |
Ataque de identidad | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
Insultos | 0.06% | 0.04% | 0.09% | 0.07% | 0.16% | 0.00% |
Amenaza | 0.06% | 0.05% | 0.14% | 0.05% | 0.17% | 0.00% |
Lenguaje obsceno | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
Uso y limitaciones
Uso previsto
Los modelos de lenguaje de visión abierta (VLM) tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de usos potenciales no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y desarrollo del modelo. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.
Ajusta la tarea específica de lenguaje y visión:
- Los modelos previamente entrenados se pueden ajustar en un amplio rango de tareas de lenguaje visual, como la escritura de leyendas de imágenes, la escritura de leyendas de videos cortos, la respuesta a preguntas visuales, la lectura de texto, la detección de objetos y la segmentación de objetos.
- Los modelos previamente entrenados se pueden ajustar para dominios específicos, como la respuesta de preguntas de detección remota, las preguntas visuales de personas ciegas, la respuesta de preguntas de ciencia y la descripción de las funciones de los elementos de la IU.
- Los modelos previamente entrenados se pueden ajustar para tareas con resultados no textuales, como cuadros de límite o máscaras de segmentación.
Investigación de lenguaje visual:
- Los modelos previamente entrenados y los modelos ajustados pueden servir como base para que los investigadores experimenten con técnicas de VLM, desarrollen algoritmos y contribuyan al avance del campo.
Consideraciones y riesgos éticos
El desarrollo de modelos de lenguaje visual (VLM) plantea varias inquietudes éticas. Para crear un modelo abierto, consideramos cuidadosamente lo siguiente:
- Sesgos y equidad
- Los VLM entrenados con datos de imagen y texto del mundo real a gran escala pueden reflejar sesgos socioculturales incorporados en el material de entrenamiento. Estos modelos se sometieron a un escrutinio cuidadoso, se describió el procesamiento previo de los datos de entrada y se informaron las evaluaciones posteriores en esta tarjeta.
- Información errónea y uso inadecuado
- Los VLM se pueden usar de forma inadecuada para generar texto falso, engañoso o dañino.
- Se proporcionan lineamientos para el uso responsable del modelo. Consulta el kit de herramientas de IA generativa responsable.
- Transparencia y responsabilidad
- En esta tarjeta de modelo, se resumen los detalles sobre la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
- Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que permite que la tecnología de VLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de IA.
Riesgos identificados y mitigaciones:
- Perpetuación de sesgos: Se recomienda realizar una supervisión continua (con métricas de evaluación y revisión humana) y la exploración de técnicas de eliminación de sesgos durante el entrenamiento del modelo, el ajuste fino y otros casos de uso.
- Generación de contenido perjudicial: Los mecanismos y los lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que tengan precaución y que implementen las protecciones de seguridad del contenido adecuadas según sus políticas de productos y casos de uso de aplicaciones específicos.
- Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la educación de los desarrolladores y usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los LLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado: consulta el kit de herramientas de IA generativa responsable. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.
- Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar cierta información personal y datos sensibles. Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad con técnicas que preserven la privacidad.
Limitaciones
- Aún se aplican la mayoría de las limitaciones heredadas del modelo de Gemma subyacente:
- Los VLM son mejores para las tareas que se pueden enmarcar con instrucciones y estímulos claros. Las tareas abiertas o muy complejas pueden ser un desafío.
- El lenguaje natural es intrínsecamente complejo. Los VLM pueden tener dificultades para captar matices sutiles, sarcasmo o lenguaje figurado.
- Los VLM generan respuestas basadas en la información que aprendieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones factuales incorrectas o desactualizadas.
- Los VLM se basan en patrones estadísticos en el lenguaje y las imágenes. Es posible que no tengan la capacidad de aplicar el razonamiento de sentido común en ciertas situaciones.
- PaliGemma se diseñó principalmente para servir como un modelo general previamente entrenado para ajustarse a tareas especializadas. Por lo tanto, su rendimiento "listo para usar" o "sin entrenamiento" podría quedarse atrás en comparación con los modelos diseñados específicamente para uso general.
- PaliGemma no es un chatbot de varios turnos. Está diseñado para una sola ronda de entrada de imagen y texto.