Consulta el repositorio de Libro de recetas de Gemma para ver ejemplos de generación y ajuste. Más información

Se usó la API de Cloud Translation para traducir esta página.

Tarjeta de modelo PaliGemma

Página del modelo: PaliGemma

Recursos y documentación técnica:

Condiciones de Uso: Condiciones

Autores: Google

Información del modelo

Resumen del modelo

Descripción

PaliGemma es un modelo de lenguaje de visión (VLM) versátil y liviano inspirado en PaLI-3 y se basan en componentes abiertos como el modelo de visión SigLIP y la Gemma de lenguaje natural. Toma imágenes y texto como entrada, genera texto como salida y admite varios idiomas. Sí diseñadas para mejorar el rendimiento de su clase en una amplia gama de tareas de lenguaje y visión, como imágenes y leyendas de videos cortos, preguntas visuales respuesta automática, lectura de texto, detección y segmentación de objetos.

Arquitectura del modelo

PaliGemma es la composición de una transformador decodificador y una imagen de Vision Transformer , con un total de 3,000 millones de parámetros. El decodificador de texto se inicializa desde Gemma-2B. El codificador de imágenes inicializado desde SigLIP-So400m/14. PaliGemma se entrena según las recetas PaLI-3.

Entradas y salidas

Entrada: Imagen y cadena de texto, como una instrucción para crear una leyenda de la imagen una pregunta.
Resultado: texto generado en respuesta a la entrada, como una leyenda de la imagen, una respuesta a una pregunta, una lista de cuadros delimitadores de objetos coordenadas o palabras de código de segmentación.

Datos del modelo

Conjuntos de datos de entrenamiento previo

PaliGemma se entrena previamente con la siguiente combinación de conjuntos de datos:

WebLI: WebLI (imagen de idioma web) es un conjunto de datos multilingües de texto de imágenes a escala web compilado a partir de la Web pública. R se usan una amplia variedad de divisiones de WebLI para adquirir capacidades de modelos versátiles, como la comprensión visual semántica, la localización de objetos, comprensión de textos basada en la ubicación visual, multilingüe, etc.
CC3M-35L: Pares de imágenes seleccionados con texto alternativo en inglés de páginas web (Sharma et et al., 2018). Usamos la plataforma de Google Cloud API de Translation para traducir al 34 idiomas adicionales.
VQ²A-CC3M-35L/VQG-CC3M-35L: Es un subconjunto de VQ2A-CC3M (Changpinyo et al., 2022a), traducidos al los mismos 34 idiomas adicionales que el CC3M-35L, con la solución Google Cloud API de Translation.
OpenImages: Preguntas y respuestas de detección y reconocimiento de objetos (Piergiovanni et al. 2022) generado por reglas artesanales en el conjunto de datos OpenImages.
WIT: Imágenes y textos recopilados de Wikipedia (Srinivasan et al., 2021).

Filtrado de responsabilidad de los datos

Los siguientes filtros se aplican a WebLI para entrenar PaliGemma. en datos limpios:

Filtrado de imágenes pornográficas: Este filtro quita las imágenes consideradas como tales. de naturaleza pornográfica.
Filtro de seguridad del texto: Identificamos y filtramos las imágenes vinculadas. con texto no seguro. El texto no seguro es todo aquel que se considera que contiene o trata sobre CSAI, pornografía, vulgares u ofensivos de cualquier otra manera.
Filtrado de toxicidad de texto: Además, usamos el filtro Perspectiva API para identificar y filtrar las imágenes que se se combina con textos que se consideran insultantes, obscenos, que incitan al odio o que son de otro modo tóxicos.
Filtrado de información personal de texto: Filtramos ciertos datos de información sensible y otros datos sensibles con la ayuda de Cloud Data Loss Prevention (DLP)para proteger la la privacidad de las personas. Identificadores como números de seguridad social y otros tipos de información sensible se quitaron.
Métodos adicionales: Filtrado en función de la calidad y la seguridad del contenido en que cumplan con nuestras políticas y prácticas.

Información de implementación

Hardware

PaliGemma se entrenó con la última generación de unidades de procesamiento tensorial (TPU) (TPUv5e).

Software

El entrenamiento se realizó con JAX, Lino, TFDS y big_vision

JAX permite a los investigadores aprovechar la última generación de hardware, incluidas las TPU, para un entrenamiento más rápido y eficiente de modelos grandes.

TFDS se usa para acceder a los conjuntos de datos y Flax se usa para la arquitectura de modelos. El El código de ajuste y de inferencia de PaliGemma se publican en big_vision. Repositorio de GitHub.

Información de la evaluación

Resultados de comparativas

Para verificar la transferibilidad de PaliGemma a una amplia variedad de para tareas académicas, ajustamos los modelos previamente entrenados en cada tarea. Además, entrenar el modelo de combinación con una combinación de tareas de transferencia. Informamos los resultados el resoluciones diferentes para dar una impresión de qué tareas se benefician de una mayor resolución. Es importante destacar que ninguna de estas tareas o conjuntos de datos la combinación de datos de entrenamiento previo y sus imágenes se quitan datos de entrenamiento previo a escala web.

Tarea única (ajusta para una sola tarea)

Comparativa (división de tren)	Métrica (dividida)	pt-224	pt-448	pt-896
Subtítulos
Subtítulos COCO (train+restval)	CIDEr (valor)	141.92	144.60
NoCaps (evaluación de la transferencia de subtítulos de COCO)	CIDEr (valor)	121.72	123.58
COCO-35L (tren)	Desarrollo de CIDEr (en/avg-34/avg)	139.2 115.8 116.4	141.2 118.0 118.6
XM3600 (evaluación de la transferencia de COCO-35L)	Desarrollo de CIDEr (en/avg-34/avg)	78.1 41.3 42.4	80.0 41.9 42.9
TextCaps (tren)	CIDEr (valor)	127,48	153.94
SciCap (primera oración, sin subfigura) (train+val)	CIDEr/BLEU-4 (prueba)	162.25 0.192	181.49 0.211
Screen2words (tren+dev)	CIDEr (prueba)	117,57	119,59
Subtítulos de widgets (tren+dev)	CIDEr (prueba)	136,07	148.36
Búsqueda de respuestas
VQAv2 (tren + validación)	Exactitud (servidor de prueba, estándar)	83,19	85,64
MMVP (evaluación de la transferencia VQAv2)	Exactitud de la vinculación	47,33	45,33
POPE (evaluación de la transferencia VQAv2)	Exactitud (aleatoria/popular/adversaria)	87.80 85.87 84.27	88.23 86.77 85.90
OKVQA (tren)	Exactitud (valor)	63,54	63.15
A-OKVQA (MC) (tren + valor)	Exactitud (servidor de prueba)	76,37	76.90
A-OKVQA (DA) (tren + val)	Exactitud (servidor de prueba)	61.85	63,22
GQA (train_balanced+val_balanced)	Exactitud (desviación de prueba equilibrada)	65,61	67.03
xGQA (evaluación de la transferencia de GQA)	Exactitud media (bn, de, en, id, ko, pt, ru, zh)	58,37	59,07
NLVR2 (tren + desarrollo)	Exactitud (prueba)	90,02	88,93
MaRVL (evaluación de la transferencia de NLVR2)	Exactitud media (prueba) (id, sw, ta, tr, zh)	80,57	76,78
AI2D (tren)	Exactitud (prueba)	72.12	73,28
ScienceQA (subconjunto de Img, sin CoT) (entrenamiento + val)	Exactitud (prueba)	95,39	95,93
RSVQA-LR (no numérico) (tren+val)	Precisión media (prueba)	92,65	93.11
RSVQA-HR (no numérico) (tren + val)	Precisión media (prueba/prueba2)	92.61 90.58	92.79 90.54
ChartQA (humano+aumento)x(tren+valor)	Precisión media de relajación (test_human, test_aug)	57,08	71,36
VizWiz VQA (tren + val)	Exactitud (servidor de prueba, estándar)	73,7	75,52
TallyQA (tren)	Exactitud (test_simple/test_complex)	81.72 69.56	84.86 72.27
OCR-VQA (tren + valor)	Exactitud (prueba)	72,32	74,61	74.93
TextVQA (tren + val)	Exactitud (servidor de prueba, estándar)	55,47	73,15	76,48
DocVQA (tren + valor)	ANLS (servidor de prueba)	43,74	78.02	84,77
Infografía VQA (tren + val)	ANLS (servidor de prueba)	28,46	40,47	47,75
SceneText VQA (tren + val)	ANLS (servidor de prueba)	63,29	81,82	84,40
Segmentación
RefCOCO (combinación de refcoco, refcoco+ y refcocog, sin incluir las imágenes de val ni de prueba),	MIoU (validación) refcoco/refcoco+/refcocog	73.40 68.32 67.65	75.57 USD 69.76 70.17	76.94 72.18 72.22
Tareas de video (subtítulos/control de calidad)
MSR-VTT (subtítulos)	CIDEr (prueba)	70,54
MSR-VTT (QA)	Exactitud (prueba)	50,09
ActivityNet (subtítulos)	CIDEr (prueba)	34,62
ActivityNet (QA)	Exactitud (prueba)	50,78
IVAEX (subtítulos)	CIDEr (prueba)	79,73
MSVD (QA)	Exactitud (prueba)	60,22

Modelo de combinación (ajustar una combinación de tareas de transferencia)

Comparativa	Métrica (dividida)	mix-224	mix-448
MMVP	Exactitud de la vinculación	46,00	45,33
PAPA	Exactitud (aleatoria/popular/adversaria)	88.00 86.63 85.67	89.37 88.40 87.47

Comparativa

Métrica (dividida)

mix-224

mix-448

MMVP

Exactitud de la vinculación

46,00

45,33

PAPA

Exactitud (aleatoria/popular/adversaria)

88.00

86.63

85.67

89.37

88.40

87.47

Ética y seguridad

Enfoque de evaluación

Nuestros métodos de evaluación incluyen evaluaciones estructuradas y formación interna del equipo de emergencias pruebas de políticas de contenido relevantes. La formación de equipos rojos fue llevada a cabo por varias equipos diferentes, cada uno con objetivos y métricas de evaluación humanas diferentes. Estos de modelos se evaluaron frente a una serie de diferentes categorías relevantes para de ética y seguridad, lo que incluye:

La evaluación humana de indicaciones sobre seguridad infantil, seguridad del contenido y de los daños representativos. Consulta el modelo Gemma tarjeta para más detalles sobre el enfoque de evaluación, pero con leyendas de imágenes y elementos configuraciones de respuestas a preguntas.
Evaluación de Image-to-Text: Comparativas con los académicos relevantes conjuntos de datos como FairFace Dataset (Karkkainen et al., 2021).

Resultados de la evaluación

Los resultados de las evaluaciones humanas de ética y seguridad se encuentran dentro del umbrales aceptables para cumplir con requisitos internos políticas para categorías como seguridad infantil, seguridad del contenido y representación y los daños causados.
Además de las sólidas evaluaciones internas, también usamos la API de Perspective. (umbral de 0.8) para medir la toxicidad, el lenguaje obsceno y otros posibles problemas en las leyendas generadas para imágenes provenientes de FairFace de tu conjunto de datos. Informamos los valores máximos y medios observados en todos los subgrupos para cada uno de los atributos percibidos de género, etnia y edad.

Métrica	Género percibido		Etnia		Edad
	Máximo	Mediana	Máximo	Mediana	Máximo	Mediana
Toxicidad	0,04%	0,03%	0,08%	0.00%	0,09%	0.00%
Ataque de identidad	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
Insultos	0,06%	0,04%	0,09%	0,07%	0.16%	0.00%
Amenaza	0,06%	0.05%	0.14%	0.05%	0,17%	0.00%
Lenguaje obsceno	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

Uso y limitaciones

Uso previsto

Los modelos abiertos de lenguaje de visión (VLM) tienen una amplia variedad de aplicaciones en diversos sectores y dominios. La siguiente lista de posibles usos no es en la nube. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores de modelos consideraron como parte del modelo para la capacitación y el desarrollo.

Ajusta la tarea específica de visión-lenguaje:

Los modelos previamente entrenados se pueden ajustar en una amplia gama de modelos de lenguaje tareas como: escritura de leyendas de imágenes, leyendas de videos cortos, preguntas visuales respuesta automática, lectura de texto, detección y segmentación de objetos.
Los modelos previamente entrenados pueden ajustarse para dominios específicos, como los búsqueda de respuestas, preguntas visuales de personas ciegas, responder preguntas de ciencia y describir las funciones de los elementos de la IU.
Los modelos previamente entrenados pueden ajustarse para tareas con resultados no textuales como cuadros de límite o máscaras de segmentación.

Investigación del lenguaje de la visión:

Los modelos previamente entrenados y los modelos ajustados pueden servir como base para para experimentar con las técnicas de VLM, desarrollar algoritmos y que contribuyen al avance del campo.

Consideraciones y riesgos éticos

El desarrollo de modelos de visión-lenguaje (VLM) plantea varios problemas y preocupaciones de seguridad. Para crear un modelo abierto, consideramos con cuidado lo siguiente:

Sesgo y equidad
- Los VLM entrenados con datos de texto de imágenes del mundo real a gran escala pueden sesgos socioculturales incorporados en el material de capacitación Estos modelos se sometió a un escrutinio minucioso, se describieron los datos de entrada al procesamiento previo evaluaciones posteriores informadas en esta tarjeta.
Información errónea y uso inadecuado
- Las VLM pueden usarse de forma inadecuada para generar texto falso, engañoso o o peligros.
- Se proporcionan lineamientos para un uso responsable del modelo. Consulta la Kit de herramientas de IA generativa responsable.
Transparencia y responsabilidad
- Esta tarjeta de modelos resume los detalles de los modelos arquitectura, capacidades, limitaciones y procesos de evaluación.
- Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación haciendo que la tecnología de VLM sea accesible para los desarrolladores y de todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

Perpetuación de sesgos: Se recomienda realizar una supervisión continua (con métricas de evaluación y revisión manual) y la exploración de la desviación técnicas durante el entrenamiento, el ajuste y otros casos de uso de modelos.
Generación de contenido dañino: Mecanismos y lineamientos para el contenido. la seguridad son esenciales. Se recomienda a los desarrolladores que sean cautelosos y implementar protecciones de seguridad de contenido adecuadas políticas de productos y casos de uso de la aplicación.
Uso inadecuado con fines maliciosos: Limitaciones técnicas y la educación del usuario final puede ayudar a mitigar las aplicaciones maliciosas de los LLM. Se ofrecen recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. proporcionado: consulta el kit de herramientas de IA generativa responsable. Usos prohibidos de Gemma modelos de AA se describen en la Política de Uso Prohibido de Gemma.
Incumplimientos de privacidad: Los modelos se entrenaron con datos filtrados para quitarlos. cierta información personal y datos sensibles. Animamos a los desarrolladores para cumplir con las reglamentaciones de privacidad con técnicas de preservación de la privacidad.

Limitaciones

Aún se aplican la mayoría de las limitaciones heredadas del modelo de Gemma subyacente:
- Los VLM son mejores en tareas que se pueden enmarcar con instrucciones claras y instrucciones. Las tareas abiertas o muy complejas pueden ser desafiantes.
- El lenguaje natural es intrínsecamente complejo. a las VLM pueden tener dificultades para comprender con matices sutiles, sarcasmo o lenguaje figurado.
- Los VLM generan respuestas en función de la información que aprendieron de su son conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones fácticas incorrectas o desactualizadas.
- Los VLM se basan en patrones estadísticos en el lenguaje y las imágenes. Quizás carecen de la capacidad de aplicar el razonamiento de sentido común en ciertas situaciones.
PaliGemma se diseñó, en primer lugar, para servir como un modelo general para ajustarlo a tareas especializadas. Por eso, es "listo para usar" o "sin ejemplos" rendimiento puede retrasarse con respecto a los modelos diseñados específicamente sobre eso.
PaliGemma no es un chatbot de varios turnos. Está diseñada para una sola ronda de imagen y texto.