Comprensión de la visión

Gemma 4, el modelo más reciente de la familia Gemma, puede realizar una amplia variedad de tareas de visión y lenguaje, como detección de objetos, reconocimiento óptico de caracteres (OCR), búsqueda de respuestas visuales, subtitulado de imágenes y razonamiento en varias imágenes. También admite el procesamiento de resolución variable, lo que te permite equilibrar la velocidad de inferencia y la precisión del resultado.

En esta sección, se explora cómo preparar y usar de manera eficaz los datos visuales en tus instrucciones.

Datos visuales

Los datos visuales pueden presentarse en muchos formatos y resoluciones. Los formatos de archivo específicos admitidos (como JPEG y PNG) dependen del framework que elijas para convertir tus datos visuales en tensores.

Estas son las consideraciones clave para preparar datos visuales para Gemma:

  • Costo de tokens: Por lo general, cada imagen usa 256 tokens, aunque los costos de tokens de imagen de PaliGemma varían según el modelo específico seleccionado.
  • Resolución: La resolución interpretada, es decir, la cantidad de píxeles codificados en tokens y procesados por el modelo, depende de la versión de Gemma que uses:
    • Gemma 4: Resolución variable según el presupuesto de tokens. Puedes elegir entre tamaños de presupuesto de 70, 140, 280, 560 o 1, 120 tokens, lo que determina cuánto se redimensiona y procesa la imagen de entrada.
    • Gemma 3: (4B y superior) Resolución de 896 x 896, con opciones de paneo y escaneo para imágenes más grandes.
    • Gemma 3n: Resolución de 256 x 256, 512 x 512 o 768 x 768
    • PaliGemma 2: Resolución de 224 × 224, 448 × 448 u 896 × 896

Las imágenes de menor resolución se procesan más rápido, pero capturan menos detalles visuales. Para optimizar la velocidad de inferencia, debes intentar proporcionar datos visuales que coincidan con una de las resoluciones interpretadas integradas de tu modelo de Gemma elegido.

Resolución variable y presupuestos de tokens

Los modelos de Gemma 4 introducen la capacidad de procesar imágenes en diferentes resoluciones, lo que te permite adaptar la entrada visual a tu tarea específica. Por ejemplo, puedes optar por una resolución alta para identificar detalles pequeños en la detección de objetos, mientras que una resolución más baja podría ser preferible para analizar fotogramas de video individuales y acelerar el procesamiento. En última instancia, esta función te permite equilibrar la velocidad de inferencia con la precisión de la representación visual.

Puedes administrar esta compensación con un presupuesto de tokens. Este presupuesto establece un límite estricto en la cantidad de tokens visuales (también conocidos como incorporaciones de tokens visuales) que el modelo puede generar para una sola imagen.

Puedes elegir un presupuesto de 70, 140, 280, 560 o 1, 120 fichas:

  • Presupuestos altos (p.ej., 1,120 tokens): Conservan una resolución de imagen más alta. Esto genera más parches para que el modelo procese, lo que lo hace ideal para capturar detalles finos y complejos.
  • Presupuestos bajos (p.ej., 70 tokens): Se reduce la escala de la imagen, lo que genera menos parches. Esto acelera significativamente los tiempos de inferencia.

Cómo funciona el presupuesto: El presupuesto de tokens controla directamente cuánto se redimensiona una imagen, ya que determina la cantidad máxima de parches iniciales de la imagen. El sistema genera nueve veces más parches que el presupuesto seleccionado. Por ejemplo, un presupuesto de 280 tokens genera hasta 2,520 parches (280 × 9).

El multiplicador de 9 existe debido a la forma en que se comprimen los parches: durante el procesamiento, el modelo toma cada cuadrícula de 3 x 3 de parches adyacentes y los promedia para crear una sola incorporación. Estas incorporaciones consolidadas se convierten en tus tokens visuales finales. Por lo tanto, un presupuesto de tokens más alto genera más incorporaciones finales, lo que permite que el modelo extraiga información más detallada y enriquecida de tus datos visuales.

Lo que debes hacer

Estas son algunas prácticas recomendadas que debes seguir cuando le pidas a Gemma que genere respuestas con datos visuales.

  • Sé específico: Si tienes tareas específicas, proporciona suficiente contexto y orientación. En lugar de "describe esta imagen", prueba con "describe la escena de esta imagen y enfócate en la relación entre las personas y los objetos".

  • Proporciona restricciones: Para lograr un estilo o tono en particular, asegúrate de especificarlo en tu instrucción. Por ejemplo, en lugar de una solicitud de historia general, pídele a Gemma que "escriba un cuento sobre esta imagen al estilo de una película de cine negro".

  • Refinamiento iterativo: Para obtener el resultado deseado, a menudo se requiere experimentar y refinar las instrucciones. Comienza con un prompt básico y agrega complejidad gradualmente.

Lo que no debes hacer

Estas son algunas cosas que debes evitar cuando le pidas a Gemma que genere respuestas con datos visuales.

  • Espera recuentos exactos para objetos extremadamente densos: Si bien Gemma 4 se destaca en la detección de objetos y el OCR, es posible que proporcione aproximaciones en lugar de recuentos exactos para objetos extremadamente densos o pequeños (como contar hojas de césped individuales). Para lograr la mejor precisión en las tareas visuales, usa un presupuesto de tokens más alto.

  • Instrucciones vagas o ambiguas: En lugar de instrucciones generales como "Genera algo basado en esta imagen", proporciona instrucciones específicas para lograr los resultados deseados. Define claramente qué es "algo". Por ejemplo, un poema, una receta o un fragmento de código.