Estrategias de instrucción de archivos

La familia de modelos de inteligencia artificial (IA) Gemini se creó para controlar varios tipos de datos de entrada, incluidos texto, imágenes y audio. Dado que estos modelos pueden controlar más de un tipo o modo de datos, los modelos de Gemini se denominan modelos multimodales o se explican como capacidades multimodales.

En esta página, se proporcionan orientación y prácticas recomendadas para usar archivos multimedia con solicitudes para la API de Gemini. Si deseas obtener información sobre el uso de la API de Gemini Files para subir archivos multimedia y, luego, incluirlos en tus mensajes, consulta Cómo solicitar archivos multimedia.

Cómo usar archivos multimedia con instrucciones

Poder usar varios tipos de datos en tus instrucciones te brinda más flexibilidad en términos de las tareas que puedes abordar con la API de Gemini. Por ejemplo, puedes enviar al modelo una foto de una comida deliciosa y pedirle que escriba un blog breve sobre la comida.

Instrucción Respuesta

Escribe una entrada de blog breve y atractiva basada en esta imagen. Debería incluir una descripción de la comida en la foto y hablar sobre la preparación de mi comida para el recorrido.


Unas galletas

Preparar comidas es una excelente manera de ahorrar tiempo y dinero, y también puede ayudar a comer de forma más saludable. Este plato es un excelente ejemplo de un plato saludable y deliciosa que se puede preparar con antelación fácilmente.

Esta comida incluye arroz integral, verduras asadas y pollo teriyaki. El arroz integral es un carbohidrato saludable y complejo que proporciona energía sostenida. Los vegetales asados son una excelente manera de obtener tu dosis diaria de vitaminas y minerales, y el pollo teriyaki es una opción deliciosa y rica en proteínas.

Esta comida también es muy fácil de preparar. Solo cocina el arroz integral, asa los vegetales y cocina el teriyaki de pollo. Cuando esté todo cocido, divídelo en contenedores para preparar comidas y guárdelos en el refrigerador. Luego, puedes tomar un contenedor y tener mañanas ocupadas.

Si buscas un plato saludable y deliciosa que se pueda preparar fácilmente con anticipación, esta comida es una excelente opción. Está repleta de nutrientes y sabor, y seguramente te hará sentir saciado y satisfecho.

Por ello, prepara platos saludables y deliciosos.

Estrategias para usar instrucciones con los medios

Si tienes problemas para obtener el resultado que deseas de los mensajes que usan archivos multimedia, hay algunas estrategias que pueden ayudarte a obtener los resultados que deseas. En las siguientes secciones, se proporcionan enfoques de diseño y sugerencias para solucionar problemas a fin de mejorar los mensajes que usan entradas multimodales.

Para mejorar tus prompts multimodales, sigue estas prácticas recomendadas:

Conceptos básicos sobre el diseño de prompts

  • Sé específico en tus instrucciones: Crea instrucciones claras y concisas que dejen espacio mínimo para interpretaciones erróneas.
  • Agrega algunos ejemplos a tu prompt: Usa ejemplos poco frecuentes para ilustrar lo que quieres lograr.
  • Desglosar paso a paso: Divide las tareas complejas en subobjetivos administrables y guiando el modelo a través del proceso.
  • Especifica el formato del resultado: En el prompt, solicita que el resultado tenga el formato que deseas, como Markdown, JSON, HTML y más.
  • Coloca tu imagen primero para los mensajes con una sola imagen: Si bien Gemini puede manejar las entradas de imagen y texto en cualquier orden, en el caso de los mensajes que contienen una sola imagen, podría tener un mejor rendimiento si esta se coloca antes de la instrucción de texto.

    Soluciona problemas de tu prompt multimodal

    • Si el modelo no extrae información de la parte relevante de la imagen: Agrega pistas sobre los aspectos de la imagen de los que quieres que el prompt extraiga información.
    • Si la salida del modelo es demasiado genérica (no se adapta lo suficiente a la imagen): Al comienzo de la instrucción, pídele al modelo que describa las imágenes antes de que le proporcione la instrucción de la tarea, o bien pídele que haga referencia al contenido de la imagen.
    • Conceptos básicos del diseño de prompts

      En esta sección, se amplían las prácticas recomendadas que se mencionaron en la sección anterior.

      Nota: Los resultados del modelo de los siguientes ejemplos de Gemini pueden variar de una ejecución a otra.

      Sé específico en tus instrucciones

      Los prompts tienen más éxito cuando son claros y detallados. Si tienes un resultado específico en mente, es mejor incluir ese requisito en el prompt para asegurarte de obtener el resultado que deseas.

      A veces, la intención de un prompt puede parecer clara para la persona que lo escribió, pero en realidad no se especifica. Para personalizar el comportamiento del modelo, considera cómo se puede interpretar (de forma incorrecta) el prompt y asegúrate de que las instrucciones sean específicas y claras. Recuerda dejar un espacio mínimo para interpretaciones erróneas

      Para esta imagen de un panel de aeropuerto, pedirle al modelo que simplemente “describa esta imagen” podría generar una descripción general. Si necesitas el modelo para analizar la hora y la ciudad desde la imagen, puedes incluir esa solicitud directamente en el prompt.

      Instrucción Respuesta del modelo

      Describe esta imagen.

      En la imagen, se muestra el panel de llegadas y salidas de un aeropuerto.

      Prompt actualizado Respuesta mejorada
      Tablero de horarios de viajes

      Analiza la hora y la ciudad del panel de aeropuerto que se muestra en esta imagen y crea una lista con esos datos.

    • 10:50 Moscú
    • 11:05 Edimburgo
    • 11:05 Londres
    • 11:10 Bucarest
    • 11:30 Kiev
    • 11:35 Dublín
    • 11:45 Midlands del Este
    • 12:15 Sofía
    • 12:30 Londres
    • 12:30 Newcastle
    • 12:40 San Petersburgo
    • 12:40 Londres
    • 12:45 Mánchester
    • Agrega algunos ejemplos

      El modelo Gemini puede aceptar varias entradas, que puede usar como ejemplos para comprender el resultado que deseas. Agregar estos ejemplos puede ayudar a que el modelo identifique los patrones y aplique la relación entre las imágenes y respuestas dadas al ejemplo nuevo. Esto también se conoce como aprendizaje en pocos intentos.

      En el siguiente ejemplo, el resultado inicial está escrito en forma de oración y también contiene el país (Brasil). Supongamos que deseas obtener el resultado en un formato o estilo diferente y solo quieres la ciudad, no el país. Agregar ejemplos de pocos intentos a tu prompt puede hacer que el modelo responda de la manera que deseas.

      Instrucción Respuesta del modelo
      Tablero de horarios de viajes

      Determina la ciudad junto con el punto de referencia.

      El punto de referencia es la estatua del Cristo Redentor de Río de Janeiro, Brasil.

      Prompt actualizado Respuesta mejorada

      Determina la ciudad junto con el punto de referencia.

      coliseo

      ciudad: Roma, punto de referencia: el Coliseo.

      La Ciudad Prohibida

      ciudad: Beijing, punto de referencia: la Ciudad Prohibida

      La Ciudad Prohibida

      ciudad: Río de Janeiro, punto de referencia: estatua del Cristo Redentor

      Desglósalo paso a paso

      Para tareas complejas como las que requieren comprensión visual y razonamiento, puede ser útil dividir la tarea en pasos más pequeños y simples. Como alternativa, también podría ser efectivo si le pides al modelo que "piense paso a paso" en el prompt.

      Instrucción Respuesta del modelo

      ¿Cuándo se me acabará el papel higiénico?

      Pronto, solo te quedan 3 rollos.

      Prompt actualizado Respuesta mejorada

        1. Primero, cuenta cuántos rollos de papel higiénico hay en esta imagen.
        2. Luego, determina cuánto papel higiénico usa una persona común por día.
        3. Calcula cuánto durarán estos rollos de papel higiénico.

        1. En esta imagen, hay 3 rollos de papel higiénico.
        2. Una persona común usa alrededor de 20 hojas de papel higiénico por día.
        3. Si cada rollo contiene 200 hojas, cada uno durará alrededor de 10 días. Por lo tanto, los 3 rollos durarán aproximadamente un mes.

      Los problemas matemáticos u otros tipos de problemas de palabras son excelentes opciones para pedirle al modelo que piense paso a paso.

      Instrucción Respuesta

      ¿Cuál es el cuarto término de la secuencia?

      -135

      La respuesta del modelo es incorrecta. Algunas formas de mejorar esto son pedirle al modelo que analice el problema antes de responder al prompt.

      Instrucción Respuesta

      Analiza primero la fórmula de la imagen.

      Luego, en función de la fórmula, responde “¿Cuál es el cuarto término de la secuencia?”.

      Haz clic para expandir el resultado

      $$ b(n) = b(n-1) * (-3) $$

      $$ b(1) = 15 $$

      1. Sustituye n = 4 en la fórmula:
      2. $$ b(4) = b(4-1) * (-3) $$

        $$ b(4) = b(3) * (-3) $$

      3. No sabemos el valor de b(3), así que sustituye n = 3 en la fórmula:
      4. $$ b(3) = b(3-1) * (-3) $$

        $$ b(3) = b(2) * (-3) $$

      5. No sabemos el valor de b(2), así que sustituye n = 2 en la fórmula:
      6. $$ b(2) = b(2-1) * (-3) $$

        $$ b(2) = b(1) * (-3) $$

      7. Sabemos que el valor de b(1) es 15, por lo que debes sustituirlo en la fórmula:
      8. $$ b(2) = 15 * (-3) $$

        $$ b(2) = -45 $$

      9. Ahora que conocemos el valor de b(2), reemplázalo por b(3) en la fórmula:
      10. $$ b(3) = b(2) * (-3) $$

        $$ b(3) = -45 * (-3) $$

        $$ b(3) = 135 $$

      11. Ahora que conocemos el valor de b(3), reemplázalo en la fórmula por b(4):
      12. $$ b(4) = b(3) * (-3) $$

        $$ b(4) = 135 * (-3) $$

        $$ b(4) = -405 $$

      Por lo tanto, el cuarto término de la secuencia es -405.

      Esta respuesta del modelo es correcta: ahora para que la respuesta sea aún más optimizada, puedes pedirle al modelo que piense paso a paso.

      Prompt actualizado Respuesta mejorada

      ¿Cuál es el cuarto término de la secuencia? Piensa paso a paso.

      El primer término es 15.

      El segundo término es b(1) * (-3) = 15 * (-3) = -45.

      El tercer término es b(2) * (-3) = -45 * (-3) = 135.

      El cuarto término es b(3) * (-3) = 135 * (-3) = -405.

      Intenta especificar el formato de salida

      Un problema común es la necesidad de que el resultado del modelo esté en un formato determinado (p. ej., Markdown, JSON, HTML), en especial si el resultado del modelo debe transferirse mediante una tarea descendente. Puedes intentar producir un resultado en ese formato cuando le indicas al modelo que lo haga dentro del prompt. A continuación, se muestran dos ejemplos:

      Instrucción Respuesta del modelo

      Analiza la tabla en esta imagen en formato Markdown

      | Asunto | Estado | Hora | Fecha de inicio | Plazo |

      | ------- | ------ | ---- | --------- | ------ |

      | Matemáticas | Listo | 1.5 h | 29/11/2023 | 1/12/2023 |

      | Geografía | Listo | 30 min | 2/12/2023 | 4/12/2023 |

      | Física | En curso | 2 h | 3/12/2023 | 5/12/2023 |

      | Biología | No iniciado | 6 h | 2/11/2016 | 6/12/2023 |

      Instrucción Respuesta del modelo

      Proporciona una lista de todos los atributos siguientes:

      ingredientes, tipo de cocina, vegetariano o no, en formato JSON

      ```json```

      {

      "ingredients": [

      "rice",

      "shrimp",

      "clams",

      "mussels",

      "peas",

      "tomatoes",

      "onions",

      "garlic",

      "olive oil",

      "paprika",

      "salt",

      "pepper"

      ],

      "type of cuisine": "Spanish",

      "vegetarian": false

      Coloca primero la imagen para prompts de una sola imagen

      Si bien Gemini puede interpretar la imagen y el texto en cualquier orden dentro de un prompt, colocar una sola imagen antes del prompt de texto puede generar mejores resultados. En las siguientes muestras, verás que la imagen aparece primero antes del texto en cada instrucción.

      Soluciona problemas de tu prompt multimodal

      Es posible que debas solucionar problemas de tu prompt si no obtienes una respuesta útil. Estas son algunas estrategias que puedes probar.

      Si el modelo no extrae información de la parte relevante de la imagen

      Para obtener una respuesta más específica, puedes indicar desde qué aspectos de la imagen deseas que la solicitud extraiga información para generar su respuesta.

      Instrucción Respuesta del modelo

      ¿Cuántos días durarán estos pañales para un bebé?

      Los pañales se acabarán en 198 días.

      Prompt actualizado Respuesta mejorada

      ¿Cuánto durarán estos pañales antes de acabarse?

      Usa el peso que se muestra en la caja para determinar la edad del bebé y usa la cantidad total de pañales que aparece en la caja.

      Divide la cantidad total por la cantidad de pañales que el bebé usa en un día.

      La caja contiene 198 pañales. La caja indica que los pañales son para niños que pesan entre 22 y 37 libras.

      Es probable que el niño promedio de este rango de peso tenga entre 1 y 2 años.

      Por lo general, un niño de 2 años usa 6 pañales por día. Por lo tanto, durarán aproximadamente 33 días (198/6).

      Si la salida del modelo es demasiado genérica y no se adapta lo suficiente a la entrada de imagen

      Para ayudar a que el modelo adapte su respuesta a las imágenes, pídele que describa las imágenes antes de realizar su tarea de razonamiento.

      Instrucción Respuesta del modelo

      ¿Qué tienen en común estas imágenes?

      Las cuatro imágenes son ejemplos de fotografías horizontales.

      Prompt actualizado Respuesta mejorada

      Primero, describe el contenido de cada imagen en detalle. ¿Qué tienen en común estas imágenes?

      En la primera imagen, se muestra a una persona empacando una maleta. La segunda imagen muestra un pasillo vacío en un centro comercial. La tercera imagen muestra un rollo de papel higiénico. La cuarta imagen muestra un mar oscuro y tormentoso.

      La común entre estas imágenes es que todos son ejemplos de espacios liminales. Los espacios liminales son lugares o situaciones que se encuentran entre otros dos lugares o situaciones. A menudo, se caracterizan por un sentido de incertidumbre o ambigüedad.

      La primera imagen muestra a la persona entre estar en casa y estar de viaje. La segunda imagen muestra el pasillo entre dos tiendas. La tercera imagen es de papel higiénico, que puede representar un baño. Un baño es un espacio de transición entre el ámbito privado y el público. Es un lugar donde nos preparamos para ir al mundo exterior o para dejarlo.

      En la cuarta imagen, se muestra el mar entre la calma y la tormenta.

      Los espacios liminales pueden ser emocionantes e inquietantes. Pueden ser un lugar de nuevos comienzos o de finales. Pueden ser un lugar de reflexión o un lugar de acción.

      También puedes intentar solicitar explícitamente que el modelo haga referencia a lo que hay en la imagen.

      Prompt actualizado Respuesta mejorada

      ¿Qué tienen en común estas imágenes? Consulta el contenido de las imágenes en tu respuesta.

      Todas las imágenes están relacionadas con viajes. La primera imagen muestra a una persona empacando una maleta; la segunda, un pasillo vacío en un centro comercial; la tercera imagen, una pila de papel higiénico, y la cuarta imagen, un mar oscuro y tormentoso.

      Todas estas imágenes están relacionadas con viajes porque son todo lo que las personas necesitan o usan cuando viajan. En la primera imagen, se muestra a una persona empacando una maleta, que es algo que hacen las personas cuando viajan. La segunda imagen muestra un pasillo vacío en un centro comercial, que es un lugar donde las personas suelen ir a comprar artículos para sus viajes. La tercera imagen muestra una pila de papel higiénico, algo que la gente suele usar cuando viaja. La cuarta imagen muestra un mar oscuro y tormentoso, algo que las personas suelen encontrar cuando viajan.

      Las mismas sugerencias funcionan para el resultado creativo de las imágenes. En el siguiente ejemplo con el conejo, pedirle explícitamente al modelo que incluya aspectos de la imagen puede mejorar el resultado.

      Instrucción Respuesta del modelo

      ¿Puedes escribirme un poema sobre esta imagen?

      Conejito, tan suave y marrón,
      que salta por el campo arriba y abajo.
      Tus orejas tan largas y tan pequeña tu cola,
      Eres la criatura más tierna de todas.

      Mordisqueas el pasto, tan verde y suave,
      Y huyes saltando cuando me veas.
      Pero siempre tendrás mi amistad,
      Conejito, hasta el final.

      Prompt actualizado Respuesta mejorada

      ¿Puedes escribirme un poema descriptivo y dramático sobre esta imagen y también incluir la ubicación?

      Conejito sobre el verde,
      Orejas tan largas y agudas.
      ¿Qué ves allí,
      En la distancia, donde observas?

      ¿Es el océano azul
      Que brilla con el sol?
      ¿O bien las olas que chocan y rugen,
      Un ritmo que te adoras?

      Pequeño conejo, dime la verdad,
      ¿qué capta tu atención?
      ¿La brisa salada
      o el llanto de las gaviotas?

      Quizás sea la enormidad de todo,
      Un mundo tan grande y pequeño.
      Un lugar donde los deseos pueden viajar,
      y las historias se pueden sembrar.

      Conejito, me pregunto qué soñarás,
      mientras te sientas en el césped, tan sereno.
      ¿Te animas a explorar la profundidad?
      ¿O te quedarás en la tierra, donde puedes saltar?

      Sin importar cómo sea, conejito
      Mantén esa chispa de asombro siempre brillante.
      Porque en tus sueños y deseos,
      hay un mundo que espera tu creación.

      Soluciona problemas de qué parte del prompt falló

      Puede ser difícil saber si un prompt falló porque el modelo no entiendió la imagen en primer lugar, o si la entendió, pero no realizó los pasos de razonamiento correctos después.

      Para distinguir los motivos, pídele al modelo que describa el contenido de la imagen.

      En el siguiente ejemplo, si el modelo responde con un tentempié que parece extraño en combinación con té (p. ej., palomitas de maíz) primero puedes solucionar problemas a fin de determinar si el modelo reconoció correctamente que la imagen contiene té.

      Instrucción Prompt para solucionar problemas

      ¿Qué tentempié puedo preparar en 1 minuto que se combine bien con esto?

      Describe el contenido de esta imagen.

      Otra estrategia es pedirle al modelo que explique su razonamiento. Eso puede ayudarte a limitar qué parte del razonamiento falló, si la hubiera.

      Instrucción Prompt para solucionar problemas

      ¿Qué tentempié puedo preparar en 1 minuto que se combine bien con esto?

      ¿Qué tentempié puedo preparar en 1 minuto que se combine bien con esto? Explica por qué.

      Ajusta los parámetros de muestreo

      En cada solicitud, envías no solo el prompt multimodal, sino también un conjunto de parámetros de muestreo al modelo. El modelo puede generar resultados diferentes para los valores de parámetros diferentes. Experimenta con los diferentes parámetros a fin de obtener los mejores valores para la tarea. Los parámetros que se ajustan con mayor frecuencia son los siguientes:

      • Temperatura
      • Top-P
      • Top-K

      Temperatura

      La temperatura se utiliza para el muestreo durante la generación de la respuesta, que ocurre cuando se aplican Top-P y Top-K. La temperatura controla el grado de aleatoriedad en la selección de tokens. Las temperaturas más bajas son buenas para las instrucciones que requieren una respuesta más determinística y menos abierta o creativa, mientras que las temperaturas más altas pueden generar resultados más diversos o creativos. Una temperatura de 0 es determinística, lo que significa que siempre se elige la respuesta de mayor probabilidad.

      Para la mayoría de los casos de uso, intenta empezar con una temperatura de 0.4. Si necesitas resultados más creativos, intenta aumentar la temperatura. Si observas alucinaciones claras, intenta reducir la temperatura.

      Top-K

      El parámetro Top-K cambia la manera en la que el modelo selecciona los tokens para el resultado. Un Top-K de 1 significa que el siguiente token seleccionado es el más probable entre todos los tokens en el vocabulario del modelo (también llamado decodificación codiciosa), mientras que un Top-K de 3 significa que el siguiente token se selecciona de los 3 tokens más probables (con la temperatura).

      Para cada paso de elección de tokens, se muestran los tokens de Top-K con las probabilidades más altas. Luego, los tokens se filtran según el Top-P con el token final seleccionado a través del muestreo de temperatura.

      Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias. El valor predeterminado de Top-K es 32.

      Top-P

      Top-P cambia la manera en la que el modelo selecciona tokens para la salida. Los tokens se eligen del más probable (consulta Top-K) al menos probable, hasta que la suma de sus probabilidades sea igual al valor de Top-P. Por ejemplo, si los tokens A, B y C tienen una probabilidad de 0.6, 0.3 y 0.1 y el valor Top-P es 0.9, el modelo elegirá A o B como el siguiente token usando la temperatura y excluirá a C como candidato.

      Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias. El valor predeterminado de Top-P es 1.0.

      Próximos pasos