Imagen 3 en la API de Gemini

La API de Gemini brinda acceso a Imagen 3, el modelo de texto a imagen de mayor calidad de Google, que incluye una serie de capacidades nuevas y mejoradas. Imagen 3 puede hacer lo siguiente:

  • Genera imágenes con mejores detalles, iluminación más rica y menos artefactos que distraen que los modelos anteriores.
  • Comprender instrucciones escritas en lenguaje natural
  • Genera imágenes en una amplia variedad de formatos y estilos
  • Renderiza el texto de forma más eficaz que los modelos anteriores.

Generar imágenes

En esta sección, se muestra cómo crear una instancia de un modelo Imagen y generar imágenes.

Después de instalar el SDK de IA generativa de Google, puedes usar el siguiente código para generar imágenes:

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='Fuzzy bunnies in my kitchen',
    config=types.GenerateImagesConfig(
        number_of_images= 4,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

La muestra de código debería generar cuatro imágenes similares a esta:

Imagen generada por IA de dos conejos peludos en la cocina

Los desarrolladores de Python también pueden probar el notebook de Introducción a Imagen en la Guía de soluciones de Gemini.

Parámetros del modelo de Imagen

Los siguientes parámetros están disponibles para generate_images():

  • prompt: Es el mensaje de texto para la imagen.
  • number_of_images: Es la cantidad de imágenes que se generarán, de 1 a 4 (inclusive). El valor predeterminado es 4.
  • aspect_ratio: Cambia la relación de aspecto de la imagen generada. Los valores admitidos son "1:1", "3:4", "4:3", "9:16" y "16:9". El valor predeterminado es "1:1".
  • safety_filter_level: Agrega un nivel de filtro al filtro de seguridad. Los siguientes valores son válidos:
    • "BLOCK_LOW_AND_ABOVE": Bloquea cuando la puntuación de probabilidad o la de gravedad es LOW, MEDIUM o HIGH.
    • "BLOCK_MEDIUM_AND_ABOVE": Bloquea cuando la puntuación de probabilidad o la de gravedad es MEDIUM o HIGH.
    • "BLOCK_ONLY_HIGH": Se bloquea cuando la puntuación de probabilidad o la de gravedad es HIGH.
  • person_generation: Permite que el modelo genere imágenes de personas. Se admiten los siguientes valores:
    • "DONT_ALLOW": Bloquea la generación de imágenes de personas.
    • "ALLOW_ADULT": Genera imágenes de adultos, pero no de niños. Es el valor predeterminado.

Siempre se agrega una marca de agua digital SynthID no visible a las imágenes generadas.

Idioma de la instrucción de texto

Se admiten los siguientes idiomas de instrucciones de texto de entrada:

  • Inglés (en)

¿Qué sigue?

Si quieres obtener más información para escribir instrucciones para Imagen, consulta la guía de instrucciones de Imagen.