Generare immagini utilizzando Imagen 3

L'API Gemini fornisce accesso a Imagen 3, il modello di generazione di immagini all'avanguardia di Google. Con Imagen puoi generare nuove immagini da prompt di testo. L'integrazione dell'API Gemini con Imagen è progettata per aiutarti a creare applicazioni di IA di nuova generazione che trasformano i prompt degli utenti in asset visivi di alta qualità in pochi secondi.

Questa guida ti aiuterà a iniziare a utilizzare Imagen utilizzando l'SDK Python dell'API Gemini.

Informazioni su Imagen 3

Imagen 3 è il modello di conversione da testo a immagine di Google di altissima qualità, che offre una serie di funzionalità nuove e migliorate. Imagen 3 può:

  • Genera immagini con dettagli migliori, un'illuminazione più intensa e meno elementi di distrazione rispetto ai modelli precedenti.
  • Comprendere i prompt scritti in un linguaggio naturale e quotidiano, semplificando la generazione di output allineati senza un'elaborazione complessa dei prompt.
  • Genera immagini in un'ampia gamma di formati e stili, da paesaggi fotorealistici a dipinti a olio riccamente strutturati o stravaganti scene di claymation.
  • Eseguire il rendering del testo in modo più efficace rispetto ai modelli precedenti, aprendo nuove possibili per casi d'uso come cartoline di compleanno stilizzate, presentazioni e altro ancora.

Imagen 3 è stato creato con le ultime innovazioni di Google in termini di sicurezza e responsabilità, dallo sviluppo dei dati e dei modelli alla produzione. Il team di Google DeepMind ha utilizzato un'ampia gamma di filtri e etichettatura dei dati per ridurre al minimo i contenuti dannosi nei set di dati e la probabilità di risultati dannosi. Il team ha anche condotto valutazioni e red teaming su argomenti quali equità, bias e sicurezza dei contenuti.

Per scoprire di più e visualizzare un esempio di output, consulta la panoramica di Imagen 3 di Google DeepMind.

Prima di iniziare: configura il progetto e la chiave API

pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen

Prima di chiamare l'API Gemini, devi configurare il progetto e la chiave API.

Genera immagini

Questa sezione mostra come creare un'istanza di un modello Imagen e generare immagini.

Per eseguire il codice di esempio, devi prima installare Pillow:

pip install --upgrade Pillow

Dopo aver installato Pillow e l'SDK Python, puoi utilizzare il seguente codice per generare le immagini:

import os
import google.generativeai as genai

genai.configure(api_key=os.environ['API_KEY'])

imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")

result = imagen.generate_images(
    prompt="Fuzzy bunnies in my kitchen",
    number_of_images=4,
    safety_filter_level="block_only_high",
    person_generation="allow_adult",
    aspect_ratio="3:4",
    negative_prompt="Outside",
)

for image in result.images:
  print(image)

# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>

for image in result.images:
  # Open and display the image using your local operating system.
  image._pil_image.show()

Il notebook dovrebbe mostrare quattro immagini simili a questa:

Immagine di due coniglietti pelosi in cucina creata con l&#39;IA

Parametri del modello Imagen

I seguenti parametri sono disponibili per generate_images():

  • prompt: il prompt di testo per l'immagine.
  • negative_prompt: una descrizione di ciò che vuoi omettere nelle immagini generate. Il valore predefinito è Nessuno.

    Ad esempio, prendi in considerazione il prompt "una strada cittadina piovosa di notte senza persone". Il modello potrebbe interpretare "persone" come un'istruzione di cosa includere anziché omettere. Per generare risultati migliori, puoi utilizzare il prompt "una strada di città piovosa di notte" con un prompt negativo "persone".

  • number_of_images: il numero di immagini da generare, da 1 a 4 (inclusi). Il valore predefinito è 4.

  • aspect_ratio: modifica le proporzioni dell'immagine generata. I valori supportati sono "1:1", "3:4", "4:3", "9:16" e "16:9". Il valore predefinito è "1:1".

  • safety_filter_level: aggiunge un livello di filtro al filtro di sicurezza. I seguenti valori sono validi:

    • "block_low_and_above": blocca quando il punteggio di probabilità o il punteggio di gravità è LOW, MEDIUM o HIGH.
    • "block_medium_and_above": blocca quando il punteggio di probabilità o il punteggio di gravità è MEDIUM o HIGH.
    • "block_only_high": blocca quando il punteggio di probabilità o il punteggio di gravità è HIGH.
  • person_generation: consenti al modello di generare immagini di persone. Sono supportati i seguenti valori:

    • "dont_allow": blocca la generazione di immagini di persone.
    • "allow_adult": genera immagini di adulti, ma non di bambini.

Lingua del prompt di testo

Sono supportate le seguenti lingue per i prompt di testo di input:

  • Cinese (semplificato) (zh/zh-CN)
  • Cinese (tradizionale) (zh-TW)
  • Inglese (en)
  • Hindi (hi)
  • Giapponese (ja)
  • Coreano (ko)
  • Portoghese (pt)
  • Spagnolo (es)

Passaggi successivi

Imagen 3 nell'API Gemini è in accesso in anteprima. Continua a seguirci per ricevere annunci sullo stato della funzionalità.