Generare immagini utilizzando Imagen 3

L'API Gemini fornisce accesso a Imagen 3, il modello di generazione di immagini all'avanguardia di Google. Con Imagen, puoi generare nuove da prompt di testo. L'integrazione dell'API Gemini con Imagen è progettata per aiutarti a creare applicazioni di IA di nuova generazione che trasformano i prompt degli utenti in asset visivi di alta qualità in pochi secondi.

Questa guida ti aiuterà a iniziare a utilizzare Imagen con l'SDK Python per l'API Gemini.

Informazioni su Imagen 3

Imagen 3 è il modello di conversione da testo a immagine di massima qualità di Google, grazie a una serie di funzionalità nuove e migliorate. Imagen 3 è in grado di:

  • Genera immagini con dettagli migliori, un'illuminazione più intensa e meno elementi di disturbo degli artefatti rispetto ai modelli precedenti.
  • Comprendere i prompt scritti in un linguaggio naturale e di uso quotidiano, semplificando la generazione di output allineati senza una complessa progettazione dei prompt.
  • Genera immagini in una vasta gamma di formati e stili, da paesaggi fotorealistici a dipinti a olio dalle tonalità ricche o scene di claymation stravaganti.
  • Rendering del testo in modo più efficace rispetto ai modelli precedenti, aprendo nuovi orizzonti possibilità per casi d'uso come biglietti di compleanno stilizzati, presentazioni e altro ancora.

Imagen 3 è stato creato con le ultime innovazioni di Google in termini di sicurezza e responsabilità, dallo sviluppo dei dati e dei modelli alla produzione. Il team di Google DeepMind ha utilizzato filtri ed etichettatura dei dati approfonditi per ridurre al minimo i contenuti dannosi nei set di dati e ridurre la probabilità di output dannosi. Il team ha anche condotto valutazioni e red teaming su argomenti quali equità, bias e sicurezza dei contenuti.

Per saperne di più e visualizzare un output di esempio, consulta Panoramica di Google DeepMind Imagen 3.

Prima di iniziare: configura il progetto e la chiave API

pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen

Prima di chiamare l'API Gemini, devi configurare il progetto e la chiave API.

Genera immagini

Questa sezione mostra come creare un'istanza per un modello Imagen e generare immagini.

Per eseguire il codice di esempio, devi prima installare Cuscino:

pip install --upgrade Pillow

Quindi, con Pillow e l'SDK Python installati, puoi utilizzare il seguente codice per generare immagini:

import os
import google.generativeai as genai

genai.configure(api_key=os.environ['API_KEY'])

imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")

result = imagen.generate_images(
    prompt="Fuzzy bunnies in my kitchen",
    number_of_images=4,
    safety_filter_level="block_only_high",
    person_generation="allow_adult",
    aspect_ratio="3:4",
    negative_prompt="Outside",
)

for image in result.images:
  print(image)

# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>

for image in result.images:
  # Open and display the image using your local operating system.
  image._pil_image.show()

Il blocco note dovrebbe visualizzare quattro immagini simili a questa:

Immagine di due coniglietti pelosi in cucina creata con l&#39;IA

Parametri del modello Imagen

I seguenti parametri sono disponibili per generate_images():

  • prompt: il prompt di testo per l'immagine.
  • negative_prompt: una descrizione di ciò che vuoi omettere nella riga in formato Docker. Il valore predefinito è Nessuno.

    Ad esempio, considera il prompt "una strada cittadina piovosa di notte senza persone". Il modello potrebbe interpretare "persone" come istruzione di cosa includere anziché omettere. Per generare risultati migliori, puoi utilizzare il prompt "un piovoso strada cittadina di notte" con il prompt negativo "persone".

  • number_of_images: il numero di immagini da generare, da 1 a 4 (inclusi). Il valore predefinito è 4.

  • aspect_ratio: modifica le proporzioni dell'immagine generata. I valori supportati sono "1:1", "3:4", "4:3", "9:16" e "16:9". L'impostazione predefinita è "1:1".

  • safety_filter_level: aggiunge un livello di filtro ai filtri di sicurezza. Le seguenti sono validi:

    • "block_low_and_above": blocca quando il punteggio di probabilità o la gravità il punteggio è LOW, MEDIUM o HIGH.
    • "block_medium_and_above": blocca quando il punteggio di probabilità o il punteggio di gravità è MEDIUM o HIGH.
    • "block_only_high": blocca quando il punteggio di probabilità o il punteggio di gravità è HIGH.
  • person_generation: consenti al modello di generare immagini di persone. La sono supportati i seguenti valori:

    • "dont_allow": blocca la generazione di immagini di persone.
    • "allow_adult": genera immagini di adulti, ma non di bambini.

Passaggi successivi

Imagen 3 nell'API Gemini è disponibile in accesso in anteprima. Continua a seguirci per non perderti gli annunci lo stato della caratteristica.