Mit Imagen 3 Bilder generieren

Die Gemini API bietet Zugriff auf Bild 3, die hochmodernes Modell zur Bildgenerierung. Mit Imagen können Sie neue Bilder aus Text-Prompts generieren. Die Integration der Gemini API mit Imagen soll Ihnen dabei helfen, KI-Anwendungen der nächsten Generation zu entwickeln, die Nutzerprompts in Sekundenschnelle in hochwertige visuelle Assets umwandeln.

In diesem Leitfaden erfahren Sie, wie Sie mit dem Python SDK der Gemini API loslegen.

Imagen 3

Bild 3 ist das qualitativ hochwertigste Text-zu-Bild-Modell von Google mit einer Reihe von neuen und verbesserten Funktionen. Image 3 kann Folgendes tun:

  • Du kannst Bilder mit mehr Details, intensiverer Beleuchtung und weniger Ablenkungen erstellen Artefakte als bei früheren Modellen.
  • Sie können Prompts in natürlicher, alltäglicher Sprache verstehen, was es einfacher macht, ohne komplexe Prompt-Entwicklung eine passende Ausgabe zu generieren.
  • Sie können Bilder in vielen verschiedenen Formaten und Stilen erstellen – von fotorealistischen Landschaften, Ölgemälde mit hoher Struktur oder skurrile Klängenszenen.
  • Das Rendern von Text im Vergleich zu früheren Modellen, wodurch neue Möglichkeiten eröffnet werden Möglichkeiten für Anwendungsfälle wie stilisierte Geburtstagskarten, Präsentationen und mehr.

Imagen 3 wurde mit den neuesten Innovationen von Google in den Bereichen Sicherheit und Verantwortung entwickelt – von der Daten- und Modellentwicklung bis hin zur Produktion. Das Google DeepMind-Team nutzte Umfangreiche Filterung und Daten-Labeling zur Minimierung schädlicher Inhalte in Datasets und die Wahrscheinlichkeit schädlicher Ausgaben zu verringern. Außerdem führte das Team Bewertungen zu Themen wie Fairness, Voreingenommenheit und Inhaltssicherheit durch.

Weitere Informationen und Beispielausgaben finden Sie in der Übersicht zu Google DeepMind Imagen 3.

Hinweis: Projekt und API-Schlüssel einrichten

pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen

Bevor Sie die Gemini API aufrufen, müssen Sie Ihr Projekt einrichten und konfigurieren Ihren API-Schlüssel.

Bilder erstellen

In diesem Abschnitt erfahren Sie, wie Sie ein Imagen-Modell instanziieren und Bilder generieren.

Um den Beispielcode auszuführen, müssen Sie zuerst Pillow installieren:

pip install --upgrade Pillow

Nachdem Sie Pillow und das Python SDK installiert haben, können Sie mit dem folgenden Code Bilder generieren:

import os
import google.generativeai as genai

genai.configure(api_key=os.environ['API_KEY'])

imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")

result = imagen.generate_images(
    prompt="Fuzzy bunnies in my kitchen",
    number_of_images=4,
    safety_filter_level="block_only_high",
    person_generation="allow_adult",
    aspect_ratio="3:4",
    negative_prompt="Outside",
)

for image in result.images:
  print(image)

# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>

for image in result.images:
  # Open and display the image using your local operating system.
  image._pil_image.show()

Das Notebook sollte vier Bilder anzeigen, die diesem ähneln:

KI-generiertes Bild von zwei flauschigen Hasen in der Küche

Imagen-Modellparameter

Die folgenden Parameter sind für generate_images() verfügbar:

  • prompt: Der Text-Prompt für das Bild.
  • negative_prompt: Eine Beschreibung dessen, was im generierten Bilder. Die Standardeinstellung ist keiner.

    Stellen Sie sich z. B. die Aufforderung „eine verregnete Straße in der Stadt ohne Personen“. Das Modell könnte „Personen“ als Anweisung dafür verwenden, was eingeschlossen werden soll, statt als was weggelassen werden soll. Wenn Sie bessere Ergebnisse erzielen möchten, können Sie den Prompt „Verregnete Stadt in der Nacht“ mit dem negativen Prompt „Personen“ verwenden.

  • number_of_images: Die Anzahl der zu generierenden Bilder (1 bis 4). Der Standardwert ist 4.

  • aspect_ratio: Ändert das Seitenverhältnis des generierten Bildes. Unterstützt Werte sind "1:1", "3:4", "4:3", "9:16" und "16:9". Der Standardwert ist "1:1"

  • safety_filter_level: Fügt dem Sicherheitsfilter eine Filterstufe hinzu. Die folgenden Werte sind gültig:

    • "block_low_and_above": Sperren, wenn der Wahrscheinlichkeitswert oder der Schweregrad Punktzahl ist LOW, MEDIUM oder HIGH.
    • "block_medium_and_above": Sperren, wenn der Wahrscheinlichkeitswert oder der Schweregrad Punkte MEDIUM oder HIGH.
    • "block_only_high": Blockieren, wenn der Wahrscheinlichkeitswert oder der Schweregradwert angegeben ist ist HIGH.
  • person_generation: Dem Modell erlauben, Bilder von Personen zu generieren. Die folgende Werte werden unterstützt:

    • "dont_allow": Erstellung von Bildern von Personen blockieren.
    • "allow_adult": Bilder von Erwachsenen generieren, aber keine Kinder.

Nächste Schritte

Image 3 in der Gemini API befindet sich in der Early-Access-Phase. Wir halten Sie über Ankündigungen zu den Status der Funktion.