Mit Imagen 3 Bilder generieren

Die Gemini API bietet Zugriff auf Imagen 3, das hochmoderne Modell zur Bildgenerierung von Google. Mit Imagen können Sie neue Bilder aus Text-Prompts generieren. Die Integration der Gemini API mit Imagen soll Ihnen dabei helfen, KI-Anwendungen der nächsten Generation zu entwickeln, die Nutzerprompts in Sekundenschnelle in hochwertige visuelle Assets umwandeln.

Dieser Leitfaden hilft Ihnen bei den ersten Schritten mit Imagen über das Gemini API Python SDK.

Imagen 3

Imagen 3 ist das bisher beste Text-zu-Bild-Modell von Google und bietet eine Reihe neuer und verbesserter Funktionen. Image 3 kann Folgendes tun:

  • Generieren Sie Bilder mit mehr Details, intensiverer Beleuchtung und weniger ablenkenden Artefakten als bei früheren Modellen.
  • Sie können Prompts in natürlicher, alltäglicher Sprache verstehen, was es einfacher macht, ohne komplexe Prompt-Entwicklung eine passende Ausgabe zu generieren.
  • Sie können Bilder in einer Vielzahl von Formaten und Stilen erstellen, von fotorealistischen Landschaften über Ölgemälde mit ausgeprägter Textur bis hin zu fantasievollen Knetanimationsszenen.
  • Text wird effektiver als bei früheren Modellen gerendert, was neue Möglichkeiten für Anwendungsfälle wie stilisierte Geburtstagskarten und Präsentationen eröffnet.

Imagen 3 wurde mit den neuesten Innovationen von Google in den Bereichen Sicherheit und Verantwortung entwickelt – von der Daten- und Modellentwicklung bis hin zur Produktion. Das Google DeepMind-Team setzte umfangreiche Filter und Daten-Labeling ein, um schädliche Inhalte in Datasets zu minimieren und die Wahrscheinlichkeit schädlicher Ausgaben zu reduzieren. Außerdem führte das Team Bewertungen zu Themen wie Fairness, Voreingenommenheit und Inhaltssicherheit durch.

Weitere Informationen und Beispielausgaben finden Sie in der Übersicht zu Google DeepMind Imagen 3.

Bevor Sie beginnen: Projekt und API-Schlüssel einrichten

pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen

Bevor Sie die Gemini API aufrufen können, müssen Sie Ihr Projekt einrichten und Ihren API-Schlüssel konfigurieren.

Bilder erstellen

In diesem Abschnitt erfahren Sie, wie Sie ein Imagen-Modell instanziieren und Bilder generieren.

Damit Sie den Beispielcode ausführen können, müssen Sie zuerst Pillow installieren:

pip install --upgrade Pillow

Wenn Pillow und das Python SDK installiert sind, können Sie dann Bilder mit dem folgenden Code generieren:

import os
import google.generativeai as genai

genai.configure(api_key=os.environ['API_KEY'])

imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")

result = imagen.generate_images(
    prompt="Fuzzy bunnies in my kitchen",
    number_of_images=4,
    safety_filter_level="block_only_high",
    person_generation="allow_adult",
    aspect_ratio="3:4",
    negative_prompt="Outside",
)

for image in result.images:
  print(image)

# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>

for image in result.images:
  # Open and display the image using your local operating system.
  image._pil_image.show()

Das Notebook sollte vier Bilder anzeigen, die diesem ähneln:

KI-generiertes Bild von zwei flauschigen Kaninchen in der Küche

Parameter des Imagen-Modells

Für generate_images() sind die folgenden Parameter verfügbar:

  • prompt: Der Text-Prompt für das Bild.
  • negative_prompt: Eine Beschreibung dessen, was Sie in den generierten Bildern auslassen möchten. Die Standardeinstellung ist keiner.

    Sehen Sie sich zum Beispiel den Prompt „eine verregnete Stadt nachts ohne Personen“ an. Das Modell könnte „Personen“ als Anweisung dafür verwenden, was eingeschlossen werden soll, statt als was weggelassen werden soll. Um bessere Ergebnisse zu erhalten, können Sie die Aufforderung „Eine regnerische Straße nachts in der Stadt“ mit der negativen Aufforderung „Personen“ verwenden.

  • number_of_images: Die Anzahl der zu generierenden Bilder (1 bis 4). Der Standardwert ist 4.

  • aspect_ratio: Ändert das Seitenverhältnis des generierten Bildes. Unterstützte Werte sind "1:1", "3:4", "4:3", "9:16" und "16:9". Der Standardwert ist "1:1".

  • safety_filter_level: Hiermit wird der Sicherheitsfilterung eine Filterebene hinzugefügt. Die folgenden Werte sind zulässig:

    • "block_low_and_above": Block, wenn der Wahrscheinlichkeitswert oder der Schweregrad LOW, MEDIUM oder HIGH ist.
    • "block_medium_and_above": Blockieren Sie, wenn der Wahrscheinlichkeitswert oder der Schweregrad MEDIUM oder HIGH ist.
    • "block_only_high": Blockieren, wenn der Wahrscheinlichkeitswert oder der Schweregrad HIGH ist.
  • person_generation: Dem Modell erlauben, Bilder von Personen zu generieren. Folgende Werte werden unterstützt:

    • "dont_allow": Generierung von Bildern von Personen blockieren.
    • "allow_adult": Bilder von Erwachsenen, aber nicht von Kindern generieren.

Sprache des Text-Prompts

Die folgenden Sprachen für Eingabetext-Prompts werden unterstützt:

  • Chinesisch (vereinfacht) (zh/zh-CN)
  • Chinesisch (traditionell) (zh-TW)
  • Englisch (en)
  • Hindi (hi)
  • Japanisch (ja)
  • Koreanisch (ko)
  • Portugiesisch (pt)
  • Spanisch (es)

Nächste Schritte

Imagen 3 in der Gemini API befindet sich in der Vorabversion. Wir halten Sie über den Status der Funktion auf dem Laufenden.