Die Gemini API bietet Zugriff auf Bild 3, die hochmodernes Modell zur Bildgenerierung. Mit Imagen können Sie neue Bilder aus Text-Prompts generieren. Die Integration der Gemini API mit Imagen soll Ihnen dabei helfen, KI-Anwendungen der nächsten Generation zu entwickeln, die Nutzerprompts in Sekundenschnelle in hochwertige visuelle Assets umwandeln.
In diesem Leitfaden erfahren Sie, wie Sie mit dem Python SDK der Gemini API loslegen.
Imagen 3
Bild 3 ist das qualitativ hochwertigste Text-zu-Bild-Modell von Google mit einer Reihe von neuen und verbesserten Funktionen. Image 3 kann Folgendes tun:
- Du kannst Bilder mit mehr Details, intensiverer Beleuchtung und weniger Ablenkungen erstellen Artefakte als bei früheren Modellen.
- Sie können Prompts in natürlicher, alltäglicher Sprache verstehen, was es einfacher macht, ohne komplexe Prompt-Entwicklung eine passende Ausgabe zu generieren.
- Sie können Bilder in vielen verschiedenen Formaten und Stilen erstellen – von fotorealistischen Landschaften, Ölgemälde mit hoher Struktur oder skurrile Klängenszenen.
- Das Rendern von Text im Vergleich zu früheren Modellen, wodurch neue Möglichkeiten eröffnet werden Möglichkeiten für Anwendungsfälle wie stilisierte Geburtstagskarten, Präsentationen und mehr.
Imagen 3 wurde mit den neuesten Innovationen von Google in den Bereichen Sicherheit und Verantwortung entwickelt – von der Daten- und Modellentwicklung bis hin zur Produktion. Das Google DeepMind-Team nutzte Umfangreiche Filterung und Daten-Labeling zur Minimierung schädlicher Inhalte in Datasets und die Wahrscheinlichkeit schädlicher Ausgaben zu verringern. Außerdem führte das Team Bewertungen zu Themen wie Fairness, Voreingenommenheit und Inhaltssicherheit durch.
Weitere Informationen und Beispielausgaben finden Sie in der Übersicht zu Google DeepMind Imagen 3.
Hinweis: Projekt und API-Schlüssel einrichten
pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen
Bevor Sie die Gemini API aufrufen, müssen Sie Ihr Projekt einrichten und konfigurieren Ihren API-Schlüssel.
Bilder erstellen
In diesem Abschnitt erfahren Sie, wie Sie ein Imagen-Modell instanziieren und Bilder generieren.
Um den Beispielcode auszuführen, müssen Sie zuerst Pillow installieren:
pip install --upgrade Pillow
Nachdem Sie Pillow und das Python SDK installiert haben, können Sie mit dem folgenden Code Bilder generieren:
import os
import google.generativeai as genai
genai.configure(api_key=os.environ['API_KEY'])
imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")
result = imagen.generate_images(
prompt="Fuzzy bunnies in my kitchen",
number_of_images=4,
safety_filter_level="block_only_high",
person_generation="allow_adult",
aspect_ratio="3:4",
negative_prompt="Outside",
)
for image in result.images:
print(image)
# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>
for image in result.images:
# Open and display the image using your local operating system.
image._pil_image.show()
Das Notebook sollte vier Bilder anzeigen, die diesem ähneln:
Imagen-Modellparameter
Die folgenden Parameter sind für generate_images()
verfügbar:
prompt
: Der Text-Prompt für das Bild.negative_prompt
: Eine Beschreibung dessen, was im generierten Bilder. Die Standardeinstellung ist keiner.Stellen Sie sich z. B. die Aufforderung „eine verregnete Straße in der Stadt ohne Personen“. Das Modell könnte „Personen“ als Anweisung dafür verwenden, was eingeschlossen werden soll, statt als was weggelassen werden soll. Wenn Sie bessere Ergebnisse erzielen möchten, können Sie den Prompt „Verregnete Stadt in der Nacht“ mit dem negativen Prompt „Personen“ verwenden.
number_of_images
: Die Anzahl der zu generierenden Bilder (1 bis 4). Der Standardwert ist 4.aspect_ratio
: Ändert das Seitenverhältnis des generierten Bildes. Unterstützt Werte sind"1:1"
,"3:4"
,"4:3"
,"9:16"
und"16:9"
. Der Standardwert ist"1:1"
safety_filter_level
: Fügt dem Sicherheitsfilter eine Filterstufe hinzu. Die folgenden Werte sind gültig:"block_low_and_above"
: Sperren, wenn der Wahrscheinlichkeitswert oder der Schweregrad Punktzahl istLOW
,MEDIUM
oderHIGH
."block_medium_and_above"
: Sperren, wenn der Wahrscheinlichkeitswert oder der Schweregrad PunkteMEDIUM
oderHIGH
."block_only_high"
: Blockieren, wenn der Wahrscheinlichkeitswert oder der Schweregradwert angegeben ist istHIGH
.
person_generation
: Dem Modell erlauben, Bilder von Personen zu generieren. Die folgende Werte werden unterstützt:"dont_allow"
: Erstellung von Bildern von Personen blockieren."allow_adult"
: Bilder von Erwachsenen generieren, aber keine Kinder.
Nächste Schritte
Image 3 in der Gemini API befindet sich in der Early-Access-Phase. Wir halten Sie über Ankündigungen zu den Status der Funktion.