Bilderstellung

Sie können Bilder mit der Gemini API entweder mit den integrierten multimodalen Funktionen von Gemini oder mit Imagen, dem speziellen Bildgenerierungsmodell von Google, generieren. Für die meisten Anwendungsfälle sollten Sie mit Gemini beginnen. Wählen Sie Bilder für spezielle Aufgaben aus, bei denen die Bildqualität entscheidend ist. Weitere Informationen finden Sie im Abschnitt Richtiges Modell auswählen.

Alle generierten Bilder enthalten ein SynthID-Wasserzeichen.

Hinweis

Verwenden Sie ein unterstütztes Modell und eine unterstützte Version für die Bildgenerierung:

  • Verwenden Sie für Gemini die Bildgenerierung mit Gemini 2.0 Flash Preview.

  • Verwenden Sie für Imagen Imagen 3. Dieses Modell ist nur in der kostenpflichtigen Stufe verfügbar.

Sie können mit denselben Bibliotheken auf Gemini und Imagen 3 zugreifen.

Bilder mit Gemini generieren

Gemini kann Bilder in Unterhaltungen generieren und verarbeiten. Sie können Gemini mit Text, Bildern oder einer Kombination aus beiden auffordern, verschiedene bildbezogene Aufgaben auszuführen, z. B. Bilder zu generieren und zu bearbeiten.

Sie müssen responseModalities: ["TEXT", "IMAGE"] in Ihre Konfiguration aufnehmen. Die Ausgabe von reinen Bildern wird bei diesen Modellen nicht unterstützt.

Bildgenerierung (Text-zu-Bild)

Im folgenden Code wird gezeigt, wie ein Bild anhand eines beschreibenden Prompts generiert wird:

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import base64

client = genai.Client()

contents = ('Hi, can you create a 3d rendered image of a pig '
            'with wings and a top hat flying over a happy '
            'futuristic scifi city with lots of greenery?')

response = client.models.generate_content(
    model="gemini-2.0-flash-preview-image-generation",
    contents=contents,
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO((part.inline_data.data)))
    image.save('gemini-native-image.png')
    image.show()
import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const contents =
    "Hi, can you create a 3d rendered image of a pig " +
    "with wings and a top hat flying over a happy " +
    "futuristic scifi city with lots of greenery?";

  // Set responseModalities to include "Image" so the model can generate  an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-preview-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();
package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {

  ctx := context.Background()
  client, _ := genai.NewClient(ctx, &genai.ClientConfig{
      APIKey:  os.Getenv("GEMINI_API_KEY"),
      Backend: genai.BackendGeminiAPI,
  })

  config := &genai.GenerateContentConfig{
      ResponseModalities: []string{"TEXT", "IMAGE"},
  }

  result, _ := client.Models.GenerateContent(
      ctx,
      "gemini-2.0-flash-preview-image-generation",
      genai.Text("Hi, can you create a 3d rendered image of a pig " +
                 "with wings and a top hat flying over a happy " +
                 "futuristic scifi city with lots of greenery?"),
      config,
  )

  for _, part := range result.Candidates[0].Content.Parts {
      if part.Text != "" {
          fmt.Println(part.Text)
      } else if part.InlineData != nil {
          imageBytes := part.InlineData.Data
          outputFilename := "gemini_generated_image.png"
          _ = os.WriteFile(outputFilename, imageBytes, 0644)
      }
  }
}
curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image-generation:generateContent?key=$GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        {"text": "Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"}
      ]
    }],
    "generationConfig":{"responseModalities":["TEXT","IMAGE"]}
  }' \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-native-image.png
KI-generiertes Bild eines fantastischen fliegenden Schweins
KI-generiertes Bild eines fantastischen fliegenden Schweins

Bildbearbeitung (Text- und Bild-zu-Bild)

Wenn Sie ein Bild bearbeiten möchten, fügen Sie es als Eingabe hinzu. Im folgenden Beispiel wird das Hochladen base64-codierter Bilder veranschaulicht. Informationen zu mehreren Bildern und größeren Nutzlasten finden Sie im Abschnitt Bildeingabe.

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

import PIL.Image

image = PIL.Image.open('/path/to/image.png')

client = genai.Client()

text_input = ('Hi, This is a picture of me.'
            'Can you add a llama next to me?',)

response = client.models.generate_content(
    model="gemini-2.0-flash-preview-image-generation",
    contents=[text_input, image],
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))
    image.show()
import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  // Load the image from the local file system
  const imagePath = "path/to/image.png";
  const imageData = fs.readFileSync(imagePath);
  const base64Image = imageData.toString("base64");

  // Prepare the content parts
  const contents = [
    { text: "Can you add a llama next to the image?" },
    {
      inlineData: {
        mimeType: "image/png",
        data: base64Image,
      },
    },
  ];

  // Set responseModalities to include "Image" so the model can generate an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-preview-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();
package main

import (
 "context"
 "fmt"
 "os"
 "google.golang.org/genai"
)

func main() {

 ctx := context.Background()
 client, _ := genai.NewClient(ctx, &genai.ClientConfig{
     APIKey:  os.Getenv("GEMINI_API_KEY"),
     Backend: genai.BackendGeminiAPI,
 })

 imagePath := "/path/to/image.png"
 imgData, _ := os.ReadFile(imagePath)

 parts := []*genai.Part{
   genai.NewPartFromText("Hi, This is a picture of me. Can you add a llama next to me?"),
   &genai.Part{
     InlineData: &genai.Blob{
       MIMEType: "image/png",
       Data:     imgData,
     },
   },
 }

 contents := []*genai.Content{
   genai.NewContentFromParts(parts, genai.RoleUser),
 }

 config := &genai.GenerateContentConfig{
     ResponseModalities: []string{"TEXT", "IMAGE"},
 }

 result, _ := client.Models.GenerateContent(
     ctx,
     "gemini-2.0-flash-preview-image-generation",
     contents,
     config,
 )

 for _, part := range result.Candidates[0].Content.Parts {
     if part.Text != "" {
         fmt.Println(part.Text)
     } else if part.InlineData != nil {
         imageBytes := part.InlineData.Data
         outputFilename := "gemini_generated_image.png"
         _ = os.WriteFile(outputFilename, imageBytes, 0644)
     }
 }
}
IMG_PATH=/path/to/your/image1.jpeg

if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi

IMG_BASE64=$(base64 "$B64FLAGS" "$IMG_PATH" 2>&1)

curl -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image-generation:generateContent?key=$GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -d "{
      \"contents\": [{
        \"parts\":[
            {\"text\": \"'Hi, This is a picture of me. Can you add a llama next to me\"},
            {
              \"inline_data\": {
                \"mime_type\":\"image/jpeg\",
                \"data\": \"$IMG_BASE64\"
              }
            }
        ]
      }],
      \"generationConfig\": {\"responseModalities\": [\"TEXT\", \"IMAGE\"]}
    }"  \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-edited-image.png

Andere Modi für die Bildgenerierung

Gemini unterstützt andere Bildinteraktionsmodi, die auf der Promptstruktur und dem Kontext basieren, darunter:

  • Text in Bilder und Text (verschachtelt): Es werden Bilder mit zugehörigem Text ausgegeben.
    • Beispiel für einen Prompt: „Erstelle ein illustriertes Rezept für eine Paella.“
  • Bilder und Text in Bilder und Text (verschachtelt): Hier werden Eingabebilder und -text verwendet, um neue, ähnliche Bilder und Text zu erstellen.
    • Beispiel für einen Prompt: (Mit einem Bild eines eingerichteten Raums) „Welche anderen Sofas in anderen Farben würden in meinem Raum passen? Können Sie das Bild aktualisieren?“
  • Mehrere Bearbeitungsschritte für Bilder (Chat): Sie können in einer Unterhaltung fortlaufend Bilder generieren und bearbeiten.
    • Beispiel-Prompts: [Lade ein Bild eines blauen Autos hoch.] , „Mach dieses Auto zu einem Cabrio.“ „Ändern Sie jetzt die Farbe in Gelb.“

Beschränkungen

  • Die beste Leistung erzielen Sie mit den folgenden Sprachen: DE, es-MX, ja-JP, zh-CN, hi-IN.
  • Für die Bildgenerierung werden keine Audio- oder Videoeingaben unterstützt.
  • Die Bildgenerierung wird möglicherweise nicht immer ausgelöst:
    • Das Modell gibt möglicherweise nur Text aus. Fordern Sie explizit Bildausgaben an (z.B. „Bild generieren“, „Bilder nach und nach bereitstellen“, „Bild aktualisieren“).
    • Möglicherweise wird die Generierung durch das Modell vorzeitig beendet. Versuchen Sie es noch einmal oder verwenden Sie einen anderen Prompt.
  • Wenn Sie Text für ein Bild generieren, funktioniert Gemini am besten, wenn Sie zuerst den Text generieren und dann ein Bild mit dem Text anfordern.
  • In einigen Regionen und Ländern ist die Bildgenerierung nicht verfügbar. Weitere Informationen finden Sie unter Modelle.

Bilder mit Imagen 3 generieren

In diesem Beispiel wird gezeigt, wie Bilder mit Imagen 3 generiert werden:

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='Robot holding a red skateboard',
    config=types.GenerateImagesConfig(
        number_of_images= 4,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()
import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const response = await ai.models.generateImages({
    model: 'imagen-3.0-generate-002',
    prompt: 'Robot holding a red skateboard',
    config: {
      numberOfImages: 4,
    },
  });

  let idx = 1;
  for (const generatedImage of response.generatedImages) {
    let imgBytes = generatedImage.image.imageBytes;
    const buffer = Buffer.from(imgBytes, "base64");
    fs.writeFileSync(`imagen-${idx}.png`, buffer);
    idx++;
  }
}

main();
package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {

  ctx := context.Background()
  client, _ := genai.NewClient(ctx, &genai.ClientConfig{
      APIKey:  os.Getenv("GEMINI_API_KEY"),
      Backend: genai.BackendGeminiAPI,
  })

  config := &genai.GenerateImagesConfig{
      NumberOfImages: 4,
  }

  response, _ := client.Models.GenerateImages(
      ctx,
      "imagen-3.0-generate-002",
      "Robot holding a red skateboard",
      config,
  )

  for n, image := range response.GeneratedImages {
      fname := fmt.Sprintf("imagen-%d.png", n)
          _ = os.WriteFile(fname, image.Image.ImageBytes, 0644)
  }
}
curl -X POST \
    "https://generativelanguage.googleapis.com/v1beta/models/imagen-3.0-generate-002:predict?key=GEMINI_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
        "instances": [
          {
            "prompt": "Robot holding a red skateboard"
          }
        ],
        "parameters": {
          "sampleCount": 4
        }
      }'
KI-generiertes Bild eines Roboters, der ein rotes Skateboard hält
KI-generiertes Bild eines Roboters, der ein rotes Skateboard hält

Parameter des Imagen-Modells

Derzeit werden von Imagen nur Prompts auf Englisch und die folgenden Parameter unterstützt:

  • numberOfImages: Die Anzahl der zu generierenden Bilder (1 bis 4). Der Standardwert ist 4.
  • aspectRatio: Ändert das Seitenverhältnis des generierten Bildes. Unterstützte Werte sind "1:1", "3:4", "4:3", "9:16" und "16:9". Der Standardwert ist "1:1".
  • personGeneration: Dem Modell erlauben, Bilder von Personen zu generieren. Folgende Werte werden unterstützt:
    • "DONT_ALLOW": Generierung von Bildern von Personen blockieren.
    • "ALLOW_ADULT": Bilder von Erwachsenen, aber nicht von Kindern generieren. Das ist die Standardeinstellung.

Das richtige Modell auswählen

Wählen Sie Gemini aus, wenn:

  • Sie benötigen kontextbezogene Bilder, die Weltwissen und Logik nutzen.
  • Text und Bilder müssen nahtlos ineinander übergehen.
  • Sie möchten präzise visuelle Elemente in lange Textfolgen einbetten.
  • Sie möchten Bilder in einer Unterhaltung bearbeiten und dabei den Kontext beibehalten.

Wählen Sie Imagen 3 aus, wenn:

  • Bildqualität, Fotorealismus, künstlerische Details oder bestimmte Stile (z.B. Impressionismus, Anime) haben oberste Priorität.
  • Spezielle Bearbeitungsaufgaben wie Aktualisierungen des Produkthintergrunds oder Bildvergrößerungen ausführen.
  • Branding, Stil oder Logos und Produktdesigns einfließen lassen

Imagen-Prompt-Anleitung

In diesem Abschnitt des Imagen-Leitfadens erfahren Sie, wie sich durch die Änderung eines Text-zu-Bild-Prompts unterschiedliche Ergebnisse erzielen lassen. Außerdem finden Sie Beispiele für Bilder, die Sie erstellen können.

Grundlagen zum Schreiben von Prompts

Ein guter Prompt ist beschreibend und klar und verwendet aussagekräftige Keywords und Modifikatoren. Überlegen Sie zuerst, was das Motiv, der Kontext und der Stil sein soll.

Eingabeaufforderung mit Akzent auf Motiv, Kontext und Stil
Bildtext: Eine Skizze (Stil) eines modernen Wohngebäudes (Motiv) umgeben von Wolkenkratzern (Kontext und Hintergrund).
  1. Thema: Das Erste, woran Sie bei jeder Eingabeaufforderung denken müssen, ist das Motiv. Das Objekt, eine Person, ein Tier oder eine Landschaft, von der Sie ein Bild möchten.

  2. Kontext und Hintergrund: Ebenso wichtig ist der Hintergrund oder Kontext, in dem das Motiv platziert wird. Platzieren Sie das Motiv vor verschiedenen Hintergründen. Zum Beispiel ein Studio mit weißem Hintergrund, im Freien oder in Gebäuden.

  3. Stil: Fügen Sie abschließend den Stil des gewünschten Bildes hinzu. Stile können allgemein (Malerei, Fotografie, Skizzen) oder sehr spezifisch sein (Pastel, Kohlezeichnung, isometrische 3D-Perspektive). Sie können auch verschiedene Stile kombinieren.

Nachdem Sie eine erste Version des Prompts geschrieben haben, können Sie ihn verfeinern, indem Sie weitere Details hinzufügen, bis Sie das gewünschte Bild erhalten. Iteration ist wichtig. Beginnen Sie mit der Hauptidee und verfeinern und erweitern Sie diese, bis das generierte Bild Ihrer Vision entspricht.

Fotorealistisches Beispielbild 1
Prompt: Ein Park im Frühling neben einem See
Fotorealistisches Beispielbild 2
Prompt: Ein Park im Frühling neben einem See, die Sonne geht über dem See unter, goldene Stunde
Fotorealistisches Beispielbild 3
Prompt: Ein Park im Frühling neben einem See, die Sonne geht über dem See unter, goldene Stunde, rote Wildblumen

Mit Imagen 3 können Sie Ihre Ideen in detaillierte Bilder verwandeln, unabhängig davon, ob Ihre Prompts kurz oder lang und detailliert sind. Optimieren Sie Ihre Vision durch iterative Aufforderungen und fügen Sie Details hinzu, bis Sie das perfekte Ergebnis erzielen.

Mit kurzen Prompts können Sie schnell ein Bild generieren.

Beispiel für eine kurze Prompt-Textzeile für Imagen 3
Prompt: Nahaufnahme einer Frau in ihren 20ern, Straßenfotografie, Filmstill, gedeckte warme Orangetöne

Bei längeren Prompts können Sie bestimmte Details hinzufügen und Ihr Bild gestalten.

Beispiel für einen langen Prompt in Imagen 3
Prompt: Beeindruckendes Foto einer Frau in ihren 20ern, das einen Straßenfotografie-Stil verwendet. Das Bild sollte wie ein Standfoto mit gedeckten, orangefarbenen, warmen Tönen aussehen.

Weitere Tipps zum Verfassen von Prompts für Imagen:

  • Verwenden Sie eine beschreibende Sprache: Verwenden Sie detaillierte Adjektive und Adverbien, um ein klares Bild von Bild 3 zu zeichnen.
  • Kontext angeben: Geben Sie bei Bedarf Hintergrundinformationen an, damit die KI besser versteht, worum es geht.
  • Beziehen Sie sich auf bestimmte Künstler oder Stile: Wenn Sie eine bestimmte Ästhetik im Sinn haben, kann es hilfreich sein, sich auf bestimmte Künstler oder Kunstbewegungen zu beziehen.
  • Tools für Prompt Engineering verwenden: Es gibt Tools oder Ressourcen für Prompt Engineering, mit denen Sie Ihre Prompts optimieren und optimale Ergebnisse erzielen können.
  • Gesichtsdetails in Ihren persönlichen und Gruppenbildern hervorheben: Legen Sie Gesichtsdetails als Schwerpunkt des Fotos fest (verwenden Sie beispielsweise das Wort „Porträt“ im Prompt).

Text in Bildern generieren

Mit Imagen können Sie Text in Bilder einfügen und so noch kreativer Bilder erstellen. Mit den folgenden Tipps können Sie diese Funktion optimal nutzen:

  • Mit Zuversicht iterieren: Möglicherweise müssen Sie Bilder so lange neu generieren, bis Sie den gewünschten Look erhalten. Die Textintegration von Imagen befindet sich noch in der Entwicklungsphase und manchmal erzielen mehrere Versuche die besten Ergebnisse.
  • Kurz halten: Beschränken Sie den Text auf maximal 25 Zeichen, um eine optimale Generierung zu ermöglichen.
  • Mehrere Wortgruppen: Testen Sie zwei oder drei verschiedene Wortgruppen, um zusätzliche Informationen bereitzustellen. Verwenden Sie nicht mehr als drei Wortgruppen, um die Komposition übersichtlicher zu gestalten.

    Beispiel für die Textgenerierung mit Imagen 3
    Aufgabe: Ein Poster mit dem Titel „Summerland“ in fett gedruckter Schrift. Darunter steht der Slogan „Summer never felt so good“ (Sommer war noch nie so schön).
  • Platzierungsanleitung: Imagen kann versuchen, Text wie gewünscht zu positionieren. Gelegentlich kann es jedoch zu Abweichungen kommen. Diese Funktion wird kontinuierlich verbessert.

  • Inspire font style (Inspiration für Schriftstil): Geben Sie einen allgemeinen Schriftstil an, um die Auswahl von Imagen subtil zu beeinflussen. Verlassen Sie sich nicht auf eine genaue Schriftwiedergabe, sondern rechnen Sie mit kreativen Interpretationen.

  • Schriftgröße: Geben Sie eine Schriftgröße oder eine allgemeine Größenangabe an (z. B. klein, mittel, groß), um die Schriftgröße zu beeinflussen.

Prompt-Parametrisierung

Um die Ausgabeergebnisse besser zu steuern, kann es hilfreich sein, die Eingaben in Imagen zu parametrisieren. Angenommen, Sie möchten, dass Ihre Kunden Logos für ihr Unternehmen erstellen können, und Sie möchten dafür sorgen, dass die Logos immer auf einem einfarbigen Hintergrund generiert werden. Außerdem möchten Sie die Optionen einschränken, die der Kunde in einem Menü auswählen kann.

In diesem Beispiel können Sie einen parametrisierten Prompt wie den folgenden erstellen:

A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.

In Ihrer benutzerdefinierten Benutzeroberfläche kann der Kunde die Parameter über ein Menü eingeben. Der ausgewählte Wert wird dann in den Prompt eingefügt, den Imagen erhält.

Beispiel:

  1. Prompt: A minimalist logo for a health care company on a solid color background. Include the text Journey.

    Beispiel 1 für die Parametrisierung von Prompts in Imagen 3

  2. Prompt: A modern logo for a software company on a solid color background. Include the text Silo.

    Beispiel 2 für die Parameterisierung von Prompts in Imagen 3

  3. Prompt: A traditional logo for a baking company on a solid color background. Include the text Seed.

    Beispiel 3 für die Parameterisierung von Prompts in Imagen 3

Erweiterte Techniken zum Schreiben von Eingabeaufforderungen

Anhand der folgenden Beispiele können Sie anhand von Attributen wie Bilddeskriptoren, Formen und Materialien, historischen Kunstbewegungen und Bildqualitätsmodifikatoren spezifischere Aufforderungen erstellen.

Fotografie

  • Eingabeaufforderung enthält: „Ein Foto von...”

Um diesen Stil zu verwenden, beginnen Sie mit der Verwendung von Keywords, die Imagen klar mitteilen, dass Sie nach einem Foto suchen. Starten Sie die Eingabeaufforderungen mit „Ein Foto von. . .”. Beispiel:

Fotorealistisches Beispielbild 1
Eingabeaufforderung: Ein Foto von
Kaffeebohnen auf einer Holzoberfläche in einer Küche
Fotorealistisches Beispielbild 2
Eingabeaufforderung: Ein Foto von
einer Schokolade auf einem Küchentresen.
Fotorealistisches Beispielbild 3
Prompt: Ein Foto eines modernen Gebäudes mit Wasser im Hintergrund

Bildquelle: Jedes Bild wurde mit dem Imagen 3-Modell anhand des entsprechenden Text-Prompts generiert.

Fotografische Modifikatotionen

In den folgenden Beispielen sehen Sie mehrere fotospezifische Modifikatoren und Parameter. Sie können mehrere Modifikatoren kombinieren, um die Steuerung zu präzisieren.

  1. Kameranähe: aus der Nähe, von weit weg

    Beispiel für Bild aus der Nähe
    Eingabeaufforderung: Ein Nahaufnahme von Kaffeebohnen
    Beispiel für herausgezoomtes Bild
    Eingabeaufforderung: Ein herangezoomtes Foto einer kleinen Tüte mit
    Kaffeebohnen in einer unordentlichen Küche

  2. Kameraposition: Luftaufnahme, von unten

    Beispielbild für Luftaufnahme
    Eingabeaufforderung: Luftaufnahme einer Stadt mit Wolkenkratzern
    Beispielbild von unten
    Eingabeaufforderung: Ein Foto eines Waldstamms mit blauem Himmel von unten
  3. Beleuchtung: natürlich, dramatisch, warm, kalt

    Beispielbild für natürliche Beleuchtung
    Eingabeaufforderung: Studiofoto eines modernen Sessels, natürliche Beleuchtung
    Beispielbild für dramatische Beleuchtung
    Eingabeaufforderung: Studiofoto eines modernen Sessels, dramatische Beleuchtung
  4. Kameraeinstellungen: Bewegungsunschärfe, Weichzeichnung, Bokeh, Hochformat

    Beispielbild für Bewegungsunschärfe
    Eingabeaufforderung: Foto einer Stadt mit Wolkenkratzern aus dem Innern eines Autos mit Bewegungsunschärfe
    Beispielbild für Weichzeichnung
    Prompt: Weichzeichnerisches Foto einer Brücke in einer Stadt bei Nacht
  5. Objektive: 35 mm, 50 mm, Fischauge, Weitwinkel, Makro

    Beispielbild für Makro
    Eingabeaufforderung: Foto eines Blattes, Makroobjektiv
    Beispielbild für Fischaugenobjektiv
    Eingabeaufforderung: Straßenfotografie, New York City, Fischaugenobjektiv
  6. Filmtypen: Schwarz-Weiß, Polaroid

    Beispielbild für Polaroid
    Prompt: Ein Polaroid-Hochformatbild eines Hundes mit Sonnenbrille
    Beispielbild für Schwarz-Weiß-Foto
    Prompt: Schwarz-Weiß-Foto eines Hundes mit Sonnenbrille

Bildquelle: Jedes Bild wurde mit dem Imagen 3-Modell anhand des entsprechenden Text-Prompts generiert.

Illustration und Kunst

  • Eingabeaufforderung enthält: „Eine painting von...”, „Eine sketch von...”

Die Stile variieren von monochromen Stilen wie Bleistift bis hin zu hyperrealistischer digitaler Kunst. Die folgenden Bilder verwenden beispielsweise dieselbe Eingabeaufforderung mit unterschiedlichen Stilen:

„Eine [art style or creation technique] einer kantigen sportlichen elektrischen Limousine mit Wolkenkratzern im Hintergrund“

Beispielbilder für Kunst
Aufgabe: Eine technische Bleistiftskizze eines kantigen...
Beispielbilder für Kunst
Eingabeaufforderung: Eine Kohlezeichnung eines kantigen...
Beispielbilder für Kunst
Eingabeaufforderung: Eine Farbstiftzeichnung eines kantigen...
Beispielbilder für Kunst
Prompt: Ein Pastelbild eines kantigen...
Beispielbilder für Kunst
Prompt: Ein digitales Kunstwerk eines kantigen...
Beispielbilder für Kunst
Eingabeaufforderung: Ein Art-dèco-Poster eines kantigen...

Bildquelle: Jedes Bild wurde mit dem Imagen 2-Modell anhand des entsprechenden Text-Prompts generiert.

Formen und Materialien
  • Eingabeaufforderung: „...aus...”, „...in Form von...”

Eine der Stärken dieser Technologie ist, dass Sie Bilder erstellen können, die andernfalls schwer oder unmöglich wären. Sie können beispielsweise Ihr Firmenlogo in verschiedenen Materialien und Texturen neu erstellen.

Beispielbild 1 für Formen und Materialien
Eingabeaufforderung: Duffle Bag aus Käse
Beispielbild 2 für Formen und Materialien
Prompt: Neonröhren in Form eines Vogels
Beispielbild 3 für Formen und Materialien
Eingabeaufforderung: Ein Sessel aus Papier, Studiofoto, Origami-Stil

Bildquelle: Jedes Bild wurde mit dem Imagen 3-Modell anhand des entsprechenden Text-Prompts generiert.

Bezüge auf historische Kunst

  • Eingabeaufforderung: „...im Stil von...”

Bestimmte Stile haben sich im Laufe der Jahre zu einem Mythos entwickelt. Im Folgenden finden Sie einige Ideen für historische Gemälde oder Kunststile, die Sie ausprobieren können.

„Erstelle ein Bild im Stil von [art period or movement] : Ein Windpark“

Beispielbild für Impressionsismus
Prompt: Bild im Stil eines impressionistischen Gemäldes generieren: ein Windpark
Beispielbild für Renaissance
Prompt: Bild im Stil eines Renaissancegemäldes generieren: ein Windpark
Beispielbild für Pop Art
Aufgabe: Erstellen Sie ein Bild im Stil der Pop-Art: ein Windpark

Bildquelle: Jedes Bild wurde mit dem Imagen 3-Modell anhand des entsprechenden Text-Prompts generiert.

Modifikatoren für die Bildqualität

Bestimmte Keywords können dem Modell mitteilen, dass Sie nach einem qualitativ hochwertigen Bild suchen. Beispiele für Qualitätsmodifikatoren:

  • Allgemeine Modifikatoren: hohe Qualität, ansprechend, stilisiert
  • Fotos: 4K, HDR, Studiofoto
  • Kunst, Illustration: von einem Profi, detailliert

Im Folgenden finden Sie einige Beispiele für Eingabeaufforderungen ohne Qualitätsmodifikatoren und die gleiche Aufforderung mit Qualitätsmodifikatoren.

Getreide-Beispielbild ohne Modifikatoren
Eingabeaufforderung (keine Qualitätsmodifikatoren): Ein Foto von einem Getreidehalm
Getreide-Beispielbild mit Modifikatoren
Eingabeaufforderung (mit Qualitätsmodifikatoren): Schönes 4K-
Foto eines Getreidehalms von einem
Profi-Fotografen aufgenommen

Bildquelle: Jedes Bild wurde mit dem Imagen 3-Modell anhand des entsprechenden Text-Prompts generiert.

Seitenverhältnisse

Mit der Imagen 3-Bildgenerierung können Sie fünf verschiedene Bild-Seitenverhältnisse festlegen.

  1. Quadrat (1:1, Standard) - Ein quadratisches Standardfoto. Typische Anwendungsfälle für dieses Seitenverhältnis sind Beiträge in sozialen Medien.
  2. Vollbild (4:3) - Dieses Seitenverhältnis wird häufig in Medien oder in Filmen verwendet. Es bezeichnet auch die Abmessungen der meisten alten (Nicht-Breitbild-)Fernseher und Mittelformatkameras. Es erfasst horizontal mehr von der Szene (im Vergleich zu 1:1), dadurch gehört es zu den bevorzugten Seitenverhältnissen für die Fotografie.

    Seitenverhältnis-Beispiel
    Prompt: Nahaufnahme der Finger eines Musikers, der Klavier spielt, Schwarz-Weiß-Film, Vintage (Seitenverhältnis 4:3)
    Seitenverhältnis-Beispiel
    Prompt: Ein professionelles Studiofoto von Pommes Frites für ein High-End-Restaurant im Stil einer Lebensmittelzeitschrift (Seitenverhältnis 4:3).
  3. Vollbild-Vollbild (3:4) – Dies ist das um 90 Grad gedrehte Vollbild-Seitenverhältnis. So kann vertikal im Vergleich zum Seitenverhältnis 1:1 mehr von der Szene erfasst werden.

    Seitenverhältnis-Beispiel
    Prompt: Eine Frau wandert, Nahaufnahme ihrer Stiefel, die sich in einer Pfütze spiegeln, große Berge im Hintergrund, im Stil einer Werbung, dramatische Blickwinkel (Seitenverhältnis 3:4)
    Seitenverhältnis-Beispiel
    Prompt: Luftaufnahme eines Flusses, der in einem mystischen Tal fließt (Seitenverhältnis 3:4)
  4. Breitbild (16:9): Dieses Seitenverhältnis hat 4:3 ersetzt und ist heute das gängigste Seitenverhältnis für Fernseher, Monitore und Bildschirme von Smartphones (Querformat). Verwenden Sie dieses Seitenverhältnis, wenn Sie mehr vom Hintergrund erfassen möchten (z. B. malerische Landschaften).

    Seitenverhältnis-Beispiel
    Prompt: Ein Mann ganz in weißer Kleidung, der am Strand sitzt, Nahaufnahme, Lichtverhältnisse einer goldenen Stunde (Seitenverhältnis 16:9)
  5. Hochformat (9:16): Dieses Seitenverhältnis entspricht dem Breitbild, aber gedreht. Dabei handelt es sich um ein relativ neues Seitenverhältnis, das in Kurzvideo-Apps beliebt ist (z. B. YouTube Shorts). Verwenden Sie es für hohe Objekte mit stark vertikalen Ausrichtungen wie Gebäude, Bäume, Wasserfälle oder ähnliche Objekte.

    Seitenverhältnis-Beispiel
    Prompt: ein digitales Rendering eines riesigen Wolkenkratzers, modern, groß, monumental, mit einem schönen Sonnenuntergang im Hintergrund (Seitenverhältnis 9:16)

Fotorealistische Bilder

Verschiedene Versionen des Bildgenerierungsmodells können eine Mischung aus künstlerischer und fotorealistischer Ausgabe bieten. Verwenden Sie die folgende Formulierung in Prompts, um je nach dem zu generierenden Thema eine fotorealistischere Ausgabe zu generieren.

Anwendungsfall Linsentyp Brennweiten Weitere Informationen
Personen (Hochformat) Prime, Zoom 24-35mm Schwarz-Weiß-Film, Film Noir, Tiefenschärfe, Duotone (erwähnt zwei Farben)
Essen, Insekten, Pflanzen (Objekte, Stilleben) Makro 60-105mm Hohe Details, präzise Fokussierung, kontrollierte Beleuchtung
Sport, Tiere (Bewegung) Telefotozoom 100-400mm Schnelle Belichtungszeit, Aktions- oder Bewegungsverfolgung
Astronomie, Querformat (Weitwinkel) Weitwinkel 10-24mm Langzeitbelichtung, scharfe Fokussierung, Langzeitbelichtung, glattes Wasser oder Wolken
Porträts
Anwendungsfall Linsentyp Brennweiten Weitere Informationen
Personen (Hochformat) Prime, Zoom 24-35mm Schwarz-Weiß-Film, Film Noir, Tiefenschärfe, Duotone (erwähnt zwei Farben)

Mit mehreren Suchbegriffen aus der Tabelle kann Imagen die folgenden Porträts generieren:

Beispiel für Porträtfotos Beispiel für Porträtfotos Beispiel für Porträtfotos Beispiel für Porträtfotos

Prompt: Eine Frau, 35-mm-Porträt, blaue und graue Duotones
Modell: imagen-3.0-generate-002

Beispiel für Porträtfotos Beispiel für Porträtfotos Beispiel für Porträtfotos Beispiel für Porträtfotos

Eingabeaufforderung: Eine Frau, 35-mm-Porträt, Film Noir
Modell: imagen-3.0-generate-002

Objekte
Anwendungsfall Linsentyp Brennweiten Weitere Informationen
Essen, Insekten, Pflanzen (Objekte, Stilleben) Makro 60-105mm Hohe Details, präzise Fokussierung, kontrollierte Beleuchtung

Mit mehreren Suchbegriffen aus der Tabelle kann Imagen die folgenden Objektbilder generieren:

Beispiel für Objektfotografie Beispiel für Objektfotografie Beispiel für Objektfotografie Beispiel für Objektfotografie

Prompt: Blatt einer Gebetspflanze, Makroobjektiv, 60 mm
Modell: imagen-3.0-generate-002

Beispiel für Objektfotografie Beispiel für Objektfotografie Beispiel für Objektfotografie Beispiel für Objektfotografie

Eingabeaufforderung: Nudeln auf einem Teller, 100-mm-Makroobjektiv
Modell: imagen-3.0-generate-002

Bewegung
Anwendungsfall Linsentyp Brennweiten Weitere Informationen
Sport, Tiere (Bewegung) Telefotozoom 100-400mm Schnelle Belichtungszeit, Aktions- oder Bewegungsverfolgung

Mit mehreren Suchbegriffen aus der Tabelle kann Imagen die folgenden Bewegungsbilder generieren:

Beispiel für Fotos mit Bewegtbild Beispiel für Fotos mit Bewegtbild Beispiel für Fotos mit Bewegtbild Beispiel für Fotos mit Bewegtbild

Eingabeaufforderung: Erfolgreicher Touchdown, schnelle Belichtungszeit, Bewegungsverfolgung
Modell: imagen-3.0-generate-002

Beispiel für Fotos mit Bewegtbild Beispiel für Fotos mit Bewegtbild Beispiel für Fotos mit Bewegtbild Beispiel für Fotos mit Bewegtbild

Eingabeaufforderung: Ein Reh läuft im Wald, schnelle Belichtungszeit, Bewegungsverfolgung
Modell: imagen-3.0-generate-002

Weitwinkel
Anwendungsfall Linsentyp Brennweiten Weitere Informationen
Astronomie, Querformat (Weitwinkel) Weitwinkel 10-24mm Langzeitbelichtung, scharfe Fokussierung, Langzeitbelichtung, glattes Wasser oder Wolken

Mit mehreren Suchbegriffen aus der Tabelle kann Imagen die folgenden Weitwinkelbilder generieren:

Beispiel für Weitwinkelfotografie Beispiel für Weitwinkelfotografie Beispiel für Weitwinkelfotografie Beispiel für Weitwinkelfotografie

Eingabeaufforderung: Großer Bergbereich, Querwinkel 10 mm
Modell: imagen-3.0-generate-002

Beispiel für Weitwinkelfotografie Beispiel für Weitwinkelfotografie Beispiel für Weitwinkelfotografie Beispiel für Weitwinkelfotografie

Prompt: ein Foto des Mondes, Astrofotografie, Weitwinkel 10 mm
Modell: imagen-3.0-generate-002

Nächste Schritte