Ta strona została przetłumaczona przez Cloud Translation API.

Generowanie obrazów

Obrazy możesz generować za pomocą interfejsu Gemini API, korzystając z wbudowanych funkcji multimodalnych Gemini lub z modelu Imagen, czyli wyspecjalizowanego modelu generowania obrazów od Google. W większości przypadków zacznij od Gemini. Wybierz Imagen do specjalistycznych zadań, w których przypadku jakość obrazu ma kluczowe znaczenie. Więcej wskazówek znajdziesz w sekcji Wybieranie odpowiedniego modelu.

Wszystkie wygenerowane obrazy zawierają znak wodny SynthID.

Zanim zaczniesz

Upewnij się, że do generowania obrazów używasz obsługiwanego modelu i wersji:

W przypadku Gemini użyj opcji generowania obrazów do podglądu w Gemini 2.0 Flash.
W przypadku Imagen użyj Imagen 3. Pamiętaj, że ten model jest dostępny tylko w wersji płatnej.

Możesz uzyskać dostęp do Gemini i Imagen 3, korzystając z tych samych bibliotek.

Generowanie obrazów za pomocą Gemini

Gemini może generować i przetwarzać obrazy w ramach rozmowy. Aby wykonywać różne zadania związane z obrazami, takie jak generowanie i edytowanie obrazów, możesz podać Gemini prompt w postaci tekstu, obrazów lub ich kombinacji.

W konfiguracji musisz uwzględnić responseModalities: ["TEXT", "IMAGE"]. Te modele nie obsługują danych wyjściowych w postaci tylko obrazu.

generowanie obrazów (tekst na obraz);

Ten kod pokazuje, jak wygenerować obraz na podstawie promptu opisowego:

PythonJavaScriptPrzeczytajREST

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import base64

client = genai.Client()

contents = ('Hi, can you create a 3d rendered image of a pig '
            'with wings and a top hat flying over a happy '
            'futuristic scifi city with lots of greenery?')

response = client.models.generate_content(
    model="gemini-2.0-flash-preview-image-generation",
    contents=contents,
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO((part.inline_data.data)))
    image.save('gemini-native-image.png')
    image.show()

import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const contents =
    "Hi, can you create a 3d rendered image of a pig " +
    "with wings and a top hat flying over a happy " +
    "futuristic scifi city with lots of greenery?";

  // Set responseModalities to include "Image" so the model can generate  an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-preview-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();

package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {

  ctx := context.Background()
  client, _ := genai.NewClient(ctx, &genai.ClientConfig{
      APIKey:  os.Getenv("GEMINI_API_KEY"),
      Backend: genai.BackendGeminiAPI,
  })

  config := &genai.GenerateContentConfig{
      ResponseModalities: []string{"TEXT", "IMAGE"},
  }

  result, _ := client.Models.GenerateContent(
      ctx,
      "gemini-2.0-flash-preview-image-generation",
      genai.Text("Hi, can you create a 3d rendered image of a pig " +
                 "with wings and a top hat flying over a happy " +
                 "futuristic scifi city with lots of greenery?"),
      config,
  )

  for _, part := range result.Candidates[0].Content.Parts {
      if part.Text != "" {
          fmt.Println(part.Text)
      } else if part.InlineData != nil {
          imageBytes := part.InlineData.Data
          outputFilename := "gemini_generated_image.png"
          _ = os.WriteFile(outputFilename, imageBytes, 0644)
      }
  }
}

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image-generation:generateContent?key=$GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        {"text": "Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"}
      ]
    }],
    "generationConfig":{"responseModalities":["TEXT","IMAGE"]}
  }' \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-native-image.png

Obraz latającego świni wygenerowany przez AI — Obraz wygenerowany przez AI przedstawiający fantastyczne latające świnie

Edytowanie obrazów (tekst i przekształcanie obrazu)

Aby edytować obraz, dodaj obraz jako dane wejściowe. W tym przykładzie pokazano przesyłanie obrazów zakodowanych w formacie Base64. W przypadku wielu obrazów i większych zasobów danych zapoznaj się z sekcją Podawanie obrazów.

PythonJavaScriptPrzeczytajREST

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

import PIL.Image

image = PIL.Image.open('/path/to/image.png')

client = genai.Client()

text_input = ('Hi, This is a picture of me.'
            'Can you add a llama next to me?',)

response = client.models.generate_content(
    model="gemini-2.0-flash-preview-image-generation",
    contents=[text_input, image],
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))
    image.show()

import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  // Load the image from the local file system
  const imagePath = "path/to/image.png";
  const imageData = fs.readFileSync(imagePath);
  const base64Image = imageData.toString("base64");

  // Prepare the content parts
  const contents = [
    { text: "Can you add a llama next to the image?" },
    {
      inlineData: {
        mimeType: "image/png",
        data: base64Image,
      },
    },
  ];

  // Set responseModalities to include "Image" so the model can generate an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-preview-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();

package main

import (
 "context"
 "fmt"
 "os"
 "google.golang.org/genai"
)

func main() {

 ctx := context.Background()
 client, _ := genai.NewClient(ctx, &genai.ClientConfig{
     APIKey:  os.Getenv("GEMINI_API_KEY"),
     Backend: genai.BackendGeminiAPI,
 })

 imagePath := "/path/to/image.png"
 imgData, _ := os.ReadFile(imagePath)

 parts := []*genai.Part{
   genai.NewPartFromText("Hi, This is a picture of me. Can you add a llama next to me?"),
   &genai.Part{
     InlineData: &genai.Blob{
       MIMEType: "image/png",
       Data:     imgData,
     },
   },
 }

 contents := []*genai.Content{
   genai.NewContentFromParts(parts, genai.RoleUser),
 }

 config := &genai.GenerateContentConfig{
     ResponseModalities: []string{"TEXT", "IMAGE"},
 }

 result, _ := client.Models.GenerateContent(
     ctx,
     "gemini-2.0-flash-preview-image-generation",
     contents,
     config,
 )

 for _, part := range result.Candidates[0].Content.Parts {
     if part.Text != "" {
         fmt.Println(part.Text)
     } else if part.InlineData != nil {
         imageBytes := part.InlineData.Data
         outputFilename := "gemini_generated_image.png"
         _ = os.WriteFile(outputFilename, imageBytes, 0644)
     }
 }
}

IMG_PATH=/path/to/your/image1.jpeg

if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi

IMG_BASE64=$(base64 "$B64FLAGS" "$IMG_PATH" 2>&1)

curl -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image-generation:generateContent?key=$GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -d "{
      \"contents\": [{
        \"parts\":[
            {\"text\": \"'Hi, This is a picture of me. Can you add a llama next to me\"},
            {
              \"inline_data\": {
                \"mime_type\":\"image/jpeg\",
                \"data\": \"$IMG_BASE64\"
              }
            }
        ]
      }],
      \"generationConfig\": {\"responseModalities\": [\"TEXT\", \"IMAGE\"]}
    }"  \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-edited-image.png

Inne tryby generowania obrazów

Gemini obsługuje inne tryby interakcji z obrazem na podstawie struktury promptu i kontekstu, w tym:

Tekst na obrazy i tekst (przeplatany): generuje obrazy z powiązanym tekstem.
- Przykład promptu: „Wygeneruj ilustrowany przepis na paellę”.
Obrazy i tekst na obrazy i tekst (przeplatany): na podstawie podanych obrazów i tekstu tworzy nowe powiązane obrazy i tekst.
- Przykład promptu: (z obrazem umeblowanego pokoju) „Jaki kolor sofy pasowałby do mojego pokoju? Czy możesz zaktualizować obraz?”
Wieloetapowe edytowanie obrazów (czat): możesz generować i edytować obrazy w ramach rozmowy.
- Przykładowe prompty: [prześlij zdjęcie niebieskiego samochodu] , „Zamień ten samochód na kabriolet”., „Zamień teraz kolor na żółty”.

Ograniczenia

Aby zapewnić najlepszą skuteczność, używaj tych języków: EN, es-MX, ja-JP, zh-CN, hi-IN.
Generowanie obrazu nie obsługuje danych wejściowych audio ani wideo.
Generowanie obrazów może nie zostać uruchomione, jeśli:
- Model może generować tylko tekst. Spróbuj wyraźnie poprosić o dane wyjściowe w postaci obrazu (np. „wygeneruj obraz”, „prześlij obrazy w miarę ich tworzenia”, „zaktualizuj obraz”).
- Model może przestać generować dane w trakcie procesu. Spróbuj ponownie lub użyj innego prompta.
Podczas generowania tekstu na potrzeby obrazu Gemini działa najlepiej, jeśli najpierw wygenerujesz tekst, a potem poprosisz o obraz z tekstem.
Generowanie obrazów jest niedostępne w niektórych regionach i krajach. Więcej informacji znajdziesz w sekcji Modele.

Generowanie obrazów za pomocą modelu Imagen 3

W tym przykładzie pokazujemy generowanie obrazów za pomocą modelu Imagen 3:

PythonJavaScriptPrzeczytajREST

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='Robot holding a red skateboard',
    config=types.GenerateImagesConfig(
        number_of_images= 4,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const response = await ai.models.generateImages({
    model: 'imagen-3.0-generate-002',
    prompt: 'Robot holding a red skateboard',
    config: {
      numberOfImages: 4,
    },
  });

  let idx = 1;
  for (const generatedImage of response.generatedImages) {
    let imgBytes = generatedImage.image.imageBytes;
    const buffer = Buffer.from(imgBytes, "base64");
    fs.writeFileSync(`imagen-${idx}.png`, buffer);
    idx++;
  }
}

main();

package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {

  ctx := context.Background()
  client, _ := genai.NewClient(ctx, &genai.ClientConfig{
      APIKey:  os.Getenv("GEMINI_API_KEY"),
      Backend: genai.BackendGeminiAPI,
  })

  config := &genai.GenerateImagesConfig{
      NumberOfImages: 4,
  }

  response, _ := client.Models.GenerateImages(
      ctx,
      "imagen-3.0-generate-002",
      "Robot holding a red skateboard",
      config,
  )

  for n, image := range response.GeneratedImages {
      fname := fmt.Sprintf("imagen-%d.png", n)
          _ = os.WriteFile(fname, image.Image.ImageBytes, 0644)
  }
}

curl -X POST \
    "https://generativelanguage.googleapis.com/v1beta/models/imagen-3.0-generate-002:predict?key=GEMINI_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
        "instances": [
          {
            "prompt": "Robot holding a red skateboard"
          }
        ],
        "parameters": {
          "sampleCount": 4
        }
      }'

Obraz wygenerowany przez AI przedstawiający robota trzymającego czerwoną deskorolkę

Parametry modelu Imagen

Obecnie Imagen obsługuje tylko prompty w języku angielskim i te parametry:

numberOfImages: liczba obrazów do wygenerowania, od 1 do 4 (włącznie). Wartość domyślna to 4.
aspectRatio: zmienia format wygenerowanego obrazu. Obsługiwane wartości to "1:1", "3:4", "4:3", "9:16" i "16:9". Wartość domyślna to "1:1".
personGeneration: zezwalaj modelowi na generowanie obrazów przedstawiających ludzi. Obsługiwane wartości:
- "DONT_ALLOW": blokowanie generowania obrazów przedstawiających ludzi.
- "ALLOW_ADULT": generowanie obrazów przedstawiających dorosłych, ale nie dzieci. To ustawienie domyślne.

Wybór odpowiedniego modelu

Wybierz Gemini, jeśli:

Potrzebujesz obrazów dopasowanych do kontekstu, które wykorzystują wiedzę i rozumowanie.
Ważne jest, aby tekst i obrazy płynnie się ze sobą łączyły.
Chcesz wstawiać dokładne elementy wizualne w długich sekwencjach tekstowych.
Chcesz edytować obrazy w sposób konwersacyjny, zachowując kontekst.

Wybierz Obraz 3, jeśli:

Najważniejsze są jakość obrazu, fotorealizm, szczegóły artystyczne lub określone style (np. impresjonizm, anime).
wykonywanie specjalistycznych zadań edytowania, takich jak aktualizacja tła produktu lub skalowanie obrazu;
Umieszczanie logo, logotypów lub elementów stylu marki w projektach produktów.

Przewodnik po promptach w usłudze Imagen

W tej sekcji przewodnika po Imagen dowiesz się, jak modyfikowanie promptu tekst-obraz może wpływać na uzyskiwane wyniki. Znajdziesz tu też przykłady obrazów, które możesz utworzyć.

Podstawy pisania promptów

Dobry prompt jest opisowy i jasny oraz zawiera znaczące słowa kluczowe i modyfikatory. Zacznij od zastanowienia się nad tematem, kontekstem i stylem.

Prompt z podkreślonym tematem, kontekstem i stylem — Tekst na obrazie: *szkic* (**styl**) *nowoczesnego budynku mieszkalnego* (**temat**) otoczonego *wieżowcami* (**kontekst i tło**).

Temat: pierwszą rzeczą, o której należy pomyśleć, jest temat: obiekt, osoba, zwierzę lub krajobraz, które chcesz sfotografować.
Kontekst i tło: równie ważne jest tło lub kontekst, w którym znajduje się obiekt. Spróbuj umieścić obiekt na różnych tłach. Może to być na przykład studio z białym tłem, plener lub wnętrze.
Styl: na koniec dodaj żądany styl obrazu. Style mogą być ogólne (obraz, fotografia, szkic) lub bardzo konkretne (obraz w pastelach, rysunek węglem, 3D izometryczne). Możesz też łączyć style.

Po napisaniu pierwszej wersji promptu dodaj do niego więcej szczegółów, aż uzyskasz pożądany obraz. Powtarzanie jest ważne. Najpierw określ główną ideę, a potem ją udoskonalaj i rozwijaj, aż wygenerowany obraz będzie zbliżony do Twojej wizji.

Przykładowy realistyczny obraz 1 — Prompt: wiosna w parku obok jeziora

Przykładowy realistyczny obraz 2 — Prompt: Park wiosną obok jeziora, **zachodzące słońce nad jeziorem, złota godzina**

Przykładowy realistyczny obraz 3 — Prompt: Park wiosną nad jeziorem, **złota godzina, zachodzące słońce nad jeziorem, czerwone polne kwiaty**

Imagen 3 może przekształcać Twoje pomysły w szczegółowe obrazy, niezależnie od tego, czy prompty są krótkie, czy długie i szczegółowe. Ulepszaj swoją wizję, korzystając z powtarzających się podpowiedzi i dodając szczegóły, aż osiągniesz idealny rezultat.

Krótkie prompty umożliwiają szybkie generowanie obrazów.

Przykład krótkiego prompta w Imagen 3 — Prompt: zbliżenie na kobietę w okresie 20 roku życia, fotografia uliczna, kadr z filmu, przytłumione ciepłe odcienie pomarańczowego

Dłuższe prompty umożliwiają dodawanie konkretnych szczegółów i tworzenie obrazu.

Przykład długiego prompta w Imagen 3 — Prompt: fascynujące zdjęcie kobiety w okresie 20–30 roku życia, wykonane w stylu fotografii ulicznej. Obraz powinien wyglądać jak kadr z filmu z przytłuszczonymi pomarańczowymi ciepłymi tonami.

Dodatkowe wskazówki dotyczące pisania promptów w usłudze Imagen:

Używaj języka opisowego: używaj szczegółowych przymiotników i przysłów, aby przedstawić wyraźny obraz w Imagen 3.
Podaj kontekst: w razie potrzeby dodaj informacje ogólne, aby ułatwić AI zrozumienie.
Przywoływanie konkretnych artystów lub stylów: jeśli masz na myśli konkretny styl, możesz przywołać konkretnych artystów lub kierunki artystyczne.
Używanie narzędzi do tworzenia promptów: rozważ skorzystanie z narzędzi lub zasobów do tworzenia promptów, które pomogą Ci je ulepszać i osiągać optymalne wyniki.
Poprawianie szczegółów twarzy na zdjęciach osobistych i grupowych: określ szczegóły twarzy jako punkt skupienia zdjęcia (na przykład użyj słowa „portret” w promptzie).

Generowanie tekstu na obrazach

Imagen może dodawać tekst do obrazów, co stwarza większe możliwości tworzenia kreatywnych obrazów. Aby w pełni korzystać z tej funkcji, postępuj zgodnie z tymi wskazówkami:

Powtarzaj proces do skutku: może być konieczne ponowne wygenerowanie obrazów, aż uzyskasz pożądany wygląd. Integracja tekstu w Imagen jest nadal udoskonalana i czasem najlepsze wyniki przynoszą wielokrotne próby.
Skróć tekst: aby uzyskać optymalne wyniki, ogranicz tekst do maksymalnie 25 znaków.
Wiele wyrażeń: eksperymentuj z 2 lub 3 wyrażeniami, aby podać dodatkowe informacje. Aby uzyskać przejrzystość kompozycji, nie używaj więcej niż 3 wyrazów.

Prompt: plakat z tekstem „Summerland” (ang. „Lato”) w grubym druku jako tytułem. Pod nim znajduje się slogan „Lato nigdy nie było tak dobre” (ang. „Summer never felt so good”).
Pozycja przewodnika: chociaż Imagen może próbować umieścić tekst zgodnie z instrukcjami, należy się spodziewać sporadycznych zmian. Ta funkcja jest stale ulepszana.
Inspire font style (inspiruj styl czcionki): określ ogólny styl czcionki, aby subtelnie wpływać na wybory Imagena. Nie polegaj na dokładnym odwzorowaniu czcionek, ale spodziewaj się kreatywnych interpretacji.
Rozmiar czcionki: określ rozmiar czcionki lub ogólny rozmiar (np. mały, średni, duży), aby wpływać na generowanie rozmiaru czcionki.

Parametryzowanie promptów

Aby lepiej kontrolować wyniki wyjściowe, warto skonfigurować parametry wejściowe w Imagen. Załóżmy na przykład, że chcesz, aby Twoi klienci mogli generować logo swojej firmy, i chcesz mieć pewność, że logo będą zawsze generowane na jednolitym tle. Musisz też ograniczyć opcje, które klient może wybrać z menu.

W tym przykładzie możesz utworzyć prompt z parametrami podobny do tego:

A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.

W niestandardowym interfejsie użytkownika klient może wpisywać parametry za pomocą menu, a wybrana przez niego wartość wypełnia prompt, który otrzymuje Imagen.

Na przykład:

Prompt: A minimalist logo for a health care company on a solid color background. Include the text Journey.
Prompt: A modern logo for a software company on a solid color background. Include the text Silo.
Prompt: A traditional logo for a baking company on a solid color background. Include the text Seed.

Zaawansowane techniki pisania promptów

Korzystając z podanych niżej przykładów, możesz tworzyć bardziej szczegółowe prompty na podstawie atrybutów, takich jak opisy fotografii, kształty i materiały, historyczne kierunki w sztuce oraz modyfikatory jakości obrazu.

Fotografia

Prompt: „Zdjęcie…”

Aby użyć tego stylu, zacznij od użycia słów kluczowych, które wyraźnie informują Imagen, że szukasz zdjęcia. Rozpocznij prompta od słów "Zrób zdjęcie. . .". Przykład:

^{Źródło obrazu: każdy obraz został wygenerowany za pomocą odpowiedniego promptu tekstowego za pomocą modelu Imagen 3.}

Modyfikatory fotografii

W następnych przykładach znajdziesz kilka modyfikatorów i parametrów związanych z fotografią. Aby uzyskać większą kontrolę, możesz łączyć ze sobą wiele modyfikatorów.

Odległość od aparatu – zbliżenie, zrobione z dużej odległości

Zdjęcie z bliska z aparatu — Prompt: **zbliżenie na ziarna kawy**

przykładowy obraz z pomniejszoną kamerą — Prompt: zdjęcie **z dużą perspektywą** małego worka
z kawą w nieuporządkowanej kuchni

Pozycja kamery – powietrzna, od dołu

Prompt: zdjęcie lotnicze miasta z wieżowcami

Prompt: zdjęcie korony drzew z niebem od dołu

Oświetlenie – naturalne, dramatyczne, ciepłe, zimne

Przykładowe zdjęcie oświetlenia naturalnego — Prompt: zdjęcie nowoczesnego fotela w studio, **oświetlenie naturalne**

przykładowe zdjęcie z dramatycznym oświetleniem — Prompt: zdjęcie nowoczesnego fotela w studio z **dramatycznym oświetleniem**

Ustawienia aparatu - rozmycie w ruchu, miękki fokus, bokeh, tryb portretowy

Prompt: zdjęcie miasta z wieżowcami zrobione z wnętrza samochodu z rozmyciem dynamicznym

Prompt: nieostrego zdjęcia mostu w mieście w nocy
Typy obiektywów – 35 mm, 50 mm, rybie oko, szerokokątny, makro

Prompt: zdjęcie liścia, obiektyw makro

Prompt: fotografia uliczna, Nowy Jork, obiektyw rybią kość
Typy filmów – czarno-biały, polaroid

Prompt: portret w polaroidzie psa w okularach przeciwsłonecznych

Prompt: czarno-białe zdjęcie psa w okularach przeciwsłonecznych

^{Źródło obrazu: każdy obraz został wygenerowany za pomocą odpowiedniego promptu tekstowego za pomocą modelu Imagen 3.}

Ilustracje i dzieła sztuki

Prompt: "A painting of...", "A sketch of..."

Style artystyczne mogą być monochromatyczne, jak szkice ołówkiem, lub hiperrealistyczne, jak sztuka cyfrowa. Na przykład te obrazy używają tego samego prompta w różnych stylach:

„[art style or creation technique] sportowego elektrycznego sedana z zaokrąglonymi krawędziami na tle wieżowców”

obrazy z przykładami — Prompt: **Rysunek ołówkiem technicznym** kątowego...

^{Źródło obrazu: każdy obraz został wygenerowany za pomocą odpowiedniego promptu tekstowego za pomocą modelu Imagen 2.}

Kształty i materiały

Prompt: "...made of...", „…w kształcie…”

Jedną z zalet tej technologii jest to, że możesz tworzyć obrazy, które w innym przypadku byłyby trudne lub niemożliwe do uzyskania. Możesz na przykład odtworzyć logo swojej firmy w różnych materiałach i teksturach.

Obraz 1 – przykłady kształtów i materiałów — Prompt: torba podróżna **wykonana z** sera

Obraz przykładowy kształtów i materiałów 2 — Prompt: neonowe rurki **w kształcie** ptaka

kształty i materiały – przykładowy obraz 3 — Prompt: fotel **wykonany z papieru**, zdjęcie w studio, styl origami

^{Źródło obrazu: każdy obraz został wygenerowany za pomocą odpowiedniego promptu tekstowego za pomocą modelu Imagen 3.}

odniesienia do sztuki historycznej,

Prompt: "...w stylu..."

Niektóre style stały się z latami ikonami. Poniżej znajdziesz kilka pomysłów na malarstwo historyczne lub style artystyczne, które możesz wypróbować.

"wygeneruj obraz w stylu [art period or movement]: farma wiatrowa"

Przykładowy obraz impresjonistyczny — Prompt: wygeneruj obraz w stylu *obrazu impresjonistycznego*: farma wiatrowa

przykładowy obraz z renesansu — Prompt: wygeneruj obraz w stylu *renesansowego obrazu*: farma wiatrowa

przykładowy obraz w stylu pop-art — Prompt: wygeneruj obraz w stylu *pop-artu*: farma wiatrowa

^{Źródło obrazu: każdy obraz został wygenerowany za pomocą odpowiedniego promptu tekstowego za pomocą modelu Imagen 3.}

Modyfikatory jakości obrazu

Niektóre słowa kluczowe mogą informować model, że szukasz zasobu wysokiej jakości. Przykłady modyfikatorów jakości:

Ogólne modyfikatory – wysokiej jakości, piękne, stylizowane
Zdjęcia – 4K, HDR, zdjęcie w Studio
Grafika, ilustracja – wykonane przez profesjonalistę, szczegółowe

Poniżej znajdziesz kilka przykładów promptów bez modyfikatorów jakości i tego samego prompta z modyfikatorami jakości.

przykładowy obraz kukurydzy bez modyfikatorów — Prompt (bez modyfikatorów jakości): zdjęcie kolby kukurydzy

przykładowy obraz kukurydzy z modyfikatorami — Prompt (with quality modifiers): **4k HDR beautiful**
photo of a corn stalk taken by a
professional photographer

^{Źródło obrazu: każdy obraz został wygenerowany za pomocą odpowiedniego promptu tekstowego za pomocą modelu Imagen 3.}

Formaty obrazu

Generowanie obrazów w modelu Imagen 3 umożliwia ustawienie 5 różnych współczynników proporcji obrazu.

Kwadrat (1:1, domyślnie) – standardowe zdjęcie w formacie kwadratu. Ten format jest często używany w postach w mediach społecznościowych.

Pełny ekran (4:3) – ten format jest często używany w mediach i filmach. Są to też wymiary większości starszych telewizorów (niepanoramowych) i kamer średniego formatu. Pozwala ono uchwycić więcej sceny w orientacji poziomej (w porównaniu z formatem 1:1), co czyni go preferowanym formatem w fotografii.

przykład współczynnika proporcji — Prompt: zbliżenie palców muzyka grającego na pianinie, czarno-biały film, vintage (format obrazu 4:3)

Pełny ekran pionowy (3:4) – to format pełnoekranowy obrócony o 90 stopni. Pozwala to uchwycić więcej szczegółów w pionie niż w formacie 1:1.

Panorama (16:9) – ten format zastąpił format 4:3 i jest obecnie najczęściej stosowanym formatem w telewizorach, monitorach i ekranach telefonów komórkowych (w orientacji poziomej). Użyj tego formatu, jeśli chcesz uchwycić więcej tła (np. krajobraz).

Prompt: mężczyzna w białym stroju siedzący na plaży, zbliżenie, oświetlenie w złotej godzinie (format obrazu 16:9)
Pionowa (9:16) – ten format jest panoramiczny, ale obrócony. To stosunkowo nowy format obrazu, który stał się popularny dzięki aplikacjom do tworzenia krótkich filmów (np. YouTube Shorts). Używaj tego w przypadku wysokich obiektów o wyraźnie pionowej orientacji, takich jak budynki, drzewa, wodospady lub inne podobne obiekty.

Prompt: cyfrowy obraz ogromnego, nowoczesnego drapacza chmur, który jest majestatyczny i efektywny, z pięknym zachodem słońca w tle (format 9:16)

realistyczne obrazy,

Różne wersje modelu do generowania obrazów mogą oferować zarówno wyniki o charakterze artystycznym, jak i realistyczne. Aby uzyskać bardziej fotorealistyczne wyniki na podstawie wybranego obiektu, użyj w promptach sformułowania opisanego poniżej.

Przypadek użycia	Typ obiektywu	Ogniskowe	Informacje dodatkowe
osoby (portrety),	Prime, zoom	24-35mm	film czarno-biały, film noir, głębia ostrości, duotone (wymień 2 kolory)
Jedzenie, owady, rośliny (obiekty, martwa natura)	Makro	60-105mm	wysoka szczegółowość, precyzyjne ostrzenie, kontrolowane oświetlenie;
Sport, przyroda (ruchome obrazy)	Zoom teleobiektywem	100-400mm	Szybka szybkość migawki, śledzenie ruchu lub działania
astronomiczny, orientacja pozioma (szerokokątny)	Szerokokątny	10-24mm	długi czas naświetlania, ostry obraz, płynna woda lub chmury;

Portrety

Przypadek użycia	Typ obiektywu	Ogniskowe	Informacje dodatkowe
osoby (portrety),	Prime, zoom	24-35mm	film czarno-biały, film noir, głębia ostrości, duotone (wymień 2 kolory)

Na podstawie kilku słów kluczowych z tabeli Imagen może wygenerować te portrety:

Prompt: Kobieta, portret 35 mm, duotony w kolorach niebieskim i szarym
Model: imagen-3.0-generate-002

Prompt: Kobieta, portret 35 mm, film noir
Model: imagen-3.0-generate-002

Obiekty

Przypadek użycia	Typ obiektywu	Ogniskowe	Informacje dodatkowe
Jedzenie, owady, rośliny (obiekty, martwa natura)	Makro	60-105mm	wysoka szczegółowość, precyzyjne ostrzenie, kontrolowane oświetlenie;

Korzystając z kilku słów kluczowych z tabeli, Imagen może wygenerować te obrazy obiektów:

Prompt: liść modlitwy, obiektyw makro, 60 mm
Model: imagen-3.0-generate-002

Prompt: talerz z makaronem, obiektyw makro 100 mm
Model: imagen-3.0-generate-002

Ruch

Przypadek użycia	Typ obiektywu	Ogniskowe	Informacje dodatkowe
Sport, przyroda (ruchome obrazy)	Zoom teleobiektywem	100-400mm	Szybka szybkość migawki, śledzenie ruchu lub działania

Korzystając z kilku słów kluczowych z tabeli, Imagen może wygenerować te obrazy w ruchu:

Prompt: wygrywający touchdown, szybka szybkość migawki, śledzenie ruchu
Model: imagen-3.0-generate-002

Prompt: Rzeczywistego jelenia biegającego po lesie, szybka szybkość migawki, śledzenie ruchu
Model: imagen-3.0-generate-002

Szerokokątny

Przypadek użycia	Typ obiektywu	Ogniskowe	Informacje dodatkowe
astronomiczny, orientacja pozioma (szerokokątny)	Szerokokątny	10-24mm	długi czas naświetlania, ostry obraz, płynna woda lub chmury;

Korzystając z kilku słów kluczowych z tabeli, Imagen może wygenerować te zdjęcia panoramiczne:

Prompt: rozległy łańcuch górski, tryb poziomy, kąt widzenia 10 mm
Model: imagen-3.0-generate-002

Prompt: zdjęcie księżyca, fotografia astronomiczna, obiektyw szerokokątny 10 mm
Model: imagen-3.0-generate-002

Co dalej?

Aby dowiedzieć się, jak generować filmy za pomocą interfejsu Gemini API, zapoznaj się z przewodnikiem Veo.
Więcej informacji o modelach Gemini 2.0 znajdziesz w artykułach Modele Gemini i Modele eksperymentalne.