Эта страница переведена с помощью Cloud Translation API.

Генерация изображения

Вы можете создавать изображения с помощью Gemini API со встроенными мультимодальными возможностями Gemini или Imagen, специализированной модели генерации изображений Google. В большинстве случаев начните с Gemini . Выбирайте Imagen для специализированных задач, где качество изображения имеет решающее значение. Дополнительные рекомендации см. в разделе «Выбор подходящей модели» .

Все сгенерированные изображения включают водяной знак SynthID .

Прежде чем начать

Убедитесь, что вы используете поддерживаемую модель и версию для создания изображения:

Для Gemini используйте Gemini 2.0 Flash Preview Image Generation.
Для Imagen используйте Imagen 3. Обратите внимание, что эта модель доступна только на платном уровне .

Вы можете получить доступ к Gemini и Imagen 3, используя одни и те же библиотеки.

Создание изображений с помощью Gemini

Gemini может генерировать и обрабатывать изображения в диалоговом режиме. Вы можете предлагать Gemini текст, изображения или их комбинацию для выполнения различных задач, связанных с изображениями, таких как создание и редактирование изображений.

Вы должны включить в свою конфигурацию responseModalities : ["TEXT", "IMAGE"] . Эти модели не поддерживают вывод только изображений.

Генерация изображений (текст в изображение)

Следующий код демонстрирует, как создать изображение на основе описательной подсказки:

Питон

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import base64

client = genai.Client()

contents = ('Hi, can you create a 3d rendered image of a pig '
            'with wings and a top hat flying over a happy '
            'futuristic scifi city with lots of greenery?')

response = client.models.generate_content(
    model="gemini-2.0-flash-preview-image-generation",
    contents=contents,
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO((part.inline_data.data)))
    image.save('gemini-native-image.png')
    image.show()

JavaScript

import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const contents =
    "Hi, can you create a 3d rendered image of a pig " +
    "with wings and a top hat flying over a happy " +
    "futuristic scifi city with lots of greenery?";

  // Set responseModalities to include "Image" so the model can generate  an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-preview-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();

Идти

package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {

  ctx := context.Background()
  client, _ := genai.NewClient(ctx, &genai.ClientConfig{
      APIKey:  os.Getenv("GEMINI_API_KEY"),
      Backend: genai.BackendGeminiAPI,
  })

  config := &genai.GenerateContentConfig{
      ResponseModalities: []string{"TEXT", "IMAGE"},
  }

  result, _ := client.Models.GenerateContent(
      ctx,
      "gemini-2.0-flash-preview-image-generation",
      genai.Text("Hi, can you create a 3d rendered image of a pig " +
                 "with wings and a top hat flying over a happy " +
                 "futuristic scifi city with lots of greenery?"),
      config,
  )

  for _, part := range result.Candidates[0].Content.Parts {
      if part.Text != "" {
          fmt.Println(part.Text)
      } else if part.InlineData != nil {
          imageBytes := part.InlineData.Data
          outputFilename := "gemini_generated_image.png"
          _ = os.WriteFile(outputFilename, imageBytes, 0644)
      }
  }
}

ОТДЫХ

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image-generation:generateContent?key=$GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        {"text": "Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"}
      ]
    }],
    "generationConfig":{"responseModalities":["TEXT","IMAGE"]}
  }' \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-native-image.png

Изображение фантастической летающей свиньи, созданное искусственным интеллектом

Редактирование изображений (текст и изображение в изображении)

Чтобы выполнить редактирование изображения, добавьте изображение в качестве входных данных. В следующем примере демонстрируется загрузка изображений в кодировке Base64. Если вы хотите получить несколько изображений и более крупные полезные данные, проверьте раздел ввода изображений .

Питон

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

import PIL.Image

image = PIL.Image.open('/path/to/image.png')

client = genai.Client()

text_input = ('Hi, This is a picture of me.'
            'Can you add a llama next to me?',)

response = client.models.generate_content(
    model="gemini-2.0-flash-preview-image-generation",
    contents=[text_input, image],
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))
    image.show()

JavaScript

import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  // Load the image from the local file system
  const imagePath = "path/to/image.png";
  const imageData = fs.readFileSync(imagePath);
  const base64Image = imageData.toString("base64");

  // Prepare the content parts
  const contents = [
    { text: "Can you add a llama next to the image?" },
    {
      inlineData: {
        mimeType: "image/png",
        data: base64Image,
      },
    },
  ];

  // Set responseModalities to include "Image" so the model can generate an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-preview-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();

Идти

package main

import (
 "context"
 "fmt"
 "os"
 "google.golang.org/genai"
)

func main() {

 ctx := context.Background()
 client, _ := genai.NewClient(ctx, &genai.ClientConfig{
     APIKey:  os.Getenv("GEMINI_API_KEY"),
     Backend: genai.BackendGeminiAPI,
 })

 imagePath := "/path/to/image.png"
 imgData, _ := os.ReadFile(imagePath)

 parts := []*genai.Part{
   genai.NewPartFromText("Hi, This is a picture of me. Can you add a llama next to me?"),
   &genai.Part{
     InlineData: &genai.Blob{
       MIMEType: "image/png",
       Data:     imgData,
     },
   },
 }

 contents := []*genai.Content{
   genai.NewContentFromParts(parts, genai.RoleUser),
 }

 config := &genai.GenerateContentConfig{
     ResponseModalities: []string{"TEXT", "IMAGE"},
 }

 result, _ := client.Models.GenerateContent(
     ctx,
     "gemini-2.0-flash-preview-image-generation",
     contents,
     config,
 )

 for _, part := range result.Candidates[0].Content.Parts {
     if part.Text != "" {
         fmt.Println(part.Text)
     } else if part.InlineData != nil {
         imageBytes := part.InlineData.Data
         outputFilename := "gemini_generated_image.png"
         _ = os.WriteFile(outputFilename, imageBytes, 0644)
     }
 }
}

ОТДЫХ

IMG_PATH=/path/to/your/image1.jpeg

if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi

IMG_BASE64=$(base64 "$B64FLAGS" "$IMG_PATH" 2>&1)

curl -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image-generation:generateContent?key=$GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -d "{
      \"contents\": [{
        \"parts\":[
            {\"text\": \"'Hi, This is a picture of me. Can you add a llama next to me\"},
            {
              \"inline_data\": {
                \"mime_type\":\"image/jpeg\",
                \"data\": \"$IMG_BASE64\"
              }
            }
        ]
      }],
      \"generationConfig\": {\"responseModalities\": [\"TEXT\", \"IMAGE\"]}
    }"  \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-edited-image.png

Другие режимы генерации изображений

Gemini поддерживает другие режимы взаимодействия с изображениями, основанные на структуре и контексте подсказки, в том числе:

Текст в изображение(я) и текст (чередующийся): выводит изображения с соответствующим текстом.
- Пример приглашения: «Создать иллюстрированный рецепт паэльи».
Изображение(я) и текст в изображение(я) и текст (чередующиеся) : Использует входные изображения и текст для создания новых связанных изображений и текста.
- Пример подсказки: (с изображением меблированной комнаты) «Дива каких еще цветов подойдут в моем пространстве? Можете ли вы обновить изображение?»
Многоходовое редактирование изображений (чат): продолжайте создавать/редактировать изображения в диалоговом режиме.
- Пример подсказки: [загрузить изображение синей машины.], «Превратите эту машину в кабриолет», «Теперь измените цвет на желтый».

Ограничения

Для достижения наилучшей производительности используйте следующие языки: EN, es-MX, ja-JP, zh-CN, hi-IN.
Генерация изображений не поддерживает аудио- и видеовходы.
Генерация изображения не всегда может срабатывать:
- Модель может выводить только текст. Попробуйте явно запросить выходные данные изображения (например, «создать изображение», «предоставить изображения по мере продвижения», «обновить изображение»).
- Модель может перестать генерировать на полпути. Попробуйте еще раз или попробуйте другое приглашение.
При создании текста для изображения Gemini работает лучше всего, если вы сначала генерируете текст, а затем запрашиваете изображение с текстом.
В некоторых регионах/странах создание изображений недоступно. См. Модели для получения дополнительной информации.

Создавайте изображения с помощью Imagen 3

В этом примере демонстрируется создание изображений с помощью Imagen 3 :

Питон

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='Robot holding a red skateboard',
    config=types.GenerateImagesConfig(
        number_of_images= 4,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

JavaScript

import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const response = await ai.models.generateImages({
    model: 'imagen-3.0-generate-002',
    prompt: 'Robot holding a red skateboard',
    config: {
      numberOfImages: 4,
    },
  });

  let idx = 1;
  for (const generatedImage of response.generatedImages) {
    let imgBytes = generatedImage.image.imageBytes;
    const buffer = Buffer.from(imgBytes, "base64");
    fs.writeFileSync(`imagen-${idx}.png`, buffer);
    idx++;
  }
}

main();

Идти

package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {

  ctx := context.Background()
  client, _ := genai.NewClient(ctx, &genai.ClientConfig{
      APIKey:  os.Getenv("GEMINI_API_KEY"),
      Backend: genai.BackendGeminiAPI,
  })

  config := &genai.GenerateImagesConfig{
      NumberOfImages: 4,
  }

  response, _ := client.Models.GenerateImages(
      ctx,
      "imagen-3.0-generate-002",
      "Robot holding a red skateboard",
      config,
  )

  for n, image := range response.GeneratedImages {
      fname := fmt.Sprintf("imagen-%d.png", n)
          _ = os.WriteFile(fname, image.Image.ImageBytes, 0644)
  }
}

ОТДЫХ

curl -X POST \
    "https://generativelanguage.googleapis.com/v1beta/models/imagen-3.0-generate-002:predict?key=GEMINI_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
        "instances": [
          {
            "prompt": "Robot holding a red skateboard"
          }
        ],
        "parameters": {
          "sampleCount": 4
        }
      }'

Созданное ИИ изображение робота, держащего красный скейтборд

Параметры модели изображения

В настоящее время Imagen поддерживает только запросы на английском языке и следующие параметры:

numberOfImages : количество генерируемых изображений от 1 до 4 (включительно). По умолчанию — 4.
aspectRatio : изменяет соотношение сторон сгенерированного изображения. Поддерживаемые значения: "1:1" , "3:4" , "4:3" , "9:16" и "16:9" . По умолчанию установлено "1:1" .
personGeneration : разрешить модели генерировать изображения людей. Поддерживаются следующие значения:
- "DONT_ALLOW" : блокировать создание изображений людей.
- "ALLOW_ADULT" : создавать изображения взрослых, но не детей. Это значение по умолчанию.

Выбор подходящей модели

Выбирайте Близнецов, когда:

Вам нужны контекстно-релевантные изображения, которые используют мировые знания и рассуждения.
Важно плавно сочетать текст и изображения.
Вам нужны точные визуальные эффекты, встроенные в длинные текстовые последовательности.
Вы хотите редактировать изображения в диалоговом режиме, сохраняя контекст.

Выбирайте Imagen 3, когда:

Качество изображения, фотореализм, художественные детали или определенные стили (например, импрессионизм, аниме) являются главными приоритетами.
Выполнение специализированных задач по редактированию, таких как фоновое обновление продукта или масштабирование изображений.
Использование брендинга, стиля или создание логотипов и дизайна продуктов.

Подсказка по изображению

В этом разделе руководства Imagen показано, как изменение приглашения преобразования текста в изображение может привести к различным результатам, а также приведены примеры изображений, которые вы можете создать.

Основы написания подсказок

Хорошая подсказка описательна и понятна, в ней используются значимые ключевые слова и модификаторы. Начните с обдумывания темы , контекста и стиля .

Подсказка с акцентом на тему, контекст и стиль. — Текст изображения: *Эскиз* ( **стиль** ) *современного жилого дома* ( **сюжет** ), окруженного *небоскребами* ( **контекст и фон** ).

Тема : Первое, о чем следует подумать при любой подсказке, — это тема : объект, человек, животное или пейзаж, изображение которого вы хотите отобразить.
Контекст и предыстория. Не менее важным является фон или контекст , в котором будет помещен объект. Попробуйте разместить объект съемки на разных фонах. Например, студия с белым фоном, на открытом воздухе или в помещении.
Стиль: Наконец, добавьте желаемый стиль изображения. Стили могут быть общими (живопись, фотография, эскизы) или очень конкретными (живопись пастелью, рисунок углем, изометрическое 3D). Вы также можете комбинировать стили.

После того, как вы напишете первую версию приглашения, усовершенствуйте его, добавляя больше деталей, пока не дойдете до нужного изображения. Итерация важна. Начните с определения своей основной идеи, а затем уточняйте и расширяйте ее до тех пор, пока созданный образ не станет близок к вашему видению.

Фотореалистичный образец изображения 1 — Подсказка: Весенний парк рядом с озером.

Фотореалистичный образец изображения 2 — Подсказка: Весенний парк рядом с озером, **солнце садится за озеро, золотой час.**

Фотореалистичный образец изображения 3 — Подсказка: Весенний парк рядом с озером, **солнце садится за озеро, золотой час, красные полевые цветы.**

Imagen 3 может превратить ваши идеи в подробные изображения, независимо от того, короткие ли ваши подсказки или длинные и подробные. Уточняйте свое видение с помощью повторяющихся подсказок, добавляя детали, пока не достигнете идеального результата.

Короткие подсказки позволяют быстро создать изображение.

Изображение 3. Пример короткой подсказки. — Подсказка: фотография женщины лет 20 крупным планом, уличная фотография, кадр из фильма, приглушенные оранжевые теплые тона.

Более длинные подсказки позволяют добавлять конкретные детали и создавать свой образ.

Изображение 3, пример длинной подсказки — Подсказка: захватывающая фотография 20-летней женщины, сделанная в стиле уличной фотографии. Изображение должно выглядеть как кадр из фильма с приглушенными оранжевыми теплыми тонами.

Дополнительные советы по написанию подсказки Imagen:

Используйте описательный язык : используйте подробные прилагательные и наречия, чтобы нарисовать четкую картину Imagen 3.
Предоставьте контекст : при необходимости включите справочную информацию, которая поможет ИИ понять.
Ссылайтесь на конкретных художников или стили . Если вы имеете в виду определенную эстетику, может оказаться полезным упоминание конкретных художников или художественных направлений.
Используйте инструменты оперативного проектирования . Рассмотрите возможность изучения инструментов или ресурсов оперативного проектирования, которые помогут вам усовершенствовать подсказки и достичь оптимальных результатов.
Улучшение деталей лица на личных и групповых изображениях . Укажите детали лица в качестве фокуса фотографии (например, используйте в подсказке слово «портрет»).

Генерация текста в изображениях

Imagen может добавлять текст в изображения, открывая более творческие возможности создания изображений. Используйте следующие рекомендации, чтобы максимально эффективно использовать эту функцию:

Выполняйте итерации с уверенностью : возможно, вам придется регенерировать изображения, пока не добьетесь желаемого результата. Интеграция текста в Imagen все еще развивается, и иногда несколько попыток дают наилучшие результаты.
Будьте краткими : для оптимальной генерации ограничьте текст 25 символами или меньше.
Несколько фраз . Поэкспериментируйте с двумя или тремя разными фразами, чтобы предоставить дополнительную информацию. Избегайте превышения трех фраз для более чистых композиций.
Подсказка: Плакат с надписью «Страна лета», выделенной жирным шрифтом в качестве заголовка, под этим текстом находится слоган «Лето никогда не было таким хорошим».
Размещение направляющих : Хотя Imagen может попытаться расположить текст в соответствии с указаниями, ожидайте случайных изменений. Эта функция постоянно совершенствуется.
Стиль шрифта Inspire : укажите общий стиль шрифта, чтобы слегка повлиять на выбор Imagen. Не полагайтесь на точное копирование шрифта, а ожидайте творческих интерпретаций.
Размер шрифта : укажите размер шрифта или общее указание размера (например, маленький , средний , большой ), чтобы повлиять на создание размера шрифта.

Оперативная параметризация

Чтобы лучше контролировать результаты вывода, вам может оказаться полезным параметризовать входные данные в Imagen. Например, предположим, вы хотите, чтобы ваши клиенты могли создавать логотипы для своего бизнеса, и вы хотите, чтобы логотипы всегда создавались на сплошном цветном фоне. Вы также хотите ограничить параметры, которые клиент может выбрать из меню.

В этом примере вы можете создать параметризованное приглашение, подобное следующему:

A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.

В вашем пользовательском интерфейсе клиент может вводить параметры с помощью меню, и выбранное ими значение заполняет подсказку, которую получает Imagen.

Например:

Подсказка: A minimalist logo for a health care company on a solid color background. Include the text Journey .
Подсказка: A modern logo for a software company on a solid color background. Include the text Silo .
Подсказка: A traditional logo for a baking company on a solid color background. Include the text Seed .

Продвинутые методы быстрого написания

Используйте следующие примеры для создания более конкретных подсказок на основе таких атрибутов, как дескрипторы фотографий, формы и материалы, исторические направления искусства и модификаторы качества изображения.

Фотография

Подсказка включает в себя: «Фотография...»

Чтобы использовать этот стиль, начните с использования ключевых слов, которые четко сообщают Imagen, что вы ищете фотографию. Начните свои подсказки со слов «Фотография...». . Например:

^{Источник изображения: каждое изображение было создано с использованием соответствующей текстовой подсказки с помощью модели Imagen 3.}

Модификаторы фотографий

В следующих примерах вы можете увидеть несколько модификаторов и параметров, специфичных для фотографии. Вы можете комбинировать несколько модификаторов для более точного управления.

Близость камеры — крупный план, снято издалека.

Пример изображения с камеры крупным планом — Подсказка: фотография кофейных зерен **крупным планом.**

Уменьшенный образец изображения камеры — Подсказка: **Увеличенная** фотография небольшого пакета с
кофейные зерна на грязной кухне

Положение камеры – сверху, снизу.

Образец изображения аэрофотоснимка — Подсказка: **аэрофотоснимок** городского города с небоскребами.

вид снизу, образец изображения — Подсказка: фотография полога леса с голубым небом **снизу.**

Освещение – естественное, драматическое, теплое, холодное.

Образец изображения естественного освещения — Подсказка: студийное фото современного кресла, **естественное освещение.**

Образец изображения драматического освещения — Подсказка: студийное фото современного кресла, **эффектное освещение.**

Настройки камеры — размытие в движении, мягкий фокус, боке, портрет.

образец изображения с размытием в движении — Подсказка: фото города с небоскребами из салона автомобиля с **размытием изображения**

образец изображения с мягким фокусом — Подсказка: фотография моста в ночном городе **в мягком фокусе.**

Типы объективов : 35 мм, 50 мм, «рыбий глаз», широкоугольный, макро.
Подсказка: фото листа, макрообъектив.
Подсказка: уличная фотография, Нью-Йорк, объектив «рыбий глаз».

Типы пленки – черно-белая, полароид.

Образец фотографии Polaroid — Подсказка: **поляроидный портрет** собаки в солнечных очках.

образец черно-белой фотографии — Подсказка: **черно-белое фото** собаки в солнечных очках.

Иллюстрация и искусство

Подсказка включает в себя: « painting ...» , « sketch ...».

Художественные стили варьируются от монохромных стилей, таких как карандашные наброски, до гиперреалистичного цифрового искусства. Например, на следующих изображениях используется одна и та же подсказка в разных стилях:

« [art style or creation technique] угловатого спортивного электрического седана на фоне небоскребов»

образцы изображений искусства — Подсказка: **Технический карандашный рисунок** углового...

^{Источник изображения: каждое изображение было создано с использованием соответствующей текстовой подсказки с помощью модели Imagen 2.}

Формы и материалы

Подсказка включает в себя: «...сделано из...» , «...в форме...»

Одной из сильных сторон этой технологии является то, что вы можете создавать изображения, которые иначе сложно или невозможно. Например, вы можете воссоздать логотип своей компании, используя разные материалы и текстуры.

Пример формы и материалов, изображение 1 — Подсказка: спортивная сумка из сыра.

Пример формы и материалов, изображение 2 — Подсказка: неоновые трубки **в форме** птицы.

Пример формы и материалов, изображение 3 — Подсказка: кресло **из бумаги** , студийное фото, стиль оригами.

Ссылки на историческое искусство

Подсказка включает в себя: «...в стиле...»

Некоторые стили с годами стали культовыми. Ниже приведены некоторые идеи исторической живописи или художественных стилей, которые вы можете попробовать.

«создать изображение в стиле [art period or movement] : ветряная электростанция»

Пример изображения импрессионизма — Подсказка: создайте изображение в стиле *картины импрессионистов* : ветряная электростанция.

пример изображения эпохи Возрождения — Подсказка: создайте изображение в стиле *ренессансной живописи* : ветряная электростанция.

пример изображения в стиле поп-арт — Подсказка: создайте изображение в стиле *поп-арт* : ветряная электростанция.

Модификаторы качества изображения

Определенные ключевые слова могут дать понять модели, что вы ищете высококачественный актив. Примеры модификаторов качества включают следующее:

Общие Модификаторы - качественные, красивые, стилизованные.
Фотографии - 4K, HDR, студийное фото
Искусство, Иллюстрация - от профессионала, подробно

Ниже приведены несколько примеров подсказок без модификаторов качества и того же приглашения с модификаторами качества.

Пример изображения кукурузы без модификаторов — Подсказка (без модификаторов качества): фото стебля кукурузы.

Пример изображения кукурузы с модификаторами — Подсказка (с модификаторами качества): **4k HDR красиво**
фотография стебля кукурузы , сделанная
профессиональный фотограф

Соотношения сторон

Генерация изображений Imagen 3 позволяет установить пять различных соотношений сторон изображения.

Квадрат (1:1, по умолчанию) — стандартное квадратное фото. Обычное использование этого соотношения сторон включает публикации в социальных сетях.

Полноэкранный режим (4:3). Это соотношение сторон обычно используется в средствах массовой информации или фильмах. Это также размеры большинства старых (неширокоэкранных) телевизоров и камер среднего формата. Он захватывает большую часть сцены по горизонтали (по сравнению с соотношением сторон 1:1), что делает его предпочтительным соотношением сторон для фотографии.

пример соотношения сторон — Подсказка: крупный план пальцев музыканта, играющего на фортепиано, черно-белый фильм, винтаж (соотношение сторон 4:3).

Портретный полноэкранный режим (3:4). Это полноэкранное соотношение сторон, повернутое на 90 градусов. Это позволяет захватить большую часть сцены по вертикали по сравнению с соотношением сторон 1:1.

Широкоэкранный (16:9). Это соотношение заменило 4:3 и теперь является наиболее распространенным соотношением сторон для телевизоров, мониторов и экранов мобильных телефонов (альбомная ориентация). Используйте это соотношение сторон, если хотите захватить большую часть фона (например, живописные пейзажи).
Подсказка: мужчина в белой одежде сидит на пляже, крупный план, освещение «золотого часа» (соотношение сторон 16:9)
Портрет (9:16). Это соотношение широкоэкранное, но повернутое. Это относительно новое соотношение сторон, которое стало популяризироваться в приложениях для создания коротких видеороликов (например, короткометражках на YouTube). Используйте это для высоких объектов с сильной вертикальной ориентацией, таких как здания, деревья, водопады и другие подобные объекты.
Подсказка: цифровой рендер огромного небоскреба, современного, грандиозного, эпического, с прекрасным закатом на заднем плане (соотношение сторон 9:16).

Фотореалистичные изображения

Различные версии модели генерации изображений могут предлагать сочетание художественных и фотореалистичных результатов. Используйте следующую формулировку в подсказках, чтобы создать более фотореалистичный результат в зависимости от объекта, который вы хотите создать.

Вариант использования	Тип объектива	Фокусные расстояния	Дополнительная информация
Люди (портреты)	Прайм, увеличить	24-35 мм	черно-белая пленка, Нуар, Глубина резкости, дуотон (указать два цвета)
Еда, насекомые, растения (предметы, натюрморт)	Макрос	60-105 мм	Высокая детализация, точная фокусировка, контролируемое освещение.
Спорт, дикая природа (движение)	Телеобъектив с зумом	100-400 мм	Короткая выдержка, отслеживание действий или движений
Астрономический, пейзажный (широкоугольный)	Широкоугольный	10-24 мм	Длительная выдержка, резкий фокус, длинная выдержка, гладкая вода или облака

Портреты

Вариант использования	Тип объектива	Фокусные расстояния	Дополнительная информация
Люди (портреты)	Прайм, увеличить	24-35 мм	черно-белая пленка, Нуар, Глубина резкости, дуотон (указать два цвета)

Используя несколько ключевых слов из таблицы, Imagen может сгенерировать следующие портреты:

Подсказка: женщина, портрет 35 мм, синие и серые дуотоны.
Модель: imagen-3.0-generate-002

Подсказка: женщина, портрет 35 мм, фильм-нуар.
Модель: imagen-3.0-generate-002

Объекты

Вариант использования	Тип объектива	Фокусные расстояния	Дополнительная информация
Еда, насекомые, растения (предметы, натюрморт)	Макрос	60-105 мм	Высокая детализация, точная фокусировка, контролируемое освещение.

Используя несколько ключевых слов из таблицы, Imagen может генерировать следующие изображения объектов:

Подсказка: лист молитвенного растения, макрообъектив, 60 мм.
Модель: imagen-3.0-generate-002

Подсказка: тарелка макарон, макрообъектив 100 мм.
Модель: imagen-3.0-generate-002

Движение

Вариант использования	Тип объектива	Фокусные расстояния	Дополнительная информация
Спорт, дикая природа (движение)	Телеобъектив с зумом	100-400 мм	Короткая выдержка, отслеживание действий или движений

Используя несколько ключевых слов из таблицы, Imagen может генерировать следующие движущиеся изображения:

Подсказка: победное приземление, короткая выдержка, отслеживание движения.
Модель: imagen-3.0-generate-002

Подсказка: олень, бегущий по лесу, короткая выдержка, отслеживание движения.
Модель: imagen-3.0-generate-002

Широкоугольный

Вариант использования	Тип объектива	Фокусные расстояния	Дополнительная информация
Астрономический, пейзажный (широкоугольный)	Широкоугольный	10-24 мм	Длительная выдержка, резкий фокус, длинная выдержка, гладкая вода или облака

Используя несколько ключевых слов из таблицы, Imagen может генерировать следующие широкоугольные изображения:

Подсказка: обширный горный массив, пейзаж, широкий угол обзора 10 мм.
Модель: imagen-3.0-generate-002

Подсказка: фото Луны, астросъемка, широкоугольный 10мм.
Модель: imagen-3.0-generate-002

Что дальше

Ознакомьтесь с руководством Veo , чтобы узнать, как создавать видео с помощью Gemini API.
Дополнительные сведения о моделях Gemini 2.0 см. в разделах Модели Gemini и Экспериментальные модели .