تولید تصاویر

Gemini API از تولید تصویر با استفاده از Gemini 2.0 Flash Experimental و با استفاده از Imagen 3 پشتیبانی می کند. این راهنما به شما کمک می کند هر دو مدل را شروع کنید.

برای راهنمایی درخواست تصویر، بخش راهنمای درخواست تصویر Imagen را بررسی کنید.

قبل از شروع

قبل از تماس با Gemini API، مطمئن شوید که SDK مورد نظر خود را نصب کرده اید و یک کلید Gemini API پیکربندی شده و آماده استفاده است.

با استفاده از Gemini تصاویر تولید کنید

Gemini 2.0 Flash Experimental از قابلیت خروجی متن و تصاویر درون خطی پشتیبانی می کند. این به شما امکان می دهد از Gemini برای ویرایش مکالمه تصاویر یا تولید خروجی با متن در هم تنیده استفاده کنید (به عنوان مثال، ایجاد یک پست وبلاگ با متن و تصاویر در یک نوبت). همه تصاویر تولید شده دارای واترمارک SynthID هستند و تصاویر در استودیوی هوش مصنوعی گوگل شامل یک واترمارک قابل مشاهده نیز هستند.

مثال زیر نحوه استفاده از Gemini 2.0 برای تولید خروجی متن و تصویر را نشان می دهد:

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import base64

client = genai.Client()

contents = ('Hi, can you create a 3d rendered image of a pig '
            'with wings and a top hat flying over a happy '
            'futuristic scifi city with lots of greenery?')

response = client.models.generate_content(
    model="gemini-2.0-flash-exp-image-generation",
    contents=contents,
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO((part.inline_data.data)))
    image.save('gemini-native-image.png')
    image.show()
import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const contents =
    "Hi, can you create a 3d rendered image of a pig " +
    "with wings and a top hat flying over a happy " +
    "futuristic scifi city with lots of greenery?";

  // Set responseModalities to include "Image" so the model can generate  an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-exp-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();
package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {

  ctx := context.Background()
  client, _ := genai.NewClient(ctx, &genai.ClientConfig{
      APIKey:  os.Getenv("GEMINI_API_KEY"),
      Backend: genai.BackendGeminiAPI,
  })

  config := &genai.GenerateContentConfig{
      ResponseModalities: []string{"TEXT", "IMAGE"},
  }

  result, _ := client.Models.GenerateContent(
      ctx,
      "gemini-2.0-flash-exp-image-generation",
      genai.Text("Hi, can you create a 3d rendered image of a pig " +
                 "with wings and a top hat flying over a happy " +
                 "futuristic scifi city with lots of greenery?"),
      config,
  )

  for _, part := range result.Candidates[0].Content.Parts {
      if part.Text != "" {
          fmt.Println(part.Text)
      } else if part.InlineData != nil {
          imageBytes := part.InlineData.Data
          outputFilename := "gemini_generated_image.png"
          _ = os.WriteFile(outputFilename, imageBytes, 0644)
      }
  }
}
curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp-image-generation:generateContent?key=$GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        {"text": "Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"}
      ]
    }],
    "generationConfig":{"responseModalities":["TEXT","IMAGE"]}
  }' \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-native-image.png
تصویر ایجاد شده توسط هوش مصنوعی از یک خوک پرنده خارق العاده
تصویر ایجاد شده توسط هوش مصنوعی از یک خوک پرنده خارق العاده

بسته به اعلان و زمینه، Gemini محتوا را در حالت های مختلف (متن به تصویر، متن به تصویر و متن و غیره) تولید می کند. در اینجا چند نمونه آورده شده است:

  • متن به تصویر
    • اعلان مثال: "تصویری از برج ایفل با آتش بازی در پس زمینه ایجاد کنید."
  • متن به تصویر (ها) و متن (میانبر)
    • درخواست مثال: "یک دستور العمل مصور برای پائلا ایجاد کنید."
  • تصویر(ها) و متن به تصویر(ها) و متن (میانبر)
    • اعلان مثال: (با تصویر یک اتاق مبله) "مبل های چه رنگ دیگری در فضای من کار می کنند؟ آیا می توانید تصویر را به روز کنید؟"
  • ویرایش تصویر (متن و تصویر به تصویر)
    • درخواست مثال: "این تصویر را ویرایش کنید تا شبیه یک کارتون شود"
    • اعلان مثال: [تصویر گربه] + [تصویر بالش] + "یک بخیه متقاطع از گربه من روی این بالش ایجاد کنید."
  • ویرایش چند نوبتی تصویر (چت)
    • مثال می گوید: [تصویر یک ماشین آبی را آپلود کنید.] "این ماشین را به یک ماشین تبدیل کنید." "حالا رنگ را به زرد تغییر دهید."

ویرایش تصویر با Gemini

برای انجام ویرایش تصویر، یک تصویر را به عنوان ورودی اضافه کنید. مثال زیر آپلود تصاویر کدگذاری شده base64 را نشان می دهد. برای تصاویر متعدد و بارهای بزرگتر، بخش ورودی تصویر را بررسی کنید.

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

import PIL.Image

image = PIL.Image.open('/path/to/image.png')

client = genai.Client()

text_input = ('Hi, This is a picture of me.'
            'Can you add a llama next to me?',)

response = client.models.generate_content(
    model="gemini-2.0-flash-exp-image-generation",
    contents=[text_input, image],
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))
    image.show()
import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  // Load the image from the local file system
  const imagePath = "path/to/image.png";
  const imageData = fs.readFileSync(imagePath);
  const base64Image = imageData.toString("base64");

  // Prepare the content parts
  const contents = [
    { text: "Can you add a llama next to the image?" },
    {
      inlineData: {
        mimeType: "image/png",
        data: base64Image,
      },
    },
  ];

  // Set responseModalities to include "Image" so the model can generate an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-exp-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();
package main

import (
 "context"
 "fmt"
 "os"
 "google.golang.org/genai"
)

func main() {

 ctx := context.Background()
 client, _ := genai.NewClient(ctx, &genai.ClientConfig{
     APIKey:  os.Getenv("GEMINI_API_KEY"),
     Backend: genai.BackendGeminiAPI,
 })

 imagePath := "/path/to/image.png"
 imgData, _ := os.ReadFile(imagePath)

 parts := []*genai.Part{
   genai.NewPartFromText("Hi, This is a picture of me. Can you add a llama next to me?"),
   &genai.Part{
     InlineData: &genai.Blob{
       MIMEType: "image/png",
       Data:     imgData,
     },
   },
 }

 contents := []*genai.Content{
   genai.NewContentFromParts(parts, genai.RoleUser),
 }

 config := &genai.GenerateContentConfig{
     ResponseModalities: []string{"TEXT", "IMAGE"},
 }

 result, _ := client.Models.GenerateContent(
     ctx,
     "gemini-2.0-flash-exp-image-generation",
     contents,
     config,
 )

 for _, part := range result.Candidates[0].Content.Parts {
     if part.Text != "" {
         fmt.Println(part.Text)
     } else if part.InlineData != nil {
         imageBytes := part.InlineData.Data
         outputFilename := "gemini_generated_image.png"
         _ = os.WriteFile(outputFilename, imageBytes, 0644)
     }
 }
}
IMG_PATH=/path/to/your/image1.jpeg

if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi

IMG_BASE64=$(base64 "$B64FLAGS" "$IMG_PATH" 2>&1)

curl -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp-image-generation:generateContent?key=$GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -d "{
      \"contents\": [{
        \"parts\":[
            {\"text\": \"'Hi, This is a picture of me. Can you add a llama next to me\"},
            {
              \"inline_data\": {
                \"mime_type\":\"image/jpeg\",
                \"data\": \"$IMG_BASE64\"
              }
            }
        ]
      }],
      \"generationConfig\": {\"responseModalities\": [\"TEXT\", \"IMAGE\"]}
    }"  \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-edited-image.png

محدودیت ها

  • برای بهترین عملکرد، از زبان‌های زیر استفاده کنید: EN، es-MX، ja-JP، zh-CN، hi-IN.
  • تولید تصویر از ورودی های صوتی یا تصویری پشتیبانی نمی کند.
  • تولید تصویر ممکن است همیشه فعال نشود:
    • مدل ممکن است فقط متن خروجی داشته باشد. سعی کنید خروجی های تصویر را به طور صریح بخواهید (به عنوان مثال "تصویر ایجاد کنید"، "تصاویر را در حین حرکت ارائه دهید"، "تصویر را به روز کنید").
    • ممکن است تولید مدل به صورت نیمه تمام متوقف شود. دوباره امتحان کنید یا درخواست دیگری را امتحان کنید.
  • هنگام تولید متن برای یک تصویر، Gemini بهترین کار را دارد اگر ابتدا متن را تولید کنید و سپس تصویری را با متن درخواست کنید.

یک مدل انتخاب کنید

از کدام مدل برای تولید تصاویر استفاده کنید؟ بستگی به مورد استفاده شما دارد.

Gemini 2.0 برای تولید تصاویر مرتبط با زمینه، ترکیب متن + تصاویر، ترکیب دانش جهانی و استدلال در مورد تصاویر بهترین است. می توانید از آن برای ایجاد تصاویری دقیق و مرتبط با متن که در دنباله های متن طولانی جاسازی شده اند استفاده کنید. شما همچنین می توانید تصاویر را به صورت مکالمه و با استفاده از زبان طبیعی ویرایش کنید، در حالی که زمینه را در طول مکالمه حفظ کنید.

اگر کیفیت تصویر در اولویت شماست، پس Imagen 3 انتخاب بهتری است. Imagen 3 در فوتورئالیسم، جزئیات هنری و سبک های هنری خاص مانند امپرسیونیسم یا انیمه برتر است. Imagen 3 همچنین برای کارهای تخصصی ویرایش تصویر مانند به‌روزرسانی پس‌زمینه محصول، ارتقاء تصاویر و القای برند و سبک در تصاویر، انتخاب خوبی است. شما می توانید از Imagen 3 برای ایجاد لوگو یا سایر طرح های محصول برند استفاده کنید.

ایجاد تصاویر با استفاده از Imagen 3

Gemini API دسترسی به Imagen 3 ، با کیفیت‌ترین مدل متن به تصویر Google را فراهم می‌کند که دارای تعدادی قابلیت جدید و بهبود یافته است. Imagen 3 می تواند کارهای زیر را انجام دهد:

  • تصاویری با جزئیات بهتر، نورپردازی غنی‌تر و آثار باستانی کمتری نسبت به مدل‌های قبلی ایجاد کنید.
  • دستورات نوشته شده به زبان طبیعی را درک کنید
  • تصاویر را در طیف گسترده ای از فرمت ها و سبک ها ایجاد کنید
  • متن را موثرتر از مدل های قبلی ارائه دهید
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='Robot holding a red skateboard',
    config=types.GenerateImagesConfig(
        number_of_images= 4,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()
import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const response = await ai.models.generateImages({
    model: 'imagen-3.0-generate-002',
    prompt: 'Robot holding a red skateboard',
    config: {
      numberOfImages: 4,
    },
  });

  let idx = 1;
  for (const generatedImage of response.generatedImages) {
    let imgBytes = generatedImage.image.imageBytes;
    const buffer = Buffer.from(imgBytes, "base64");
    fs.writeFileSync(`imagen-${idx}.png`, buffer);
    idx++;
  }
}

main();
package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {

  ctx := context.Background()
  client, _ := genai.NewClient(ctx, &genai.ClientConfig{
      APIKey:  os.Getenv("GEMINI_API_KEY"),
      Backend: genai.BackendGeminiAPI,
  })

  config := &genai.GenerateImagesConfig{
      NumberOfImages: 4,
  }

  response, _ := client.Models.GenerateImages(
      ctx,
      "imagen-3.0-generate-002",
      "Robot holding a red skateboard",
      config,
  )

  for n, image := range response.GeneratedImages {
      fname := fmt.Sprintf("imagen-%d.png", n)
          _ = os.WriteFile(fname, image.Image.ImageBytes, 0644)
  }
}
curl -X POST \
    "https://generativelanguage.googleapis.com/v1beta/models/imagen-3.0-generate-002:predict?key=GEMINI_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
        "instances": [
          {
            "prompt": "Robot holding a red skateboard"
          }
        ],
        "parameters": {
          "sampleCount": 4
        }
      }'
تصویر ایجاد شده توسط هوش مصنوعی از دو خرگوش مبهم در آشپزخانه
تصویر ایجاد شده توسط هوش مصنوعی از دو خرگوش مبهم در آشپزخانه

Imagen در حال حاضر فقط از دستورات انگلیسی و پارامترهای زیر پشتیبانی می کند:

پارامترهای مدل Imagen

(قراردادهای نامگذاری بسته به زبان برنامه نویسی متفاوت است.)

  • numberOfImages : تعداد تصاویر برای تولید، از 1 تا 4 (شامل). پیش فرض 4 است.
  • aspectRatio : نسبت تصویر تولید شده را تغییر می دهد. مقادیر پشتیبانی شده عبارتند از "1:1" ، "3:4" ، "4:3" ، "9:16" و "16:9" . پیش فرض "1:1" است.
  • personGeneration : به مدل اجازه می دهد تصاویری از افراد تولید کند. مقادیر زیر پشتیبانی می شوند:
    • "DONT_ALLOW" : جلوی تولید تصاویر افراد را بگیرید.
    • "ALLOW_ADULT" : تصاویری از بزرگسالان ایجاد کنید، اما نه کودکان. این پیش فرض است.

راهنمای سریع Imagen

این بخش از راهنمای Imagen به شما نشان می دهد که چگونه تغییر دادن یک دستور متن به تصویر می تواند نتایج متفاوتی را همراه با نمونه هایی از تصاویری که می توانید ایجاد کنید، ایجاد کند.

اصول اولیه نوشتن سریع

یک دستور خوب توصیفی و واضح است و از کلمات کلیدی و اصلاح کننده های معنی دار استفاده می کند. با فکر کردن به موضوع ، زمینه و سبک خود شروع کنید.

سریع با تاکید بر موضوع، زمینه و سبک
متن تصویر: طرحی ( سبک ) از یک ساختمان آپارتمانی مدرن ( موضوع ) احاطه شده توسط آسمان‌خراش‌ها ( زمینه و پس‌زمینه ).
  1. موضوع : اولین چیزی که باید با هر درخواستی به آن فکر کنید، موضوع است: شی، شخص، حیوان یا مناظری که می‌خواهید تصویری از آن داشته باشید.

  2. زمینه و پس زمینه: به همان اندازه مهم است که پس زمینه یا زمینه ای که موضوع در آن قرار می گیرد. سعی کنید سوژه خود را در پس زمینه های مختلف قرار دهید. به عنوان مثال، یک استودیو با پس زمینه سفید، در فضای باز یا محیط های داخلی.

  3. Style: در نهایت سبک تصویر مورد نظر خود را اضافه کنید. سبک ها می توانند کلی باشند (نقاشی، عکس، طرح) یا بسیار خاص (نقاشی پاستل، طراحی زغال چوب، ایزومتریک سه بعدی). شما همچنین می توانید سبک ها را ترکیب کنید.

بعد از اینکه اولین نسخه درخواست خود را نوشتید، درخواست خود را با افزودن جزئیات بیشتر اصلاح کنید تا زمانی که به تصویر مورد نظر خود برسید. تکرار مهم است. با ایجاد ایده اصلی خود شروع کنید، و سپس آن ایده اصلی را اصلاح و گسترش دهید تا زمانی که تصویر تولید شده به دید شما نزدیک شود.

نمونه عکس واقعی 1
اعلان: پارکی در بهار در کنار دریاچه
نمونه عکس واقعی 2
اعلان: پارکی در بهار در کنار دریاچه، خورشید در سراسر دریاچه غروب می کند، ساعت طلایی
نمونه عکس واقعی 3
اعلان: پارکی در بهار در کنار دریاچه، خورشید در سراسر دریاچه غروب می کند، ساعت طلایی، گل های وحشی قرمز

Imagen 3 می تواند ایده های شما را به تصاویر دقیق تبدیل کند، خواه درخواست های شما کوتاه باشند یا طولانی و با جزئیات. دید خود را از طریق درخواست های تکراری اصلاح کنید، جزئیات را تا زمانی که به نتیجه عالی برسید اضافه کنید.

اعلان های کوتاه به شما امکان می دهد به سرعت یک تصویر ایجاد کنید.

مثال اعلان کوتاه Imagen 3
درخواست: عکس نزدیک از یک زن در 20 سالگی، عکاسی خیابانی، فیلم ثابت، زنگ های گرم نارنجی خاموش

درخواست های طولانی تر به شما امکان می دهد جزئیات خاصی را اضافه کنید و تصویر خود را بسازید.

مثال طولانی Imagen 3
اعلان: عکسی جذاب از یک زن 20 ساله که از سبک عکاسی خیابانی استفاده می کند. تصویر باید مانند فیلمی با زنگ‌های گرم نارنجی بی‌صدا باشد.

توصیه های اضافی برای نوشتن سریع Imagen:

  • از زبان توصیفی استفاده کنید : از صفت ها و قیدهای دقیق برای ترسیم تصویر واضح برای Imagen 3 استفاده کنید.
  • زمینه را ارائه دهید : در صورت لزوم، اطلاعات پس زمینه را برای کمک به درک هوش مصنوعی اضافه کنید.
  • ارجاع به هنرمندان یا سبک های خاص : اگر زیبایی شناسی خاصی در ذهن دارید، ارجاع به هنرمندان یا جنبش های هنری خاص می تواند مفید باشد.
  • از ابزارهای مهندسی سریع استفاده کنید : کاوش در ابزارها یا منابع مهندسی سریع را در نظر بگیرید تا به شما کمک کنند تا درخواست های خود را اصلاح کنید و به نتایج مطلوب برسید.
  • بهبود جزئیات صورت در تصاویر شخصی و گروهی :
    • جزئیات صورت را به عنوان فوکوس عکس مشخص کنید (به عنوان مثال، از کلمه "پرتره" در اعلان استفاده کنید).

تولید متن در تصاویر

Imagen می تواند متن را به تصاویر اضافه کند و فرصت های خلاقانه تری برای تولید تصویر ایجاد کند. برای استفاده بیشتر از این ویژگی از راهنمایی زیر استفاده کنید:

  • با اطمینان تکرار کنید : ممکن است مجبور شوید تصاویر را بازسازی کنید تا زمانی که به ظاهری که می‌خواهید برسید. ادغام متن Imagen هنوز در حال تکامل است و گاهی اوقات تلاش های متعدد بهترین نتایج را به همراه دارد.
  • کوتاه نگه دارید : برای تولید بهینه، متن را به 25 کاراکتر یا کمتر محدود کنید.
  • عبارات چندگانه : برای ارائه اطلاعات اضافی، دو یا سه عبارت مجزا را آزمایش کنید. برای ترکیبات تمیزتر از بیش از سه عبارت خودداری کنید.

    Imagen 3 تولید نمونه متن
    درخواست: پوستری با متن "Summerland" با فونت درشت به عنوان عنوان، زیر این متن شعار "تابستان هرگز احساس خوبی نداشت" است.
  • راهنمای قرار دادن : در حالی که Imagen می تواند سعی کند متن را مطابق دستور قرار دهد، انتظار تغییرات گاه به گاه را داشته باشید. این ویژگی به طور مداوم در حال بهبود است.

  • سبک قلم الهام بخش : یک سبک فونت کلی را مشخص کنید تا به طور نامحسوسی بر انتخاب های Imagen تأثیر بگذارد. به تکثیر دقیق فونت تکیه نکنید، بلکه انتظار تفسیرهای خلاقانه را داشته باشید.

  • اندازه قلم : اندازه قلم یا نشانه کلی اندازه (مثلاً کوچک ، متوسط ، بزرگ ) را برای تأثیرگذاری بر تولید اندازه قلم مشخص کنید.

پارامترسازی سریع

برای کنترل بهتر نتایج خروجی، ممکن است پارامترسازی ورودی ها در Imagen مفید باشد. برای مثال، فرض کنید می‌خواهید مشتریان شما بتوانند برای کسب‌وکار خود لوگو تولید کنند و می‌خواهید مطمئن شوید که آرم‌ها همیشه روی یک پس‌زمینه تک رنگ تولید می‌شوند. همچنین می‌خواهید گزینه‌هایی را که مشتری می‌تواند از یک منو انتخاب کند، محدود کنید.

در این مثال می‌توانید یک اعلان پارامتری شبیه به زیر ایجاد کنید:

A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.

در رابط کاربری سفارشی شما، مشتری می‌تواند پارامترها را با استفاده از یک منو وارد کند و مقدار انتخابی آنها، درخواستی را که Imagen دریافت می‌کند پر می‌کند.

به عنوان مثال:

  1. Prompt: A minimalist logo for a health care company on a solid color background. Include the text Journey .

    مثال 1 پارامترسازی سریع Imagen 3

  2. Prompt: A modern logo for a software company on a solid color background. Include the text Silo .

    مثال 2 پارامترسازی سریع Imagen 3

  3. Prompt: A traditional logo for a baking company on a solid color background. Include the text Seed .

    مثال 3 پارامترسازی سریع Imagen 3

تکنیک های پیشرفته نوشتن سریع

از مثال‌های زیر برای ایجاد اعلان‌های خاص‌تر بر اساس ویژگی‌هایی مانند توصیفگرهای عکاسی، اشکال و مواد، حرکات هنری تاریخی، و اصلاح‌کننده‌های کیفیت تصویر استفاده کنید.

عکاسی

  • درخواست شامل: "یک عکس از..."

برای استفاده از این سبک، با استفاده از کلمات کلیدی که به وضوح به Imagen می گویند که به دنبال عکس هستید، شروع کنید. درخواست های خود را با "عکسی از ..." شروع کنید. . به عنوان مثال:

نمونه عکس واقعی 1
اعلان: عکسی از دانه های قهوه در آشپزخانه روی یک سطح چوبی
نمونه عکس واقعی 2
درخواست: عکسی از یک تخته شکلات روی پیشخوان آشپزخانه
نمونه عکس واقعی 3
Prompt: عکسی از یک ساختمان مدرن با آب در پس زمینه

منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 3 تولید شده است.

اصلاح کننده های عکاسی

در مثال های زیر می توانید چندین تغییر دهنده و پارامتر مخصوص عکاسی را مشاهده کنید. برای کنترل دقیق تر، می توانید چندین اصلاح کننده را ترکیب کنید.

  1. نزدیکی دوربین - از نزدیک، از دور گرفته شده است

    تصویر نمونه دوربین از نزدیک
    درخواست: عکسی از دانه های قهوه از نمای نزدیک
    تصویر نمونه دوربین کوچک‌نمایی شده
    درخواست: یک عکس کوچک‌نمایی شده از یک کیسه کوچک
    دانه های قهوه در آشپزخانه ای نامرتب

  2. موقعیت دوربین - هوایی، از پایین

    نمونه عکس هوایی
    اعلان: عکس هوایی از شهر شهری با آسمان خراش ها
    نمایی از زیر تصویر نمونه
    اعلان: عکسی از سایه بان جنگل با آسمان آبی از پایین
  3. نورپردازی - طبیعی، دراماتیک، گرم، سرد

    تصویر نمونه نور طبیعی
    اعلان: عکس استودیویی از یک صندلی بازویی مدرن، نور طبیعی
    تصویر نمونه نورپردازی دراماتیک
    درخواست: عکس استودیویی از یک صندلی بازویی مدرن، نورپردازی چشمگیر
  4. تنظیمات دوربین - تاری حرکت، فوکوس نرم، بوکه، پرتره

    تصویر نمونه حرکت تاری
    اعلان: عکس شهری با آسمان‌خراش‌ها از داخل خودرو با تاری حرکت
    تصویر نمونه فوکوس نرم
    درخواست: عکس با فوکوس نرم از یک پل در یک شهر شهری در شب
  5. انواع لنز - 35 میلی متر، 50 میلی متر، چشم ماهی، زاویه باز، ماکرو

    تصویر نمونه لنز ماکرو
    درخواست: عکس یک برگ، لنز ماکرو
    تصویر نمونه لنز چشم ماهی
    درخواست: عکاسی خیابانی، شهر نیویورک، لنز چشم ماهی
  6. انواع فیلم - سیاه و سفید، پولاروید

    عکس نمونه پولاروید
    اعلان: پرتره پلاروید از سگی که عینک آفتابی دارد
    عکس سیاه و سفید نمونه عکس
    اعلان: عکس سیاه و سفید سگی که عینک آفتابی زده است

منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 3 تولید شده است.

تصویرسازی و هنر

  • درخواست شامل: "یک painting از..." ، "یک sketch از..."

سبک‌های هنری از سبک‌های تک رنگ مانند طرح‌های مداد گرفته تا هنر دیجیتال فوق‌العاده متفاوت است. به عنوان مثال، تصاویر زیر از همان دستور با سبک های مختلف استفاده می کنند:

"یک [art style or creation technique] یک سدان الکتریکی اسپرت زاویه دار با آسمان خراش ها در پس زمینه"

تصاویر نمونه هنری
درخواست: طراحی فنی با مداد از یک زاویه...
تصاویر نمونه هنری
درخواست: نقاشی زغالی از یک زاویه...
تصاویر نمونه هنری
درخواست: طراحی با مداد رنگی از یک زاویه...
تصاویر نمونه هنری
درخواست: یک نقاشی پاستلی از یک زاویه...
تصاویر نمونه هنری
اعلان: هنر دیجیتال زاویه ای...
تصاویر نمونه هنری
Prompt: یک آرت دکو (پوستر) از یک زاویه...

منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 2 تولید شده است.

اشکال و مواد

  • اعلان شامل: "...ساخته شده از..." ، "...به شکل..."

یکی از نقاط قوت این فناوری این است که می توانید تصاویری ایجاد کنید که در غیر این صورت دشوار یا غیرممکن است. به عنوان مثال، می توانید لوگوی شرکت خود را در مواد و بافت های مختلف بازسازی کنید.

شکل ها و مواد نمونه تصویر 1
درخواست: یک کیسه دافلی ساخته شده از پنیر
شکل ها و مواد نمونه تصویر 2
اعلان: لوله های نئونی به شکل پرنده
شکل ها و مواد مثال تصویر 3
اعلان: یک صندلی صندلی ساخته شده از کاغذ ، عکس استودیویی، سبک اوریگامی

منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 3 تولید شده است.

ارجاعات هنر تاریخی

  • اعلان شامل: "...به سبک..."

برخی از سبک ها در طول سال ها تبدیل به نماد شده اند. در زیر ایده هایی از نقاشی تاریخی یا سبک های هنری وجود دارد که می توانید آنها را امتحان کنید.

"تصویر را به سبک [art period or movement] ایجاد کنید: مزرعه بادی"

تصویر نمونه امپرسیونیسم
اعلان: ایجاد تصویری به سبک نقاشی امپرسیونیستی : مزرعه بادی
تصویر نمونه رنسانس
اعلان: تصویری به سبک نقاشی رنسانس ایجاد کنید: مزرعه بادی
تصویر نمونه پاپ آرت
اعلان: ایجاد یک تصویر به سبک هنر پاپ : مزرعه بادی

منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 3 تولید شده است.

اصلاح کننده های کیفیت تصویر

برخی از کلمات کلیدی می توانند به مدل بفهمانند که شما به دنبال دارایی با کیفیت بالا هستید. نمونه هایی از اصلاح کننده های کیفیت عبارتند از:

  • اصلاح کننده های عمومی - با کیفیت بالا، زیبا، شیک
  • عکس - 4K، HDR، عکس استودیو
  • هنر، تصویرسازی - توسط یک حرفه ای، دقیق

در زیر چند نمونه از اعلان‌های بدون تعدیل‌کننده کیفیت و همان اعلان با اصلاح‌کننده‌های کیفیت آورده شده است.

تصویر نمونه ذرت بدون تغییر دهنده
اعلان (بدون اصلاح کننده کیفیت): عکسی از ساقه ذرت
تصویر نمونه ذرت با اصلاح کننده ها
اعلان (با اصلاح کننده های کیفیت): 4k HDR زیبا
عکس ساقه ذرت که توسط a
عکاس حرفه ای

منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 3 تولید شده است.

نسبت ابعاد

تولید تصویر Imagen 3 به شما امکان می دهد پنج نسبت تصویر متمایز را تنظیم کنید.

  1. مربع (1:1، پیش فرض) - یک عکس مربع استاندارد. استفاده های رایج برای این نسبت ابعاد شامل پست های رسانه های اجتماعی است.
  2. تمام صفحه (4:3) - این نسبت تصویر معمولاً در رسانه یا فیلم استفاده می شود. همچنین ابعاد اکثر تلویزیون های قدیمی (غیر عریض) و دوربین های مدیوم فرمت است. بیشتر صحنه را به صورت افقی می گیرد (در مقایسه با 1:1) که آن را به نسبت تصویر ترجیحی برای عکاسی تبدیل می کند.

    مثال نسبت تصویر
    درخواست: از نزدیک انگشتان یک نوازنده در حال نواختن پیانو، فیلم سیاه و سفید، قدیمی (نسبت تصویر 4:3)
    مثال نسبت تصویر
    درخواست: یک عکس آتلیه ای حرفه ای از سیب زمینی سرخ کرده برای یک رستوران سطح بالا، به سبک مجله غذایی (نسبت تصویر 4:3)
  3. تمام صفحه پرتره (3:4) - این نسبت تصویر تمام صفحه است که 90 درجه چرخیده است. این اجازه می دهد تا در مقایسه با نسبت تصویر 1:1، صحنه بیشتری را به صورت عمودی ثبت کنید.

    مثال نسبت تصویر
    اعلان: زنی در حال پیاده‌روی، بستن چکمه‌هایش در گودال، کوه‌های بزرگ در پس‌زمینه، به سبک تبلیغات، زوایای دراماتیک (نسبت تصویر 3:4)
    مثال نسبت تصویر
    درخواست: عکس هوایی از رودخانه ای که از دره عرفانی جاری می شود (نسبت تصویر 3:4)
  4. صفحه عریض (16:9) - این نسبت جایگزین 4:3 شده است و اکنون رایج ترین نسبت تصویر برای تلویزیون ها، مانیتورها و صفحه نمایش تلفن های همراه (منظره) است. زمانی که می خواهید بیشتر پس زمینه را ثبت کنید (مثلاً مناظر منظره) از این نسبت تصویر استفاده کنید.

    مثال نسبت تصویر
    اعلان: مردی با لباس های تمام سفید در ساحل نشسته، از نزدیک، نور ساعت طلایی (نسبت تصویر 16:9)
  5. پرتره (9:16) - این نسبت صفحه عریض است اما چرخشی است. این نسبت ابعاد نسبتاً جدیدی است که توسط برنامه‌های ویدیویی کوتاه (مثلاً شورت‌های یوتیوب) رایج شده است. از این برای اجسام بلند با جهت های عمودی قوی مانند ساختمان ها، درختان، آبشارها یا سایر اشیاء مشابه استفاده کنید.

    مثال نسبت تصویر
    Prompt: رندر دیجیتالی از یک آسمان خراش عظیم، مدرن، بزرگ، حماسی با غروب زیبا در پس زمینه (نسبت تصویر 9:16)

تصاویر فوتورئالیستی

نسخه های مختلف مدل تولید تصویر ممکن است ترکیبی از خروجی هنری و فوتورئالیستی را ارائه دهند. برای ایجاد خروجی واقعی تری بر اساس موضوعی که می خواهید ایجاد کنید، از عبارت زیر در دستورات استفاده کنید.

مورد استفاده نوع لنز فواصل کانونی جزئیات اضافی
مردم (پرتره) پرایم، بزرگنمایی 24-35 میلی متر فیلم سیاه و سفید، فیلم نوآر، عمق میدان، دو رنگ (ذکر دو رنگ)
غذا، حشرات، گیاهان (اشیاء، طبیعت بی جان) ماکرو 60-105 میلی متر جزئیات بالا، فوکوس دقیق، نور کنترل شده
ورزش، حیات وحش (حرکت) زوم تله فوتو 100-400 میلی متر سرعت شاتر سریع، ردیابی حرکت یا حرکت
نجومی، منظره (زاویه باز) زاویه باز 10-24 میلی متر زمان نوردهی طولانی، فوکوس واضح، نوردهی طولانی، آب صاف یا ابر

پرتره ها

مورد استفاده نوع لنز فواصل کانونی جزئیات اضافی
مردم (پرتره) پرایم، بزرگنمایی 24-35 میلی متر فیلم سیاه و سفید، فیلم نوآر، عمق میدان، دو رنگ (ذکر دو رنگ)

با استفاده از چندین کلمه کلیدی از جدول، Imagen می تواند پرتره های زیر را ایجاد کند:

نمونه عکاسی پرترهنمونه عکاسی پرترهنمونه عکاسی پرترهنمونه عکاسی پرتره

اعلان: یک زن، پرتره 35 میلی متری، دوتونی آبی و خاکستری
مدل: imagen-3.0-generate-002

نمونه عکاسی پرترهنمونه عکاسی پرترهنمونه عکاسی پرترهنمونه عکاسی پرتره

درخواست: یک زن، پرتره 35 میلی متری، فیلم نوآر
مدل: imagen-3.0-generate-002

اشیاء

مورد استفاده نوع لنز فواصل کانونی جزئیات اضافی
غذا، حشرات، گیاهان (اشیاء، طبیعت بی جان) ماکرو 60-105 میلی متر جزئیات بالا، فوکوس دقیق، نور کنترل شده

با استفاده از چندین کلمه کلیدی از جدول، Imagen می تواند تصاویر شیء زیر را ایجاد کند:

نمونه عکاسی از شینمونه عکاسی از شینمونه عکاسی از شینمونه عکاسی از شی

اعلان: برگ گیاه دعا، لنز ماکرو، 60 میلی متر
مدل: imagen-3.0-generate-002

نمونه عکاسی از شینمونه عکاسی از شینمونه عکاسی از شینمونه عکاسی از شی

درخواست: یک بشقاب پاستا، لنز ماکرو 100 میلی‌متری
مدل: imagen-3.0-generate-002

حرکت

مورد استفاده نوع لنز فواصل کانونی جزئیات اضافی
ورزش، حیات وحش (حرکت) زوم تله فوتو 100-400 میلی متر سرعت شاتر سریع، ردیابی حرکت یا حرکت

با استفاده از چندین کلمه کلیدی از جدول، Imagen می تواند تصاویر متحرک زیر را ایجاد کند:

نمونه عکاسی متحرکنمونه عکاسی متحرکنمونه عکاسی متحرکنمونه عکاسی متحرک

اعلان: تاچ داون برنده، سرعت شاتر سریع، ردیابی حرکت
مدل: imagen-3.0-generate-002

نمونه عکاسی متحرکنمونه عکاسی متحرکنمونه عکاسی متحرکنمونه عکاسی متحرک

اعلان: آهویی که در جنگل می دود، سرعت شاتر سریع، ردیابی حرکت
مدل: imagen-3.0-generate-002

زاویه باز

مورد استفاده نوع لنز فواصل کانونی جزئیات اضافی
نجومی، منظره (زاویه باز) زاویه باز 10-24 میلی متر زمان نوردهی طولانی، فوکوس واضح، نوردهی طولانی، آب صاف یا ابر

با استفاده از چندین کلمه کلیدی از جدول، Imagen می تواند تصاویر زاویه باز زیر را ایجاد کند:

نمونه عکاسی با زاویه بازنمونه عکاسی با زاویه بازنمونه عکاسی با زاویه بازنمونه عکاسی با زاویه باز

اعلان: یک رشته کوه گسترده، چشم انداز با زاویه وسیع 10 میلی متر
مدل: imagen-3.0-generate-002

نمونه عکاسی با زاویه بازنمونه عکاسی با زاویه بازنمونه عکاسی با زاویه بازنمونه عکاسی با زاویه باز

اعلان: عکسی از ماه، عکاسی نجومی، زاویه باز 10 میلی متر
مدل: imagen-3.0-generate-002

بعدش چی