Gemini API از تولید تصویر با استفاده از Gemini 2.0 Flash Experimental و با استفاده از Imagen 3 پشتیبانی می کند. این راهنما به شما کمک می کند هر دو مدل را شروع کنید.
برای راهنمایی درخواست تصویر، بخش راهنمای درخواست تصویر Imagen را بررسی کنید.
قبل از شروع
قبل از تماس با Gemini API، مطمئن شوید که SDK مورد نظر خود را نصب کرده اید و یک کلید Gemini API پیکربندی شده و آماده استفاده است.
با استفاده از Gemini تصاویر تولید کنید
Gemini 2.0 Flash Experimental از قابلیت خروجی متن و تصاویر درون خطی پشتیبانی می کند. این به شما امکان می دهد از Gemini برای ویرایش مکالمه تصاویر یا تولید خروجی با متن در هم تنیده استفاده کنید (به عنوان مثال، ایجاد یک پست وبلاگ با متن و تصاویر در یک نوبت). همه تصاویر تولید شده دارای واترمارک SynthID هستند و تصاویر در استودیوی هوش مصنوعی گوگل شامل یک واترمارک قابل مشاهده نیز هستند.
مثال زیر نحوه استفاده از Gemini 2.0 برای تولید خروجی متن و تصویر را نشان می دهد:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import base64
client = genai.Client()
contents = ('Hi, can you create a 3d rendered image of a pig '
'with wings and a top hat flying over a happy '
'futuristic scifi city with lots of greenery?')
response = client.models.generate_content(
model="gemini-2.0-flash-exp-image-generation",
contents=contents,
config=types.GenerateContentConfig(
response_modalities=['TEXT', 'IMAGE']
)
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO((part.inline_data.data)))
image.save('gemini-native-image.png')
image.show()
import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";
async function main() {
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
const contents =
"Hi, can you create a 3d rendered image of a pig " +
"with wings and a top hat flying over a happy " +
"futuristic scifi city with lots of greenery?";
// Set responseModalities to include "Image" so the model can generate an image
const response = await ai.models.generateContent({
model: "gemini-2.0-flash-exp-image-generation",
contents: contents,
config: {
responseModalities: [Modality.TEXT, Modality.IMAGE],
},
});
for (const part of response.candidates[0].content.parts) {
// Based on the part type, either show the text or save the image
if (part.text) {
console.log(part.text);
} else if (part.inlineData) {
const imageData = part.inlineData.data;
const buffer = Buffer.from(imageData, "base64");
fs.writeFileSync("gemini-native-image.png", buffer);
console.log("Image saved as gemini-native-image.png");
}
}
}
main();
package main
import (
"context"
"fmt"
"os"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, _ := genai.NewClient(ctx, &genai.ClientConfig{
APIKey: os.Getenv("GEMINI_API_KEY"),
Backend: genai.BackendGeminiAPI,
})
config := &genai.GenerateContentConfig{
ResponseModalities: []string{"TEXT", "IMAGE"},
}
result, _ := client.Models.GenerateContent(
ctx,
"gemini-2.0-flash-exp-image-generation",
genai.Text("Hi, can you create a 3d rendered image of a pig " +
"with wings and a top hat flying over a happy " +
"futuristic scifi city with lots of greenery?"),
config,
)
for _, part := range result.Candidates[0].Content.Parts {
if part.Text != "" {
fmt.Println(part.Text)
} else if part.InlineData != nil {
imageBytes := part.InlineData.Data
outputFilename := "gemini_generated_image.png"
_ = os.WriteFile(outputFilename, imageBytes, 0644)
}
}
}
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp-image-generation:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{"text": "Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"}
]
}],
"generationConfig":{"responseModalities":["TEXT","IMAGE"]}
}' \
| grep -o '"data": "[^"]*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-native-image.png

بسته به اعلان و زمینه، Gemini محتوا را در حالت های مختلف (متن به تصویر، متن به تصویر و متن و غیره) تولید می کند. در اینجا چند نمونه آورده شده است:
- متن به تصویر
- اعلان مثال: "تصویری از برج ایفل با آتش بازی در پس زمینه ایجاد کنید."
- متن به تصویر (ها) و متن (میانبر)
- درخواست مثال: "یک دستور العمل مصور برای پائلا ایجاد کنید."
- تصویر(ها) و متن به تصویر(ها) و متن (میانبر)
- اعلان مثال: (با تصویر یک اتاق مبله) "مبل های چه رنگ دیگری در فضای من کار می کنند؟ آیا می توانید تصویر را به روز کنید؟"
- ویرایش تصویر (متن و تصویر به تصویر)
- درخواست مثال: "این تصویر را ویرایش کنید تا شبیه یک کارتون شود"
- اعلان مثال: [تصویر گربه] + [تصویر بالش] + "یک بخیه متقاطع از گربه من روی این بالش ایجاد کنید."
- ویرایش چند نوبتی تصویر (چت)
- مثال می گوید: [تصویر یک ماشین آبی را آپلود کنید.] "این ماشین را به یک ماشین تبدیل کنید." "حالا رنگ را به زرد تغییر دهید."
ویرایش تصویر با Gemini
برای انجام ویرایش تصویر، یک تصویر را به عنوان ورودی اضافه کنید. مثال زیر آپلود تصاویر کدگذاری شده base64 را نشان می دهد. برای تصاویر متعدد و بارهای بزرگتر، بخش ورودی تصویر را بررسی کنید.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import PIL.Image
image = PIL.Image.open('/path/to/image.png')
client = genai.Client()
text_input = ('Hi, This is a picture of me.'
'Can you add a llama next to me?',)
response = client.models.generate_content(
model="gemini-2.0-flash-exp-image-generation",
contents=[text_input, image],
config=types.GenerateContentConfig(
response_modalities=['TEXT', 'IMAGE']
)
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.show()
import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";
async function main() {
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
// Load the image from the local file system
const imagePath = "path/to/image.png";
const imageData = fs.readFileSync(imagePath);
const base64Image = imageData.toString("base64");
// Prepare the content parts
const contents = [
{ text: "Can you add a llama next to the image?" },
{
inlineData: {
mimeType: "image/png",
data: base64Image,
},
},
];
// Set responseModalities to include "Image" so the model can generate an image
const response = await ai.models.generateContent({
model: "gemini-2.0-flash-exp-image-generation",
contents: contents,
config: {
responseModalities: [Modality.TEXT, Modality.IMAGE],
},
});
for (const part of response.candidates[0].content.parts) {
// Based on the part type, either show the text or save the image
if (part.text) {
console.log(part.text);
} else if (part.inlineData) {
const imageData = part.inlineData.data;
const buffer = Buffer.from(imageData, "base64");
fs.writeFileSync("gemini-native-image.png", buffer);
console.log("Image saved as gemini-native-image.png");
}
}
}
main();
package main
import (
"context"
"fmt"
"os"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, _ := genai.NewClient(ctx, &genai.ClientConfig{
APIKey: os.Getenv("GEMINI_API_KEY"),
Backend: genai.BackendGeminiAPI,
})
imagePath := "/path/to/image.png"
imgData, _ := os.ReadFile(imagePath)
parts := []*genai.Part{
genai.NewPartFromText("Hi, This is a picture of me. Can you add a llama next to me?"),
&genai.Part{
InlineData: &genai.Blob{
MIMEType: "image/png",
Data: imgData,
},
},
}
contents := []*genai.Content{
genai.NewContentFromParts(parts, genai.RoleUser),
}
config := &genai.GenerateContentConfig{
ResponseModalities: []string{"TEXT", "IMAGE"},
}
result, _ := client.Models.GenerateContent(
ctx,
"gemini-2.0-flash-exp-image-generation",
contents,
config,
)
for _, part := range result.Candidates[0].Content.Parts {
if part.Text != "" {
fmt.Println(part.Text)
} else if part.InlineData != nil {
imageBytes := part.InlineData.Data
outputFilename := "gemini_generated_image.png"
_ = os.WriteFile(outputFilename, imageBytes, 0644)
}
}
}
IMG_PATH=/path/to/your/image1.jpeg
if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
B64FLAGS="--input"
else
B64FLAGS="-w0"
fi
IMG_BASE64=$(base64 "$B64FLAGS" "$IMG_PATH" 2>&1)
curl -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp-image-generation:generateContent?key=$GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d "{
\"contents\": [{
\"parts\":[
{\"text\": \"'Hi, This is a picture of me. Can you add a llama next to me\"},
{
\"inline_data\": {
\"mime_type\":\"image/jpeg\",
\"data\": \"$IMG_BASE64\"
}
}
]
}],
\"generationConfig\": {\"responseModalities\": [\"TEXT\", \"IMAGE\"]}
}" \
| grep -o '"data": "[^"]*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-edited-image.png
محدودیت ها
- برای بهترین عملکرد، از زبانهای زیر استفاده کنید: EN، es-MX، ja-JP، zh-CN، hi-IN.
- تولید تصویر از ورودی های صوتی یا تصویری پشتیبانی نمی کند.
- تولید تصویر ممکن است همیشه فعال نشود:
- مدل ممکن است فقط متن خروجی داشته باشد. سعی کنید خروجی های تصویر را به طور صریح بخواهید (به عنوان مثال "تصویر ایجاد کنید"، "تصاویر را در حین حرکت ارائه دهید"، "تصویر را به روز کنید").
- ممکن است تولید مدل به صورت نیمه تمام متوقف شود. دوباره امتحان کنید یا درخواست دیگری را امتحان کنید.
- هنگام تولید متن برای یک تصویر، Gemini بهترین کار را دارد اگر ابتدا متن را تولید کنید و سپس تصویری را با متن درخواست کنید.
یک مدل انتخاب کنید
از کدام مدل برای تولید تصاویر استفاده کنید؟ بستگی به مورد استفاده شما دارد.
Gemini 2.0 برای تولید تصاویر مرتبط با زمینه، ترکیب متن + تصاویر، ترکیب دانش جهانی و استدلال در مورد تصاویر بهترین است. می توانید از آن برای ایجاد تصاویری دقیق و مرتبط با متن که در دنباله های متن طولانی جاسازی شده اند استفاده کنید. شما همچنین می توانید تصاویر را به صورت مکالمه و با استفاده از زبان طبیعی ویرایش کنید، در حالی که زمینه را در طول مکالمه حفظ کنید.
اگر کیفیت تصویر در اولویت شماست، پس Imagen 3 انتخاب بهتری است. Imagen 3 در فوتورئالیسم، جزئیات هنری و سبک های هنری خاص مانند امپرسیونیسم یا انیمه برتر است. Imagen 3 همچنین برای کارهای تخصصی ویرایش تصویر مانند بهروزرسانی پسزمینه محصول، ارتقاء تصاویر و القای برند و سبک در تصاویر، انتخاب خوبی است. شما می توانید از Imagen 3 برای ایجاد لوگو یا سایر طرح های محصول برند استفاده کنید.
ایجاد تصاویر با استفاده از Imagen 3
Gemini API دسترسی به Imagen 3 ، با کیفیتترین مدل متن به تصویر Google را فراهم میکند که دارای تعدادی قابلیت جدید و بهبود یافته است. Imagen 3 می تواند کارهای زیر را انجام دهد:
- تصاویری با جزئیات بهتر، نورپردازی غنیتر و آثار باستانی کمتری نسبت به مدلهای قبلی ایجاد کنید.
- دستورات نوشته شده به زبان طبیعی را درک کنید
- تصاویر را در طیف گسترده ای از فرمت ها و سبک ها ایجاد کنید
- متن را موثرتر از مدل های قبلی ارائه دهید
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='Robot holding a red skateboard',
config=types.GenerateImagesConfig(
number_of_images= 4,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";
async function main() {
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
const response = await ai.models.generateImages({
model: 'imagen-3.0-generate-002',
prompt: 'Robot holding a red skateboard',
config: {
numberOfImages: 4,
},
});
let idx = 1;
for (const generatedImage of response.generatedImages) {
let imgBytes = generatedImage.image.imageBytes;
const buffer = Buffer.from(imgBytes, "base64");
fs.writeFileSync(`imagen-${idx}.png`, buffer);
idx++;
}
}
main();
package main
import (
"context"
"fmt"
"os"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, _ := genai.NewClient(ctx, &genai.ClientConfig{
APIKey: os.Getenv("GEMINI_API_KEY"),
Backend: genai.BackendGeminiAPI,
})
config := &genai.GenerateImagesConfig{
NumberOfImages: 4,
}
response, _ := client.Models.GenerateImages(
ctx,
"imagen-3.0-generate-002",
"Robot holding a red skateboard",
config,
)
for n, image := range response.GeneratedImages {
fname := fmt.Sprintf("imagen-%d.png", n)
_ = os.WriteFile(fname, image.Image.ImageBytes, 0644)
}
}
curl -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/imagen-3.0-generate-002:predict?key=GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"instances": [
{
"prompt": "Robot holding a red skateboard"
}
],
"parameters": {
"sampleCount": 4
}
}'

Imagen در حال حاضر فقط از دستورات انگلیسی و پارامترهای زیر پشتیبانی می کند:
پارامترهای مدل Imagen
(قراردادهای نامگذاری بسته به زبان برنامه نویسی متفاوت است.)
-
numberOfImages
: تعداد تصاویر برای تولید، از 1 تا 4 (شامل). پیش فرض 4 است. -
aspectRatio
: نسبت تصویر تولید شده را تغییر می دهد. مقادیر پشتیبانی شده عبارتند از"1:1"
،"3:4"
،"4:3"
،"9:16"
و"16:9"
. پیش فرض"1:1"
است. -
personGeneration
: به مدل اجازه می دهد تصاویری از افراد تولید کند. مقادیر زیر پشتیبانی می شوند:-
"DONT_ALLOW"
: جلوی تولید تصاویر افراد را بگیرید. -
"ALLOW_ADULT"
: تصاویری از بزرگسالان ایجاد کنید، اما نه کودکان. این پیش فرض است.
-
راهنمای سریع Imagen
این بخش از راهنمای Imagen به شما نشان می دهد که چگونه تغییر دادن یک دستور متن به تصویر می تواند نتایج متفاوتی را همراه با نمونه هایی از تصاویری که می توانید ایجاد کنید، ایجاد کند.
اصول اولیه نوشتن سریع
یک دستور خوب توصیفی و واضح است و از کلمات کلیدی و اصلاح کننده های معنی دار استفاده می کند. با فکر کردن به موضوع ، زمینه و سبک خود شروع کنید.

موضوع : اولین چیزی که باید با هر درخواستی به آن فکر کنید، موضوع است: شی، شخص، حیوان یا مناظری که میخواهید تصویری از آن داشته باشید.
زمینه و پس زمینه: به همان اندازه مهم است که پس زمینه یا زمینه ای که موضوع در آن قرار می گیرد. سعی کنید سوژه خود را در پس زمینه های مختلف قرار دهید. به عنوان مثال، یک استودیو با پس زمینه سفید، در فضای باز یا محیط های داخلی.
Style: در نهایت سبک تصویر مورد نظر خود را اضافه کنید. سبک ها می توانند کلی باشند (نقاشی، عکس، طرح) یا بسیار خاص (نقاشی پاستل، طراحی زغال چوب، ایزومتریک سه بعدی). شما همچنین می توانید سبک ها را ترکیب کنید.
بعد از اینکه اولین نسخه درخواست خود را نوشتید، درخواست خود را با افزودن جزئیات بیشتر اصلاح کنید تا زمانی که به تصویر مورد نظر خود برسید. تکرار مهم است. با ایجاد ایده اصلی خود شروع کنید، و سپس آن ایده اصلی را اصلاح و گسترش دهید تا زمانی که تصویر تولید شده به دید شما نزدیک شود.
![]() | ![]() | ![]() |
Imagen 3 می تواند ایده های شما را به تصاویر دقیق تبدیل کند، خواه درخواست های شما کوتاه باشند یا طولانی و با جزئیات. دید خود را از طریق درخواست های تکراری اصلاح کنید، جزئیات را تا زمانی که به نتیجه عالی برسید اضافه کنید.
اعلان های کوتاه به شما امکان می دهد به سرعت یک تصویر ایجاد کنید. ![]() | درخواست های طولانی تر به شما امکان می دهد جزئیات خاصی را اضافه کنید و تصویر خود را بسازید. ![]() |
توصیه های اضافی برای نوشتن سریع Imagen:
- از زبان توصیفی استفاده کنید : از صفت ها و قیدهای دقیق برای ترسیم تصویر واضح برای Imagen 3 استفاده کنید.
- زمینه را ارائه دهید : در صورت لزوم، اطلاعات پس زمینه را برای کمک به درک هوش مصنوعی اضافه کنید.
- ارجاع به هنرمندان یا سبک های خاص : اگر زیبایی شناسی خاصی در ذهن دارید، ارجاع به هنرمندان یا جنبش های هنری خاص می تواند مفید باشد.
- از ابزارهای مهندسی سریع استفاده کنید : کاوش در ابزارها یا منابع مهندسی سریع را در نظر بگیرید تا به شما کمک کنند تا درخواست های خود را اصلاح کنید و به نتایج مطلوب برسید.
- بهبود جزئیات صورت در تصاویر شخصی و گروهی :
- جزئیات صورت را به عنوان فوکوس عکس مشخص کنید (به عنوان مثال، از کلمه "پرتره" در اعلان استفاده کنید).
تولید متن در تصاویر
Imagen می تواند متن را به تصاویر اضافه کند و فرصت های خلاقانه تری برای تولید تصویر ایجاد کند. برای استفاده بیشتر از این ویژگی از راهنمایی زیر استفاده کنید:
- با اطمینان تکرار کنید : ممکن است مجبور شوید تصاویر را بازسازی کنید تا زمانی که به ظاهری که میخواهید برسید. ادغام متن Imagen هنوز در حال تکامل است و گاهی اوقات تلاش های متعدد بهترین نتایج را به همراه دارد.
- کوتاه نگه دارید : برای تولید بهینه، متن را به 25 کاراکتر یا کمتر محدود کنید.
عبارات چندگانه : برای ارائه اطلاعات اضافی، دو یا سه عبارت مجزا را آزمایش کنید. برای ترکیبات تمیزتر از بیش از سه عبارت خودداری کنید.
درخواست: پوستری با متن "Summerland" با فونت درشت به عنوان عنوان، زیر این متن شعار "تابستان هرگز احساس خوبی نداشت" است. راهنمای قرار دادن : در حالی که Imagen می تواند سعی کند متن را مطابق دستور قرار دهد، انتظار تغییرات گاه به گاه را داشته باشید. این ویژگی به طور مداوم در حال بهبود است.
سبک قلم الهام بخش : یک سبک فونت کلی را مشخص کنید تا به طور نامحسوسی بر انتخاب های Imagen تأثیر بگذارد. به تکثیر دقیق فونت تکیه نکنید، بلکه انتظار تفسیرهای خلاقانه را داشته باشید.
اندازه قلم : اندازه قلم یا نشانه کلی اندازه (مثلاً کوچک ، متوسط ، بزرگ ) را برای تأثیرگذاری بر تولید اندازه قلم مشخص کنید.
پارامترسازی سریع
برای کنترل بهتر نتایج خروجی، ممکن است پارامترسازی ورودی ها در Imagen مفید باشد. برای مثال، فرض کنید میخواهید مشتریان شما بتوانند برای کسبوکار خود لوگو تولید کنند و میخواهید مطمئن شوید که آرمها همیشه روی یک پسزمینه تک رنگ تولید میشوند. همچنین میخواهید گزینههایی را که مشتری میتواند از یک منو انتخاب کند، محدود کنید.
در این مثال میتوانید یک اعلان پارامتری شبیه به زیر ایجاد کنید:
A{logo_style} logo for a{company_area} company on a solid color background. Include the text{company_name} .
در رابط کاربری سفارشی شما، مشتری میتواند پارامترها را با استفاده از یک منو وارد کند و مقدار انتخابی آنها، درخواستی را که Imagen دریافت میکند پر میکند.
به عنوان مثال:
Prompt:
A minimalist logo for a health care company on a solid color background. Include the text Journey .
Prompt:
A modern logo for a software company on a solid color background. Include the text Silo .
Prompt:
A traditional logo for a baking company on a solid color background. Include the text Seed .
تکنیک های پیشرفته نوشتن سریع
از مثالهای زیر برای ایجاد اعلانهای خاصتر بر اساس ویژگیهایی مانند توصیفگرهای عکاسی، اشکال و مواد، حرکات هنری تاریخی، و اصلاحکنندههای کیفیت تصویر استفاده کنید.
عکاسی
- درخواست شامل: "یک عکس از..."
برای استفاده از این سبک، با استفاده از کلمات کلیدی که به وضوح به Imagen می گویند که به دنبال عکس هستید، شروع کنید. درخواست های خود را با "عکسی از ..." شروع کنید. . به عنوان مثال:
![]() | ![]() | ![]() |
منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 3 تولید شده است.
اصلاح کننده های عکاسی
در مثال های زیر می توانید چندین تغییر دهنده و پارامتر مخصوص عکاسی را مشاهده کنید. برای کنترل دقیق تر، می توانید چندین اصلاح کننده را ترکیب کنید.
نزدیکی دوربین - از نزدیک، از دور گرفته شده است
درخواست: عکسی از دانه های قهوه از نمای نزدیک درخواست: یک عکس کوچکنمایی شده از یک کیسه کوچک
دانه های قهوه در آشپزخانه ای نامرتبموقعیت دوربین - هوایی، از پایین
اعلان: عکس هوایی از شهر شهری با آسمان خراش ها اعلان: عکسی از سایه بان جنگل با آسمان آبی از پایین نورپردازی - طبیعی، دراماتیک، گرم، سرد
اعلان: عکس استودیویی از یک صندلی بازویی مدرن، نور طبیعی درخواست: عکس استودیویی از یک صندلی بازویی مدرن، نورپردازی چشمگیر تنظیمات دوربین - تاری حرکت، فوکوس نرم، بوکه، پرتره
اعلان: عکس شهری با آسمانخراشها از داخل خودرو با تاری حرکت درخواست: عکس با فوکوس نرم از یک پل در یک شهر شهری در شب انواع لنز - 35 میلی متر، 50 میلی متر، چشم ماهی، زاویه باز، ماکرو
درخواست: عکس یک برگ، لنز ماکرو درخواست: عکاسی خیابانی، شهر نیویورک، لنز چشم ماهی انواع فیلم - سیاه و سفید، پولاروید
اعلان: پرتره پلاروید از سگی که عینک آفتابی دارد اعلان: عکس سیاه و سفید سگی که عینک آفتابی زده است
منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 3 تولید شده است.
تصویرسازی و هنر
- درخواست شامل: "یک painting از..." ، "یک sketch از..."
سبکهای هنری از سبکهای تک رنگ مانند طرحهای مداد گرفته تا هنر دیجیتال فوقالعاده متفاوت است. به عنوان مثال، تصاویر زیر از همان دستور با سبک های مختلف استفاده می کنند:
"یک [art style or creation technique] یک سدان الکتریکی اسپرت زاویه دار با آسمان خراش ها در پس زمینه"
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 2 تولید شده است.
اشکال و مواد
- اعلان شامل: "...ساخته شده از..." ، "...به شکل..."
یکی از نقاط قوت این فناوری این است که می توانید تصاویری ایجاد کنید که در غیر این صورت دشوار یا غیرممکن است. به عنوان مثال، می توانید لوگوی شرکت خود را در مواد و بافت های مختلف بازسازی کنید.
![]() | ![]() | ![]() |
منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 3 تولید شده است.
ارجاعات هنر تاریخی
- اعلان شامل: "...به سبک..."
برخی از سبک ها در طول سال ها تبدیل به نماد شده اند. در زیر ایده هایی از نقاشی تاریخی یا سبک های هنری وجود دارد که می توانید آنها را امتحان کنید.
"تصویر را به سبک [art period or movement] ایجاد کنید: مزرعه بادی"
![]() | ![]() | ![]() |
منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 3 تولید شده است.
اصلاح کننده های کیفیت تصویر
برخی از کلمات کلیدی می توانند به مدل بفهمانند که شما به دنبال دارایی با کیفیت بالا هستید. نمونه هایی از اصلاح کننده های کیفیت عبارتند از:
- اصلاح کننده های عمومی - با کیفیت بالا، زیبا، شیک
- عکس - 4K، HDR، عکس استودیو
- هنر، تصویرسازی - توسط یک حرفه ای، دقیق
در زیر چند نمونه از اعلانهای بدون تعدیلکننده کیفیت و همان اعلان با اصلاحکنندههای کیفیت آورده شده است.
![]() | ![]() عکس ساقه ذرت که توسط a عکاس حرفه ای |
منبع تصویر: هر تصویر با استفاده از متن متناظر با مدل Imagen 3 تولید شده است.
نسبت ابعاد
تولید تصویر Imagen 3 به شما امکان می دهد پنج نسبت تصویر متمایز را تنظیم کنید.
- مربع (1:1، پیش فرض) - یک عکس مربع استاندارد. استفاده های رایج برای این نسبت ابعاد شامل پست های رسانه های اجتماعی است.
تمام صفحه (4:3) - این نسبت تصویر معمولاً در رسانه یا فیلم استفاده می شود. همچنین ابعاد اکثر تلویزیون های قدیمی (غیر عریض) و دوربین های مدیوم فرمت است. بیشتر صحنه را به صورت افقی می گیرد (در مقایسه با 1:1) که آن را به نسبت تصویر ترجیحی برای عکاسی تبدیل می کند.
درخواست: از نزدیک انگشتان یک نوازنده در حال نواختن پیانو، فیلم سیاه و سفید، قدیمی (نسبت تصویر 4:3) درخواست: یک عکس آتلیه ای حرفه ای از سیب زمینی سرخ کرده برای یک رستوران سطح بالا، به سبک مجله غذایی (نسبت تصویر 4:3) تمام صفحه پرتره (3:4) - این نسبت تصویر تمام صفحه است که 90 درجه چرخیده است. این اجازه می دهد تا در مقایسه با نسبت تصویر 1:1، صحنه بیشتری را به صورت عمودی ثبت کنید.
اعلان: زنی در حال پیادهروی، بستن چکمههایش در گودال، کوههای بزرگ در پسزمینه، به سبک تبلیغات، زوایای دراماتیک (نسبت تصویر 3:4) درخواست: عکس هوایی از رودخانه ای که از دره عرفانی جاری می شود (نسبت تصویر 3:4) صفحه عریض (16:9) - این نسبت جایگزین 4:3 شده است و اکنون رایج ترین نسبت تصویر برای تلویزیون ها، مانیتورها و صفحه نمایش تلفن های همراه (منظره) است. زمانی که می خواهید بیشتر پس زمینه را ثبت کنید (مثلاً مناظر منظره) از این نسبت تصویر استفاده کنید.
اعلان: مردی با لباس های تمام سفید در ساحل نشسته، از نزدیک، نور ساعت طلایی (نسبت تصویر 16:9) پرتره (9:16) - این نسبت صفحه عریض است اما چرخشی است. این نسبت ابعاد نسبتاً جدیدی است که توسط برنامههای ویدیویی کوتاه (مثلاً شورتهای یوتیوب) رایج شده است. از این برای اجسام بلند با جهت های عمودی قوی مانند ساختمان ها، درختان، آبشارها یا سایر اشیاء مشابه استفاده کنید.
Prompt: رندر دیجیتالی از یک آسمان خراش عظیم، مدرن، بزرگ، حماسی با غروب زیبا در پس زمینه (نسبت تصویر 9:16)
تصاویر فوتورئالیستی
نسخه های مختلف مدل تولید تصویر ممکن است ترکیبی از خروجی هنری و فوتورئالیستی را ارائه دهند. برای ایجاد خروجی واقعی تری بر اساس موضوعی که می خواهید ایجاد کنید، از عبارت زیر در دستورات استفاده کنید.
مورد استفاده | نوع لنز | فواصل کانونی | جزئیات اضافی |
---|---|---|---|
مردم (پرتره) | پرایم، بزرگنمایی | 24-35 میلی متر | فیلم سیاه و سفید، فیلم نوآر، عمق میدان، دو رنگ (ذکر دو رنگ) |
غذا، حشرات، گیاهان (اشیاء، طبیعت بی جان) | ماکرو | 60-105 میلی متر | جزئیات بالا، فوکوس دقیق، نور کنترل شده |
ورزش، حیات وحش (حرکت) | زوم تله فوتو | 100-400 میلی متر | سرعت شاتر سریع، ردیابی حرکت یا حرکت |
نجومی، منظره (زاویه باز) | زاویه باز | 10-24 میلی متر | زمان نوردهی طولانی، فوکوس واضح، نوردهی طولانی، آب صاف یا ابر |
پرتره ها
مورد استفاده | نوع لنز | فواصل کانونی | جزئیات اضافی |
---|---|---|---|
مردم (پرتره) | پرایم، بزرگنمایی | 24-35 میلی متر | فیلم سیاه و سفید، فیلم نوآر، عمق میدان، دو رنگ (ذکر دو رنگ) |
با استفاده از چندین کلمه کلیدی از جدول، Imagen می تواند پرتره های زیر را ایجاد کند:
![]() | ![]() | ![]() | ![]() |
اعلان: یک زن، پرتره 35 میلی متری، دوتونی آبی و خاکستری
مدل: imagen-3.0-generate-002
![]() | ![]() | ![]() | ![]() |
درخواست: یک زن، پرتره 35 میلی متری، فیلم نوآر
مدل: imagen-3.0-generate-002
اشیاء
مورد استفاده | نوع لنز | فواصل کانونی | جزئیات اضافی |
---|---|---|---|
غذا، حشرات، گیاهان (اشیاء، طبیعت بی جان) | ماکرو | 60-105 میلی متر | جزئیات بالا، فوکوس دقیق، نور کنترل شده |
با استفاده از چندین کلمه کلیدی از جدول، Imagen می تواند تصاویر شیء زیر را ایجاد کند:
![]() | ![]() | ![]() | ![]() |
اعلان: برگ گیاه دعا، لنز ماکرو، 60 میلی متر
مدل: imagen-3.0-generate-002
![]() | ![]() | ![]() | ![]() |
درخواست: یک بشقاب پاستا، لنز ماکرو 100 میلیمتری
مدل: imagen-3.0-generate-002
حرکت
مورد استفاده | نوع لنز | فواصل کانونی | جزئیات اضافی |
---|---|---|---|
ورزش، حیات وحش (حرکت) | زوم تله فوتو | 100-400 میلی متر | سرعت شاتر سریع، ردیابی حرکت یا حرکت |
با استفاده از چندین کلمه کلیدی از جدول، Imagen می تواند تصاویر متحرک زیر را ایجاد کند:
![]() | ![]() | ![]() | ![]() |
اعلان: تاچ داون برنده، سرعت شاتر سریع، ردیابی حرکت
مدل: imagen-3.0-generate-002
![]() | ![]() | ![]() | ![]() |
اعلان: آهویی که در جنگل می دود، سرعت شاتر سریع، ردیابی حرکت
مدل: imagen-3.0-generate-002
زاویه باز
مورد استفاده | نوع لنز | فواصل کانونی | جزئیات اضافی |
---|---|---|---|
نجومی، منظره (زاویه باز) | زاویه باز | 10-24 میلی متر | زمان نوردهی طولانی، فوکوس واضح، نوردهی طولانی، آب صاف یا ابر |
با استفاده از چندین کلمه کلیدی از جدول، Imagen می تواند تصاویر زاویه باز زیر را ایجاد کند:
![]() | ![]() | ![]() | ![]() |
اعلان: یک رشته کوه گسترده، چشم انداز با زاویه وسیع 10 میلی متر
مدل: imagen-3.0-generate-002
![]() | ![]() | ![]() | ![]() |
اعلان: عکسی از ماه، عکاسی نجومی، زاویه باز 10 میلی متر
مدل: imagen-3.0-generate-002
بعدش چی
- راهنمای Veo را بررسی کنید تا نحوه تولید ویدیو با Gemini API را بیاموزید.
- برای کسب اطلاعات بیشتر در مورد مدلهای Gemini 2.0، مدلهای Gemini و مدلهای تجربی را ببینید.