หน้านี้ได้รับการแปลโดย Cloud Translation API

การสร้างรูปภาพ

คุณสามารถสร้างรูปภาพโดยใช้ Gemini API ด้วยความสามารถแบบมัลติโมดัลในตัวของ Gemini หรือ Imagen ซึ่งเป็นโมเดลการสร้างรูปภาพที่เชี่ยวชาญของ Google สําหรับกรณีการใช้งานส่วนใหญ่ ให้เริ่มต้นด้วย Gemini เลือก Imagen สำหรับงานที่เฉพาะเจาะจงซึ่งคุณภาพของรูปภาพมีความสำคัญ ดูคําแนะนําเพิ่มเติมได้ในส่วนการเลือกรูปแบบที่เหมาะสม

รูปภาพที่สร้างขึ้นทั้งหมดจะมีลายน้ำ SynthID

ก่อนเริ่มต้น

ตรวจสอบว่าคุณใช้โมเดลและเวอร์ชันที่รองรับในการสร้างรูปภาพ

สำหรับ Gemini ให้ใช้การสร้างรูปภาพตัวอย่างของ Gemini 2.0 Flash
สำหรับ Imagen ให้ใช้ Imagen 3 โปรดทราบว่ารูปแบบนี้มีให้บริการในระดับแบบชำระเงินเท่านั้น

คุณสามารถเข้าถึงทั้ง Gemini และ Imagen 3 โดยใช้คลังเดียวกัน

สร้างรูปภาพโดยใช้ Gemini

Gemini สามารถสร้างและประมวลผลรูปภาพจากการสนทนาได้ คุณสามารถแจ้ง Gemini ด้วยข้อความ รูปภาพ หรือทั้ง 2 อย่างร่วมกันเพื่อทำงานต่างๆ เกี่ยวกับรูปภาพ เช่น การสร้างและแก้ไขรูปภาพ

คุณต้องใส่ responseModalities: ["TEXT", "IMAGE"] ในการกำหนดค่า โมเดลเหล่านี้ไม่รองรับเอาต์พุตรูปภาพเท่านั้น

การสร้างรูปภาพ (การเปลี่ยนข้อความเป็นรูปภาพ)

โค้ดต่อไปนี้แสดงวิธีสร้างรูปภาพตามพรอมต์ที่สื่อความหมาย

Python

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import base64

client = genai.Client()

contents = ('Hi, can you create a 3d rendered image of a pig '
            'with wings and a top hat flying over a happy '
            'futuristic scifi city with lots of greenery?')

response = client.models.generate_content(
    model="gemini-2.0-flash-preview-image-generation",
    contents=contents,
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO((part.inline_data.data)))
    image.save('gemini-native-image.png')
    image.show()

JavaScript

import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const contents =
    "Hi, can you create a 3d rendered image of a pig " +
    "with wings and a top hat flying over a happy " +
    "futuristic scifi city with lots of greenery?";

  // Set responseModalities to include "Image" so the model can generate  an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-preview-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();

Go

package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {

  ctx := context.Background()
  client, _ := genai.NewClient(ctx, &genai.ClientConfig{
      APIKey:  os.Getenv("GEMINI_API_KEY"),
      Backend: genai.BackendGeminiAPI,
  })

  config := &genai.GenerateContentConfig{
      ResponseModalities: []string{"TEXT", "IMAGE"},
  }

  result, _ := client.Models.GenerateContent(
      ctx,
      "gemini-2.0-flash-preview-image-generation",
      genai.Text("Hi, can you create a 3d rendered image of a pig " +
                 "with wings and a top hat flying over a happy " +
                 "futuristic scifi city with lots of greenery?"),
      config,
  )

  for _, part := range result.Candidates[0].Content.Parts {
      if part.Text != "" {
          fmt.Println(part.Text)
      } else if part.InlineData != nil {
          imageBytes := part.InlineData.Data
          outputFilename := "gemini_generated_image.png"
          _ = os.WriteFile(outputFilename, imageBytes, 0644)
      }
  }
}

REST

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image-generation:generateContent?key=$GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        {"text": "Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"}
      ]
    }],
    "generationConfig":{"responseModalities":["TEXT","IMAGE"]}
  }' \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-native-image.png

รูปภาพหมูบินสมมติที่ AI สร้างขึ้น — รูปภาพที่ AI สร้างขึ้นของหมูบินแฟนตาซี

การแก้ไขรูปภาพ (ข้อความและรูปภาพต่อรูปภาพ)

หากต้องการแก้ไขรูปภาพ ให้เพิ่มรูปภาพเป็นอินพุต ตัวอย่างต่อไปนี้แสดงการอัปโหลดรูปภาพที่เข้ารหัส Base64 สำหรับรูปภาพหลายรูปและเพย์โหลดขนาดใหญ่ ให้ดูที่ส่วนอินพุตรูปภาพ

Python

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

import PIL.Image

image = PIL.Image.open('/path/to/image.png')

client = genai.Client()

text_input = ('Hi, This is a picture of me.'
            'Can you add a llama next to me?',)

response = client.models.generate_content(
    model="gemini-2.0-flash-preview-image-generation",
    contents=[text_input, image],
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))
    image.show()

JavaScript

import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  // Load the image from the local file system
  const imagePath = "path/to/image.png";
  const imageData = fs.readFileSync(imagePath);
  const base64Image = imageData.toString("base64");

  // Prepare the content parts
  const contents = [
    { text: "Can you add a llama next to the image?" },
    {
      inlineData: {
        mimeType: "image/png",
        data: base64Image,
      },
    },
  ];

  // Set responseModalities to include "Image" so the model can generate an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-preview-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();

Go

package main

import (
 "context"
 "fmt"
 "os"
 "google.golang.org/genai"
)

func main() {

 ctx := context.Background()
 client, _ := genai.NewClient(ctx, &genai.ClientConfig{
     APIKey:  os.Getenv("GEMINI_API_KEY"),
     Backend: genai.BackendGeminiAPI,
 })

 imagePath := "/path/to/image.png"
 imgData, _ := os.ReadFile(imagePath)

 parts := []*genai.Part{
   genai.NewPartFromText("Hi, This is a picture of me. Can you add a llama next to me?"),
   &genai.Part{
     InlineData: &genai.Blob{
       MIMEType: "image/png",
       Data:     imgData,
     },
   },
 }

 contents := []*genai.Content{
   genai.NewContentFromParts(parts, genai.RoleUser),
 }

 config := &genai.GenerateContentConfig{
     ResponseModalities: []string{"TEXT", "IMAGE"},
 }

 result, _ := client.Models.GenerateContent(
     ctx,
     "gemini-2.0-flash-preview-image-generation",
     contents,
     config,
 )

 for _, part := range result.Candidates[0].Content.Parts {
     if part.Text != "" {
         fmt.Println(part.Text)
     } else if part.InlineData != nil {
         imageBytes := part.InlineData.Data
         outputFilename := "gemini_generated_image.png"
         _ = os.WriteFile(outputFilename, imageBytes, 0644)
     }
 }
}

REST

IMG_PATH=/path/to/your/image1.jpeg

if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi

IMG_BASE64=$(base64 "$B64FLAGS" "$IMG_PATH" 2>&1)

curl -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image-generation:generateContent?key=$GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -d "{
      \"contents\": [{
        \"parts\":[
            {\"text\": \"'Hi, This is a picture of me. Can you add a llama next to me\"},
            {
              \"inline_data\": {
                \"mime_type\":\"image/jpeg\",
                \"data\": \"$IMG_BASE64\"
              }
            }
        ]
      }],
      \"generationConfig\": {\"responseModalities\": [\"TEXT\", \"IMAGE\"]}
    }"  \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-edited-image.png

โหมดการสร้างรูปภาพอื่นๆ

Gemini รองรับโหมดการโต้ตอบกับรูปภาพอื่นๆ ตามโครงสร้างพรอมต์และบริบท ซึ่งรวมถึง

ข้อความเป็นรูปภาพและข้อความ (สลับกัน): แสดงผลรูปภาพที่มีข้อความที่เกี่ยวข้อง
- ตัวอย่างพรอมต์: "สร้างสูตรอาหารพร้อมภาพสำหรับข้าวผัดพริกปาเอลยา"
รูปภาพและข้อความเป็นรูปภาพและข้อความ (สลับกัน): ใช้รูปภาพและข้อความที่ป้อนเพื่อสร้างรูปภาพและข้อความใหม่ที่เกี่ยวข้อง
- ตัวอย่างพรอมต์: (มีรูปภาพห้องที่มีเฟอร์นิเจอร์) "โซฟาสีอื่นใดที่เข้ากับพื้นที่ของฉันได้บ้าง คุณอัปเดตรูปภาพได้ไหม"
การแก้ไขรูปภาพแบบหลายรอบ (แชท): สร้าง / แก้ไขรูปภาพได้อย่างต่อเนื่องในบทสนทนา
- ตัวอย่างพรอมต์: [อัปโหลดรูปภาพรถสีน้ำเงิน] , "เปลี่ยนรถคันนี้เป็นรถเปิดประทุน", "ตอนนี้เปลี่ยนเป็นสีเหลือง"

ข้อจำกัด

ใช้ภาษาต่อไปนี้เพื่อประสิทธิภาพที่ดีที่สุด ได้แก่ อังกฤษ สเปน (เม็กซิโก) ญี่ปุ่น จีน (จีน) และฮินดี (อินเดีย)
การสร้างรูปภาพไม่รองรับอินพุตเสียงหรือวิดีโอ
การสร้างรูปภาพอาจไม่ทริกเกอร์ในกรณีต่อไปนี้เสมอไป
- โมเดลอาจแสดงผลเป็นข้อความเท่านั้น ลองขอเอาต์พุตรูปภาพอย่างชัดเจน (เช่น "สร้างรูปภาพ" "ระบุรูปภาพไปเรื่อยๆ" "อัปเดตรูปภาพ")
- โมเดลอาจหยุดสร้างกลางคัน ลองอีกครั้งหรือลองใช้พรอมต์อื่น
เมื่อสร้างข้อความสำหรับรูปภาพ Gemini จะทำงานได้ดีที่สุดหากคุณสร้างข้อความก่อนแล้วจึงขอรูปภาพที่มีข้อความ
การสร้างรูปภาพไม่พร้อมใช้งานในบางภูมิภาค/ประเทศ ดูข้อมูลเพิ่มเติมได้ที่รุ่น

สร้างรูปภาพโดยใช้ Imagen 3

ตัวอย่างนี้แสดงการสร้างรูปภาพด้วย Imagen 3

Python

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='Robot holding a red skateboard',
    config=types.GenerateImagesConfig(
        number_of_images= 4,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

JavaScript

import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const response = await ai.models.generateImages({
    model: 'imagen-3.0-generate-002',
    prompt: 'Robot holding a red skateboard',
    config: {
      numberOfImages: 4,
    },
  });

  let idx = 1;
  for (const generatedImage of response.generatedImages) {
    let imgBytes = generatedImage.image.imageBytes;
    const buffer = Buffer.from(imgBytes, "base64");
    fs.writeFileSync(`imagen-${idx}.png`, buffer);
    idx++;
  }
}

main();

Go

package main

import (
  "context"
  "fmt"
  "os"
  "google.golang.org/genai"
)

func main() {

  ctx := context.Background()
  client, _ := genai.NewClient(ctx, &genai.ClientConfig{
      APIKey:  os.Getenv("GEMINI_API_KEY"),
      Backend: genai.BackendGeminiAPI,
  })

  config := &genai.GenerateImagesConfig{
      NumberOfImages: 4,
  }

  response, _ := client.Models.GenerateImages(
      ctx,
      "imagen-3.0-generate-002",
      "Robot holding a red skateboard",
      config,
  )

  for n, image := range response.GeneratedImages {
      fname := fmt.Sprintf("imagen-%d.png", n)
          _ = os.WriteFile(fname, image.Image.ImageBytes, 0644)
  }
}

REST

curl -X POST \
    "https://generativelanguage.googleapis.com/v1beta/models/imagen-3.0-generate-002:predict?key=GEMINI_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
        "instances": [
          {
            "prompt": "Robot holding a red skateboard"
          }
        ],
        "parameters": {
          "sampleCount": 4
        }
      }'

รูปภาพหุ่นยนต์ที่ AI สร้างขึ้นซึ่งถือสเก็ตบอร์ดสีแดง

พารามิเตอร์โมเดล Imagen

ปัจจุบัน Imagen รองรับพรอมต์ภาษาอังกฤษเท่านั้นและพารามิเตอร์ต่อไปนี้

numberOfImages: จำนวนรูปภาพที่จะสร้าง ตั้งแต่ 1 ถึง 4 (รวม) ค่าเริ่มต้นคือ 4
aspectRatio: เปลี่ยนสัดส่วนภาพของรูปภาพที่สร้างขึ้น ค่าที่รองรับคือ "1:1", "3:4", "4:3", "9:16" และ "16:9" โดยมีค่าเริ่มต้นเป็น "1:1"
personGeneration: อนุญาตให้โมเดลสร้างรูปภาพคน ค่าที่รองรับมีดังนี้
- "DONT_ALLOW": บล็อกการสร้างรูปภาพคน
- "ALLOW_ADULT": สร้างรูปภาพผู้ใหญ่ แต่ไม่ใช่รูปภาพเด็ก ซึ่งเป็นค่าเริ่มต้น

การเลือกรูปแบบที่เหมาะสม

เลือก Gemini ในกรณีต่อไปนี้

คุณต้องมีรูปภาพที่มีความเกี่ยวข้องตามบริบทซึ่งใช้ประโยชน์จากความรู้และเหตุผลของโลก
การผสมผสานข้อความและรูปภาพอย่างลงตัวเป็นสิ่งสําคัญ
คุณต้องการฝังภาพที่มีความแม่นยำภายในลำดับข้อความที่ยาว
คุณต้องการแก้ไขรูปภาพในเชิงสนทนาโดยคงบริบทไว้

เลือก Imagen 3 ในกรณีต่อไปนี้

คุณภาพรูปภาพ ภาพถ่ายสมจริง รายละเอียดทางศิลปะ หรือสไตล์ที่เฉพาะเจาะจง (เช่น อิมเพรสชันนิสม์ อะนิเมะ) เป็นสิ่งที่สำคัญที่สุด
ทำงานด้านการแก้ไขเฉพาะทาง เช่น การอัปเดตพื้นหลังของผลิตภัณฑ์หรือการเพิ่มขนาดรูปภาพ
การใส่แบรนด์ สไตล์ หรือสร้างโลโก้และการออกแบบผลิตภัณฑ์

คู่มือการใช้พรอมต์ของ Imagen

ส่วนนี้ของคู่มือ Imagen แสดงวิธีแก้ไขพรอมต์การแปลงข้อความเป็นรูปภาพเพื่อให้ได้ผลลัพธ์ที่แตกต่างกัน พร้อมตัวอย่างรูปภาพที่คุณสามารถสร้างได้

ข้อมูลเบื้องต้นเกี่ยวกับการเขียนพรอมต์

พรอมต์ที่ดีจะสื่อความหมายชัดเจน และใช้คีย์เวิร์ดและตัวแก้ไขที่มีความหมาย เริ่มต้นด้วยการพิจารณาหัวข้อ บริบท และสไตล์

พรอมต์ที่เน้นหัวข้อ บริบท และสไตล์ — ข้อความในรูปภาพ: *ภาพสเก็ตช์* (**สไตล์**) ของ*อาคารอพาร์ตเมนต์สมัยใหม่* (**เรื่อง**) ที่ล้อมรอบด้วย*ตึกระฟ้า* (**บริบทและพื้นหลัง**)

เรื่อง: สิ่งแรกที่ต้องคำนึงถึงสำหรับพรอมต์ใดๆ คือเรื่อง ซึ่งก็คือวัตถุ บุคคล สัตว์ หรือฉากที่ต้องการถ่ายภาพ
บริบทและพื้นหลัง: พื้นหลังหรือบริบทที่ใช้วางวัตถุก็สำคัญไม่แพ้กัน ลองวางวัตถุในพื้นหลังที่หลากหลาย เช่น สตูดิโอที่มีพื้นหลังสีขาว กลางแจ้ง หรือสภาพแวดล้อมในอาคาร
สไตล์: สุดท้าย ให้เพิ่มสไตล์รูปภาพที่ต้องการ สไตล์อาจเป็นแบบทั่วไป (ภาพวาด รูปถ่าย ภาพร่าง) หรือเฉพาะเจาะจงมาก (ภาพวาดสีพาสเทล ภาพวาดถ่าน 3 มิติแบบ Isometric) นอกจากนี้ คุณยังรวมสไตล์เข้าด้วยกันได้ด้วย

หลังจากเขียนพรอมต์เวอร์ชันแรกแล้ว ให้ปรับแต่งพรอมต์โดยเพิ่มรายละเอียดเพิ่มเติมจนกว่าจะได้รูปภาพที่ต้องการ การทำซ้ำเป็นสิ่งสําคัญ เริ่มต้นด้วยการกำหนดแนวคิดหลัก จากนั้นปรับแต่งและขยายแนวคิดหลักนั้นจนกว่ารูปภาพที่สร้างขึ้นจะใกล้เคียงกับภาพที่คุณเห็น

รูปภาพตัวอย่างที่เหมือนจริง 1 — พรอมต์: สวนสาธารณะในฤดูใบไม้ผลิข้างทะเลสาบ

รูปภาพตัวอย่างที่เหมือนจริง 2 — พรอมต์: สวนสาธารณะในฤดูใบไม้ผลิข้างทะเลสาบ **พระอาทิตย์ตกเหนือทะเลสาบ ช่วงเวลาทอง**

รูปภาพตัวอย่างที่เหมือนจริง 3 — พรอมต์: สวนสาธารณะในฤดูใบไม้ผลิข้างทะเลสาบ **พระอาทิตย์ตกเหนือทะเลสาบ ช่วงเวลาทอง ดอกไม้ป่าสีแดง**

Imagen 3 สามารถเปลี่ยนไอเดียของคุณให้เป็นรูปภาพที่มีรายละเอียด ไม่ว่าพรอมต์จะสั้นหรือยาวและละเอียด ปรับแต่งวิสัยทัศน์ของคุณผ่านพรอมต์แบบซ้ำๆ เพิ่มรายละเอียดจนกว่าจะได้ผลลัพธ์ที่สมบูรณ์แบบ

พรอมต์แบบสั้นช่วยให้คุณสร้างรูปภาพได้อย่างรวดเร็ว

ตัวอย่างพรอมต์สั้นของ Imagen 3 — พรอมต์: ภาพระยะใกล้ของผู้หญิงวัย 20 ปี ถ่ายภาพสตรีท ฉากภาพยนตร์ โทนสีส้มอบอุ่นแบบซีดๆ

พรอมต์ที่ยาวขึ้นจะช่วยให้คุณเพิ่มรายละเอียดที่เฉพาะเจาะจงและสร้างรูปภาพได้

ตัวอย่างพรอมต์แบบยาวของ Imagen 3 — พรอมต์: รูปภาพที่น่าสนใจของผู้หญิงวัย 20 ปีที่ถ่ายในสไตล์สตรีท รูปภาพควรมีลักษณะเหมือนภาพนิ่งจากภาพยนตร์ที่มีโทนสีส้มหม่นและอบอุ่น

คำแนะนำเพิ่มเติมในการเขียนพรอมต์สำหรับ Imagen

ใช้ภาษาที่สื่อความหมาย: ใช้คำคุณศัพท์และคำวิเศษณ์ที่ละเอียดเพื่ออธิบายภาพให้ชัดเจนสำหรับ Imagen 3
ระบุบริบท: ระบุข้อมูลเบื้องต้นเพื่อช่วยให้ AI ทำความเข้าใจได้ง่ายขึ้น หากจำเป็น
อ้างอิงศิลปินหรือสไตล์ที่เฉพาะเจาะจง: หากคุณมีสไตล์ที่ต้องการอยู่แล้ว การอ้างอิงศิลปินหรือการเคลื่อนไหวทางศิลปะที่เฉพาะเจาะจงอาจมีประโยชน์
ใช้เครื่องมือวิศวกรรมพรอมต์: ลองสำรวจเครื่องมือหรือแหล่งข้อมูลวิศวกรรมพรอมต์เพื่อช่วยปรับแต่งพรอมต์และบรรลุผลลัพธ์ที่ดีที่สุด
การปรับแต่งรายละเอียดใบหน้าในรูปภาพส่วนตัวและรูปหมู่: ระบุรายละเอียดใบหน้าเป็นจุดสนใจของรูปภาพ (เช่น ใช้คำว่า "ภาพบุคคล" ในพรอมต์)

สร้างข้อความในรูปภาพ

Imagen สามารถเพิ่มข้อความลงในรูปภาพ ซึ่งจะเปิดโอกาสให้สร้างรูปภาพได้สร้างสรรค์มากขึ้น ใช้คําแนะนําต่อไปนี้เพื่อใช้ประโยชน์สูงสุดจากฟีเจอร์นี้

ทำซ้ำอย่างมั่นใจ: คุณอาจต้องสร้างรูปภาพอีกครั้งจนกว่าจะได้รูปภาพที่ต้องการ การผสานรวมข้อความของ Imagen ยังอยู่ระหว่างการพัฒนา และบางครั้งการลองหลายครั้งจะให้ผลลัพธ์ที่ดีที่สุด
สั้นกระชับ: จำกัดข้อความให้มีอักขระไม่เกิน 25 ตัวเพื่อให้ได้ชิ้นงานที่ดีที่สุด
วลีหลายรายการ: ทดลองใช้วลีที่แตกต่างกัน 2-3 วลีเพื่อระบุข้อมูลเพิ่มเติม หลีกเลี่ยงการใช้วลีเกิน 3 วลีเพื่อให้การเรียบเรียงชัดเจนขึ้น

พรอมต์: โปสเตอร์ที่มีข้อความ "Summerland" เป็นชื่อด้วยแบบอักษรตัวหนา ใต้ข้อความนี้คือสโลแกน "Summer never felt so good"
แนะนำตำแหน่ง: แม้ว่า Imagen จะพยายามจัดตำแหน่งข้อความตามที่ระบุ แต่อาจมีการปรับเปลี่ยนเป็นครั้งคราว ฟีเจอร์นี้ได้รับการปรับปรุงอย่างต่อเนื่อง
รูปแบบอักษรที่เป็นแรงบันดาลใจ: ระบุรูปแบบอักษรทั่วไปเพื่อมีอิทธิพลต่อตัวเลือกของ Imagen อย่างละเอียด อย่าคาดหวังการจำลองแบบอักษรที่แม่นยำ แต่ให้คาดหวังการตีความที่สร้างสรรค์
ขนาดแบบอักษร: ระบุขนาดแบบอักษรหรือตัวบ่งชี้ขนาดทั่วไป (เช่น เล็ก กลาง ใหญ่) เพื่อกำหนดขนาดแบบอักษร

การพารามิเตอร์พรอมต์

คุณอาจพบว่าการกำหนดพารามิเตอร์อินพุตใน Imagen มีประโยชน์ในการควบคุมผลลัพธ์เอาต์พุตได้ดียิ่งขึ้น ตัวอย่างเช่น สมมติว่าคุณต้องการให้ลูกค้าสร้างโลโก้สําหรับธุรกิจได้ และคุณต้องการตรวจสอบว่าระบบจะสร้างโลโก้บนพื้นหลังสีพื้นเสมอ นอกจากนี้ คุณยังจํากัดตัวเลือกที่ลูกค้าเลือกจากเมนูได้ด้วย

ในตัวอย่างนี้ คุณสามารถสร้างพรอมต์ที่มีพารามิเตอร์ซึ่งคล้ายกับตัวอย่างต่อไปนี้

A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.

ในอินเทอร์เฟซผู้ใช้ที่กําหนดเอง ลูกค้าสามารถป้อนพารามิเตอร์ได้โดยใช้เมนู และค่าที่เลือกจะแสดงในพรอมต์ที่ Imagen ได้รับ

เช่น

พรอมต์: A minimalist logo for a health care company on a solid color background. Include the text Journey.
พรอมต์: A modern logo for a software company on a solid color background. Include the text Silo.
พรอมต์: A traditional logo for a baking company on a solid color background. Include the text Seed.

เทคนิคขั้นสูงในการเขียนพรอมต์

ใช้ตัวอย่างต่อไปนี้เพื่อสร้างพรอมต์ที่เฉพาะเจาะจงมากขึ้นตามแอตทริบิวต์ เช่น ตัวบ่งชี้การถ่ายภาพ รูปร่างและวัสดุ การเคลื่อนไหวของศิลปะในประวัติศาสตร์ และตัวแก้ไขคุณภาพรูปภาพ

การถ่ายภาพ

พรอมต์ประกอบด้วย "รูปภาพ..."

หากต้องการใช้สไตล์นี้ ให้เริ่มต้นด้วยการใช้คีย์เวิร์ดที่บอก Imagen อย่างชัดเจนว่าคุณกำลังมองหารูปภาพ เริ่มต้นพรอมต์ด้วยข้อความ "รูปภาพ . ." เช่น

^{แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 3}

อุปกรณ์เสริมสำหรับถ่ายภาพ

ในตัวอย่างต่อไปนี้ คุณจะเห็นตัวแก้ไขและพารามิเตอร์เฉพาะสำหรับงานถ่ายภาพหลายรายการ คุณรวมตัวแก้ไขหลายรายการเข้าด้วยกันเพื่อให้ควบคุมได้แม่นยำยิ่งขึ้น

ระยะใกล้ของกล้อง - ภาพระยะใกล้ที่ถ่ายจากระยะไกล

รูปภาพตัวอย่างกล้องระยะใกล้ — พรอมต์: รูปภาพ**ระยะใกล้**ของเมล็ดกาแฟ

รูปภาพตัวอย่างจากกล้องที่ซูมออก — พรอมต์: รูปภาพ**ซูมออก**ของถุง
เมล็ดกาแฟขนาดเล็กในห้องครัวที่รก

ตำแหน่งกล้อง - ภาพถ่ายจากมุมสูงจากด้านล่าง

รูปภาพตัวอย่างภาพถ่ายทางอากาศ — พรอมต์: **ภาพถ่ายทางอากาศ**ของเมืองที่มีตึกระฟ้า

มุมมองจากด้านล่างของตัวอย่างรูปภาพ — พรอมต์: รูปภาพเรือนยอดป่าที่มีท้องฟ้าสีฟ้า**จากด้านล่าง**

การจัดแสง - แสงธรรมชาติ แสงจัดจ้า อบอุ่น เย็น

รูปภาพตัวอย่างที่มีแสงธรรมชาติ — พรอมต์: รูปภาพอาร์มแชร์โมเดิร์นในสตูดิโอ **แสงธรรมชาติ**

รูปภาพตัวอย่างการจัดแสง — พรอมต์: รูปภาพอาร์มแชร์สมัยใหม่ในสตูดิโอ **การจัดแสงให้ดูมีมิติ**

การตั้งค่ากล้อง - เบลอการเคลื่อนไหว โฟกัสนุ่ม โบเก้ ภาพบุคคล

รูปภาพตัวอย่างเบลอจากการเคลื่อนไหว — พรอมต์: รูปภาพเมืองที่มีตึกระฟ้าจากภายในรถที่มี**ภาพเบลอจากการเคลื่อนไหว**

รูปภาพตัวอย่างแบบซอฟต์โฟกัส — พรอมต์: **ภาพถ่ายแบบซอฟต์โฟกัส**ของสะพานในเมืองตอนกลางคืน

ประเภทเลนส์ - 35 มม., 50 มม., ฟิชอาย, มุมกว้าง, มาโคร

รูปภาพตัวอย่างเลนส์มาโคร — พรอมต์: รูปภาพใบไม้, **เลนส์มาโคร**

รูปภาพตัวอย่างเลนส์ฟิชอาย — พรอมต์: ภาพถ่ายถนน, นิวยอร์กซิตี้, **เลนส์ฟิชอาย**

ประเภทฟิล์ม - ขาวดํา โพลารอยด์

รูปภาพตัวอย่างรูปโพลารอยด์ — พรอมต์: **ภาพบุคคลแบบโพลารอยด์**ของสุนัขสวมแว่นกันแดด

รูปภาพตัวอย่างขาวดํา — พรอมต์: **รูปภาพขาวดำ**ของสุนัขสวมแว่นกันแดด

ภาพประกอบและศิลปะ

พรอมต์มี "painting ของ..." "sketch ของ..."

รูปแบบศิลปะมีตั้งแต่โมโนโครม เช่น ภาพสเก็ตช์ดินสอ ไปจนถึงศิลปะดิจิทัลที่สมจริง ตัวอย่างเช่น รูปภาพต่อไปนี้ใช้พรอมต์เดียวกันแต่มีสไตล์ต่างกัน

"[art style or creation technique] ของรถซีดานไฟฟ้าทรงเหลี่ยมที่ดูสปอร์ตโดยมีตึกระฟ้าเป็นฉากหลัง"

รูปภาพตัวอย่างอาร์ตเวิร์ก — พรอมต์: **ภาพวาดเทคนิคด้วยดินสอ**ของรูปทรง...

^{แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 2}

รูปร่างและวัสดุ

พรอมต์มี "...made of..." "...มีรูปร่างเป็น..."

จุดแข็งอย่างหนึ่งของเทคโนโลยีนี้คือคุณสามารถสร้างภาพซึ่งทำได้ยากหรือเป็นไปไม่ได้ เช่น คุณอาจสร้างโลโก้บริษัทขึ้นมาใหม่ในวัสดุและพื้นผิวต่างๆ

รูปภาพตัวอย่างรูปร่างและวัสดุ 1 — พรอมต์: กระเป๋าทรงยาวฐานกลม**ที่ทำจาก**ชีส

รูปภาพตัวอย่างรูปร่างและวัสดุ 2 — พรอมต์: หลอดนีออน**รูป**นก

รูปภาพตัวอย่างรูปร่างและวัสดุ 3 — พรอมต์: เก้าอี้อาร์มแชร์**ที่ทำจากกระดาษ** รูปถ่ายในสตูดิโอ สไตล์การพับกระดาษ

ข้อมูลอ้างอิงเกี่ยวกับงานศิลปะในอดีต

พรอมต์มีข้อความว่า "...ในสไตล์ของ..."

สไตล์บางสไตล์กลายเป็นสัญลักษณ์ในช่วงหลายปีที่ผ่านมา ต่อไปนี้คือตัวอย่างแนวคิดภาพวาดประวัติศาสตร์หรือสไตล์ศิลปะที่คุณลองใช้ได้

"สร้างรูปภาพในสไตล์ [art period or movement]: ฟาร์มพลังงานลม"

รูปภาพตัวอย่างลัทธิประทับใจ — พรอมต์: สร้างรูปภาพในสไตล์*ภาพวาดแนวอิมเพรสชันนิสต์*: ฟาร์มกังหันลม

รูปภาพตัวอย่างยุคฟื้นฟูศิลปวิทยา — พรอมต์: สร้างรูปภาพในสไตล์*ภาพวาดยุคเรอเนสซองส์*: ฟาร์มพลังงานลม

รูปภาพตัวอย่างป๊อปอาร์ต — พรอมต์: สร้างรูปภาพในสไตล์*ป๊อปอาร์ต*: ฟาร์มกังหันลม

ตัวแก้ไขคุณภาพรูปภาพ

คีย์เวิร์ดบางรายการช่วยให้โมเดลทราบว่าคุณกําลังมองหาชิ้นงานคุณภาพสูง ตัวอย่างตัวแก้ไขคุณภาพมีดังนี้

ตัวแก้ไขทั่วไป - คุณภาพสูง สวยงาม มีสไตล์
รูปภาพ - 4K, HDR, รูปภาพระดับสตูดิโอ
อาร์ตเวิร์ก ภาพ - โดยผู้เชี่ยวชาญที่ละเอียด

ต่อไปนี้คือตัวอย่างพรอมต์ที่ไม่มีตัวแก้ไขคุณภาพและพรอมต์เดียวกันที่มีตัวแก้ไขคุณภาพ

รูปภาพตัวอย่างข้าวโพดที่ไม่มีตัวแก้ไข — พรอมต์ (ไม่มีตัวแก้ไขคุณภาพ): รูปภาพต้นข้าวโพด

รูปภาพตัวอย่างข้าวโพดที่มีตัวแก้ไข — พรอมต์ (พร้อมตัวแก้ไขคุณภาพ): **รูปภาพต้นข้าวโพดที่สวยงามระดับ 4K HDR**
ถ่ายโดย
ช่างภาพมืออาชีพ

สัดส่วนภาพ

การสร้างรูปภาพด้วย Imagen 3 ช่วยให้คุณกำหนดสัดส่วนรูปภาพที่แตกต่างกันได้ 5 แบบ

สี่เหลี่ยมจัตุรัส (1:1, ค่าเริ่มต้น) - รูปภาพสี่เหลี่ยมจัตุรัสมาตรฐาน การใช้งานทั่วไปสําหรับสัดส่วนภาพนี้คือโพสต์โซเชียลมีเดีย

เต็มหน้าจอ (4:3) - สัดส่วนภาพนี้มักใช้ในสื่อหรือภาพยนตร์ นอกจากนี้ยังเป็นขนาดของทีวีรุ่นเก่าส่วนใหญ่ (ไม่ใช่หน้าจอกว้าง) และกล้องขนาดกลาง เนื่องจากสามารถจับภาพฉากแนวนอนได้มากกว่า (เมื่อเทียบกับ 1:1) จึงเป็นสัดส่วนภาพที่เหมาะสำหรับการถ่ายภาพ

ตัวอย่างสัดส่วนภาพ — พรอมต์: ภาพนิ้วมือนักดนตรีในระยะใกล้ขณะเล่นเปียโน เป็นฟิล์มขาวดํา แนววินเทจ (สัดส่วนภาพ 4:3)

เต็มหน้าจอแนวตั้ง (3:4) - สัดส่วนภาพแบบเต็มหน้าจอที่บิด 90 องศา วิธีนี้ช่วยให้คุณจับภาพฉากในแนวตั้งได้มากขึ้นเมื่อเทียบกับสัดส่วนภาพ 1:1

จอกว้าง (16:9) - อัตราส่วนนี้เข้ามาแทนที่ 4:3 และกลายเป็นอัตราส่วนที่พบมากที่สุดสำหรับหน้าจอทีวี จอภาพ และหน้าจอโทรศัพท์มือถือ (แนวนอน) ใช้สัดส่วนภาพนี้เมื่อคุณต้องการจับภาพพื้นหลังให้มากขึ้น (เช่น ภูมิทัศน์ที่สวยงาม)

พรอมต์: ชายสวมใส่เสื้อผ้าสีขาวล้วน นั่งอยู่บนชายหาด ถ่ายระยะใกล้ แสงในช่วงทอง (สัดส่วนภาพ 16:9)
แนวตั้ง (9:16) - อัตราส่วนนี้เป็นอัตราส่วนแบบจอกว้างแต่มีการหมุน ซึ่งเป็นสัดส่วนภาพที่ค่อนข้างใหม่ซึ่งได้รับความนิยมจากแอปวิดีโอแบบสั้น (เช่น YouTube Shorts) ใช้กับวัตถุสูงที่มีการวางแนวในแนวตั้งอย่างชัดเจน เช่น อาคาร ต้นไม้ น้ำตก หรือวัตถุอื่นๆ ที่คล้ายกัน

พรอมต์: ภาพเรนเดอร์ดิจิทัลของตึกระฟ้าขนาดใหญ่ ทันสมัย ยิ่งใหญ่ อลังการ โดยมีภาพพระอาทิตย์ตกที่สวยงามเป็นพื้นหลัง (สัดส่วนภาพ 9:16)

รูปภาพสมจริง

โมเดลการสร้างรูปภาพเวอร์ชันต่างๆ อาจให้ผลลัพธ์ที่ผสมผสานระหว่างภาพศิลปะและภาพเหมือนจริง ใช้ข้อความต่อไปนี้ในพรอมต์เพื่อสร้างเอาต์พุตที่เหมือนภาพถ่ายมากขึ้น โดยอิงตามหัวข้อที่ต้องการสร้าง

กรณีการใช้งาน	ประเภทเลนส์	ความยาวโฟกัส	รายละเอียดเพิ่มเติม
บุคคล (ภาพบุคคล)	ไพร์ม ซูม	24-35 มม.	ฟิล์มขาวดํา, ภาพยนตร์นัวร์, ระยะชัดลึก, โทนสีคู่ (ระบุ 2 สี)
อาหาร แมลง พืช (วัตถุ ภาพนิ่ง)	มาโคร	60-105 มม.	รายละเอียดสูง โฟกัสแม่นยำ แสงที่ควบคุมได้
กีฬา สัตว์ป่า (การเคลื่อนไหว)	ซูมเทเลโฟโต้	100-400 มม.	ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหวหรือแอ็กชัน
ดาราศาสตร์ แนวนอน (มุมกว้าง)	ไวด์	10-24 มม.	การเปิดรับแสงนาน โฟกัสคมชัด น้ำหรือเมฆที่เรียบ

ภาพพอร์เทรต

กรณีการใช้งาน	ประเภทเลนส์	ความยาวโฟกัส	รายละเอียดเพิ่มเติม
บุคคล (ภาพบุคคล)	ไพร์ม ซูม	24-35 มม.	ฟิล์มขาวดํา, ภาพยนตร์นัวร์, ระยะชัดลึก, โทนสีคู่ (ระบุ 2 สี)

เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างภาพบุคคลต่อไปนี้ได้

พรอมต์: ผู้หญิง ภาพบุคคล 35 มม. โมโนโครมสีน้ำเงินและสีเทา
นางแบบ: imagen-3.0-generate-002

พรอมต์: ผู้หญิง ภาพบุคคล 35 มม. ฟิล์มนัวร์
นางแบบ: imagen-3.0-generate-002

วัตถุ

กรณีการใช้งาน	ประเภทเลนส์	ความยาวโฟกัส	รายละเอียดเพิ่มเติม
อาหาร แมลง พืช (วัตถุ ภาพนิ่ง)	มาโคร	60-105 มม.	รายละเอียดสูง โฟกัสแม่นยำ แสงที่ควบคุมได้

เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างรูปภาพวัตถุต่อไปนี้ได้

พรอมต์: ใบของต้นกวนอิม, เลนส์มาโคร, 60 มม.
รุ่น: imagen-3.0-generate-002

พรอมต์: จานพาสต้า เลนส์มาโคร 100 มม.
รุ่น: imagen-3.0-generate-002

การเคลื่อนไหว

กรณีการใช้งาน	ประเภทเลนส์	ความยาวโฟกัส	รายละเอียดเพิ่มเติม
กีฬา สัตว์ป่า (การเคลื่อนไหว)	ซูมเทเลโฟโต้	100-400 มม.	ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหวหรือแอ็กชัน

เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างภาพเคลื่อนไหวต่อไปนี้ได้

พรอมต์: ทัชดาวน์ที่ชนะ ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหว
รุ่น: imagen-3.0-generate-002

พรอมต์: กวางวิ่งในป่า ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหว
รุ่น: imagen-3.0-generate-002

ไวด์

กรณีการใช้งาน	ประเภทเลนส์	ความยาวโฟกัส	รายละเอียดเพิ่มเติม
ดาราศาสตร์ แนวนอน (มุมกว้าง)	ไวด์	10-24 มม.	การเปิดรับแสงนาน โฟกัสคมชัด น้ำหรือเมฆที่เรียบ

เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างรูปภาพมุมกว้างต่อไปนี้ได้

พรอมต์: เทือกเขาอันกว้างใหญ่ มุมกว้าง 10 มม. แนวนอน
รุ่น: imagen-3.0-generate-002

พรอมต์: รูปภาพดวงจันทร์ ถ่ายภาพดวงดาว มุมกว้าง 10 มม.
รุ่น: imagen-3.0-generate-002

ขั้นตอนถัดไป

ดูคู่มือ Veo เพื่อดูวิธีสร้างวิดีโอด้วย Gemini API
ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดล Gemini 2.0 ได้ที่หัวข้อโมเดล Gemini และโมเดลเวอร์ชันทดลอง