Để sử dụng Imagen, bạn phải cung cấp nội dung mô tả bằng văn bản về nội dung bạn muốn tạo. Những nội dung mô tả này được gọi là lệnh gọi và là cách chính để bạn giao tiếp với Imagen.
Hướng dẫn này cho bạn biết cách sửa đổi các phần của câu lệnh chuyển văn bản sang hình ảnh có thể tạo ra nhiều kết quả khác nhau và cung cấp cho bạn ví dụ về hình ảnh bạn có thể tạo.
Kiến thức cơ bản về cách viết theo câu lệnh (chủ đề, ngữ cảnh và phong cách)
Mặc dù có nhiều cách để viết câu lệnh phù hợp, nhưng việc thêm một số từ khoá và đối tượng sửa đổi sẽ giúp bạn tiến gần hơn đến mục tiêu cuối cùng. Câu lệnh không cần phải dài hoặc phức tạp, nhưng hầu hết câu lệnh hay đều mang tính mô tả và rõ ràng.
Bạn có thể bắt đầu bằng cách nghĩ đến chủ đề, ngữ cảnh và kiểu.
![Câu lệnh có chủ đề, ngữ cảnh và kiểu được nhấn mạnh](https://ai.google.dev/static/gemini-api/docs/images/imagen/style-subject-context.png?hl=vi)
Chủ thể: Điều đầu tiên cần nghĩ đến khi có bất kỳ câu lệnh nào là chủ thể: đối tượng, người, động vật hoặc cảnh mà bạn muốn chụp ảnh.
Ngữ cảnh và nền: Nền hoặc ngữ cảnh nơi đặt chủ thể cũng quan trọng không kém. Hãy thử đặt chủ thể của bạn trong nhiều nền. Ví dụ: phòng chụp có phông nền trắng, ngoài trời hoặc môi trường trong nhà.
Kiểu: Cuối cùng, hãy thêm kiểu hình ảnh mà bạn muốn. Phong cách có thể là chung (bức vẽ, ảnh chụp, bản phác thảo) hoặc rất cụ thể (bức vẽ bằng màu phấn, bản vẽ bằng than, hình ảnh 3D phối cảnh isometric). Bạn cũng có thể kết hợp các kiểu.
Sau khi viết phiên bản đầu tiên của câu lệnh, hãy tinh chỉnh câu lệnh bằng cách thêm nhiều thông tin chi tiết hơn cho đến khi bạn có được hình ảnh mà mình muốn. Lặp lại là một yếu tố quan trọng. Hãy bắt đầu bằng cách xác lập ý tưởng cốt lõi, sau đó tinh chỉnh và mở rộng ý tưởng cốt lõi đó cho đến khi hình ảnh được tạo gần với tầm nhìn của bạn.
![]() |
![]() |
![]() |
Viết theo câu lệnh của Imagen 3
Imagen 3 có thể biến ý tưởng của bạn thành hình ảnh chi tiết, cho dù câu lệnh của bạn ngắn hay dài và chi tiết. Tinh chỉnh tầm nhìn của bạn thông qua lời nhắc lặp lại, thêm chi tiết cho đến khi bạn đạt được kết quả hoàn hảo.
Câu lệnh ngắn giúp bạn tạo hình ảnh nhanh chóng. ![]() |
Câu lệnh dài hơn cho phép bạn thêm thông tin chi tiết cụ thể và xây dựng hình ảnh. ![]() |
Một số lời khuyên khác về cách viết câu lệnh cho Imagen 3:
- Sử dụng ngôn từ mô tả: Sử dụng các tính từ và trạng từ chi tiết để vẽ một bức tranh rõ ràng cho Hình ảnh 3.
- Cung cấp ngữ cảnh: Nếu cần, hãy thêm thông tin cơ bản để hỗ trợ AI hiểu được.
- Tham khảo các nghệ sĩ hoặc phong cách cụ thể: Nếu bạn có một phong cách thẩm mỹ cụ thể, bạn có thể tham khảo các nghệ sĩ hoặc phong trào nghệ thuật cụ thể.
- Sử dụng công cụ kỹ thuật câu lệnh: Hãy cân nhắc việc khám phá các công cụ hoặc tài nguyên kỹ thuật câu lệnh để giúp bạn tinh chỉnh câu lệnh và đạt được kết quả tối ưu.
- Nâng cao chi tiết khuôn mặt trong ảnh cá nhân và ảnh nhóm:
- Chỉ định các chi tiết trên khuôn mặt làm tiêu điểm của bức ảnh (ví dụ: sử dụng từ "chân dung" trong câu lệnh).
Tạo văn bản trong hình ảnh
Khả năng thêm văn bản vào hình ảnh của Imagen 3 mở ra nhiều khả năng tạo hình ảnh sáng tạo. Hãy làm theo hướng dẫn sau đây để khai thác tối đa tính năng này:
- Lặp lại một cách tự tin: Bạn có thể phải tạo lại hình ảnh cho đến khi đạt được giao diện mong muốn. Tính năng tích hợp văn bản của Imagen vẫn đang phát triển và đôi khi, nhiều lần thử nghiệm sẽ mang lại kết quả tốt nhất.
- Ngắn gọn: Giới hạn văn bản ở mức 25 ký tự trở xuống để tạo ra kết quả tối ưu.
Nhiều cụm từ: Thử nghiệm với hai hoặc ba cụm từ riêng biệt để cung cấp thêm thông tin. Tránh vượt quá 3 cụm từ để có các thành phần rõ ràng hơn.
Câu lệnh: Một áp phích có tiêu đề là "Summerland" (Mùa hè) bằng phông chữ đậm, bên dưới tiêu đề này là khẩu hiệu "Summer never felt so good" (Mùa hè chưa bao giờ tuyệt vời đến thế) Hướng dẫn vị trí: Mặc dù Imagen có thể cố gắng đặt văn bản theo hướng dẫn, nhưng đôi khi bạn vẫn có thể thấy sự khác biệt. Tính năng này liên tục được cải thiện.
Kiểu phông chữ gợi ý: Chỉ định một kiểu phông chữ chung để ảnh hưởng một cách tinh tế đến các lựa chọn của Imagen. Đừng dựa vào việc sao chép phông chữ chính xác, nhưng hãy mong đợi các cách diễn giải sáng tạo.
Kích thước phông chữ: Chỉ định kích thước phông chữ hoặc chỉ báo chung về kích thước (ví dụ: nhỏ, vừa, lớn) để ảnh hưởng đến việc tạo kích thước phông chữ.
Tham số hoá lời nhắc
Để kiểm soát tốt hơn kết quả đầu ra, bạn nên tham số hoá dữ liệu đầu vào vào Imagen. Ví dụ: giả sử bạn muốn khách hàng có thể tạo biểu trưng cho doanh nghiệp của họ và bạn muốn đảm bảo biểu trưng luôn được tạo trên nền màu đồng nhất. Bạn cũng muốn giới hạn các tuỳ chọn mà ứng dụng có thể chọn trong trình đơn.
Trong ví dụ này, bạn có thể tạo một lời nhắc có tham số tương tự như sau:
A{logo_style} logo for a{company_area} company on a solid color background. Include the text{company_name} .
Trong giao diện người dùng tuỳ chỉnh, khách hàng có thể nhập các tham số bằng trình đơn và giá trị mà họ chọn sẽ được điền vào lời nhắc mà Imagen nhận được.
Ví dụ:
Lời nhắc:
A minimalist logo for a health care company on a solid color background. Include the text Journey.
Lời nhắc:
A modern logo for a software company on a solid color background. Include the text Silo.
Lời nhắc:
A traditional logo for a baking company on a solid color background. Include the text Seed.
Kiểu: ảnh chụp
- Lời nhắc bao gồm: "Một bức ảnh về..."
Để sử dụng kiểu này, hãy bắt đầu bằng cách sử dụng các từ khoá cho Imagen biết rõ rằng bạn đang tìm kiếm một bức ảnh. Bắt đầu câu lệnh bằng "Một bức ảnh về. . .". Ví dụ:
![]() |
![]() |
![]() |
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.
Phong cách: minh hoạ và nghệ thuật
- Lời nhắc bao gồm: "Một painting của...", "Một sketch của..."
Phong cách nghệ thuật rất đa dạng, từ phong cách đơn sắc như bản phác thảo bằng bút chì đến nghệ thuật số siêu thực tế. Ví dụ: các hình ảnh sau đây sử dụng cùng một câu lệnh với nhiều kiểu khác nhau:
"Một [art style or creation technique] của một chiếc sedan điện thể thao góc cạnh với các tòa nhà chọc trời ở hậu cảnh"
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 2.
Kỹ thuật viết câu lệnh nâng cao
Hãy sử dụng các ví dụ sau để tạo câu lệnh cụ thể hơn dựa trên các thuộc tính: nội dung mô tả nhiếp ảnh, hình dạng và chất liệu, phong trào nghệ thuật cổ điển và đối tượng sửa đổi chất lượng hình ảnh.
Đối tượng sửa đổi ảnh chụp
Trong các ví dụ sau, bạn có thể thấy một số đối tượng sửa đổi và tham số dành riêng cho nhiếp ảnh. Bạn có thể kết hợp nhiều đối tượng sửa đổi để kiểm soát chính xác hơn.
Khoảng cách chụp bằng máy ảnh – Cận cảnh, chụp từ xa
Câu lệnh: Ảnh cận cảnh về hạt cà phê Câu lệnh: Ảnh đã thu nhỏ một túi nhỏ hạt cà phê
trong một gian bếp bừa bộnVị trí máy ảnh – từ trên cao, từ dưới lên
Câu lệnh: ảnh chụp trên không của thành phố đô thị có nhà chọc trời Câu lệnh: Ảnh chụp tán rừng với bầu trời xanh từ dưới lên Ánh sáng – tự nhiên, ấn tượng, ấm áp, lạnh
Câu lệnh: ảnh chụp trong phòng thu về một chiếc ghế bành hiện đại, ánh sáng tự nhiên Câu lệnh: ảnh chụp trong phòng thu về một chiếc ghế bành hiện đại, ánh sáng ấn tượng Cài đặt máy ảnh – làm mờ chuyển động, lấy nét mềm, hiệu ứng bokeh, chân dung
Lời nhắc: ảnh chụp một thành phố có nhà chọc trời từ bên trong ô tô, có hiệu ứng mờ chuyển động Câu lệnh: Ảnh lấy nét mềm về một cây cầu ở thành phố đô thị vào ban đêm Loại ống kính – 35mm, 50mm, mắt cá, góc rộng, macro
Lời nhắc: ảnh một chiếc lá, ống kính macro Câu lệnh: ảnh đường phố, thành phố New York, ống kính mắt cá Loại phim – đen trắng, polaroid
Lời nhắc: ảnh chân dung Polaroid về một chú chó đeo kính râm Lời nhắc: ảnh đen trắng về một chú chó đeo kính râm
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.
Hình dạng và chất liệu
- Câu lệnh bao gồm: "...được làm bằng...", "...có hình dạng..."
Một trong những điểm mạnh của công nghệ này là bạn có thể tạo hình ảnh mà nếu không thì rất khó hoặc không thể tạo được. Ví dụ: bạn có thể tạo lại biểu trưng công ty của mình bằng nhiều chất liệu và hoạ tiết.
![]() |
![]() |
![]() |
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.
Tài liệu tham khảo về nghệ thuật lịch sử
- Lời nhắc bao gồm: "...theo phong cách..."
Một số kiểu đã trở thành biểu tượng trong nhiều năm. Sau đây là một số ý tưởng về phong cách hội họa hoặc nghệ thuật lịch sử mà bạn có thể thử.
"tạo hình ảnh theo kiểu [art period or movement] : một trang trại gió"
![]() |
![]() |
![]() |
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.
Đối tượng sửa đổi chất lượng hình ảnh
Một số từ khoá nhất định có thể cho mô hình biết rằng bạn đang tìm kiếm một thành phần chất lượng cao. Sau đây là một số ví dụ về đối tượng sửa đổi chất lượng:
- Đối tượng sửa đổi chung – chất lượng cao, đẹp, được cách điệu
- Ảnh – 4K, HDR, Ảnh chụp trong Studio
- Hình minh hoạ, hình minh hoạ – do một chuyên gia thực hiện, chi tiết
Sau đây là một số ví dụ về lời nhắc không có đối tượng sửa đổi chất lượng và cùng một lời nhắc có đối tượng sửa đổi chất lượng.
![]() |
![]() 4k HDR đẹp về một cây ngô do một nhiếp ảnh gia chuyên nghiệp chụp |
Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.
Tỷ lệ khung hình
Tính năng tạo hình ảnh Imagen 3 cho phép bạn đặt 5 tỷ lệ khung hình hình ảnh khác nhau.
- Vuông (1:1, mặc định) – Ảnh vuông tiêu chuẩn. Tỷ lệ khung hình này thường được dùng cho bài đăng trên mạng xã hội.
Toàn màn hình (4:3) – Tỷ lệ khung hình này thường được dùng trong nội dung nghe nhìn hoặc phim. Đây cũng là kích thước của hầu hết TV cũ (không phải màn hình rộng) và máy ảnh định dạng trung bình. Tỷ lệ khung hình này giúp chụp được nhiều cảnh hơn theo chiều ngang (so với tỷ lệ 1:1), nên đây là tỷ lệ khung hình ưu tiên cho việc chụp ảnh.
Câu lệnh: cảnh cận cảnh các ngón tay của một nhạc sĩ đang chơi piano, phim đen trắng, kiểu cổ điển (tỷ lệ khung hình 4:3) Câu lệnh: Ảnh chụp chuyên nghiệp trong studio về khoai tây chiên của một nhà hàng cao cấp, theo phong cách tạp chí ẩm thực (tỷ lệ khung hình 4:3) Toàn màn hình dọc (3:4) – Đây là tỷ lệ khung hình toàn màn hình được xoay 90 độ. Điều này giúp bạn chụp được nhiều cảnh hơn theo chiều dọc so với tỷ lệ khung hình 1:1.
Câu lệnh: một người phụ nữ đi bộ đường dài, cảnh cận cảnh đôi bốt của cô phản chiếu trong vũng nước, những ngọn núi lớn ở hậu cảnh, theo phong cách quảng cáo, góc độ ấn tượng (tỷ lệ khung hình 3:4) Lời nhắc: cảnh quay trên không của một dòng sông chảy qua một thung lũng huyền bí (tỷ lệ khung hình 3:4) Màn hình rộng (16:9) – Tỷ lệ này đã thay thế tỷ lệ 4:3 và hiện là tỷ lệ khung hình phổ biến nhất cho TV, màn hình và màn hình điện thoại di động (ngang). Sử dụng tỷ lệ khung hình này khi bạn muốn chụp nhiều cảnh nền hơn (ví dụ: phong cảnh).
Câu lệnh: một người đàn ông mặc toàn bộ trang phục màu trắng ngồi trên bãi biển, cảnh cận cảnh, ánh sáng vàng (tỷ lệ khung hình 16:9) Dọc (9:16) – Tỷ lệ này là màn hình rộng nhưng được xoay. Đây là một tỷ lệ khung hình tương đối mới, được các ứng dụng video ngắn phổ biến (ví dụ: YouTube Shorts) sử dụng. Sử dụng chế độ này cho các đối tượng cao có hướng dọc rõ ràng, chẳng hạn như toà nhà, cây cối, thác nước hoặc các đối tượng tương tự khác.
Câu lệnh: hình ảnh kết xuất kỹ thuật số của một toà nhà chọc trời khổng lồ, hiện đại, đồ sộ, hoành tráng với cảnh hoàng hôn tuyệt đẹp ở nền sau (tỷ lệ khung hình 9:16)
Hình ảnh chân thực
Các phiên bản khác nhau của mô hình tạo hình ảnh có thể cung cấp kết quả kết hợp giữa nghệ thuật và ảnh chân thực. Sử dụng các từ sau trong câu lệnh để tạo ra kết quả chân thực hơn, dựa trên chủ thể mà bạn muốn tạo.
Trường hợp sử dụng | Loại ống kính | Tiêu cự | Thông tin chi tiết khác |
---|---|---|---|
Người (ảnh chân dung) | Tìm kiếm chính xác, thu phóng | 24-35mm | phim đen trắng, phim đen, độ sâu trường ảnh, hai tông màu (nhắc đến hai màu) |
Thức ăn, côn trùng, cây cối (đối tượng, tĩnh vật) | Macro | 60-105mm | Độ chi tiết cao, lấy nét chính xác, ánh sáng được kiểm soát |
Thể thao, động vật hoang dã (ảnh động) | Thu phóng tele | 100-400mm | Tốc độ màn trập nhanh, Theo dõi hành động hoặc chuyển động |
Thiên văn, ngang (góc rộng) | Ống kính góc rộng | 10-24mm | Thời gian phơi sáng lâu, lấy nét sắc nét, phơi sáng lâu, nước hoặc mây mượt |
Chân dung
Trường hợp sử dụng | Loại ống kính | Tiêu cự | Thông tin chi tiết khác |
---|---|---|---|
Người (ảnh chân dung) | Tìm kiếm chính xác, thu phóng | 24-35mm | phim đen trắng, phim đen, độ sâu trường ảnh, hai tông màu (nhắc đến hai màu) |
Bằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo ra những bức chân dung sau.
![]() |
![]() |
![]() |
![]() |
Câu lệnh: Một người phụ nữ, ảnh chân dung 35mm, hai tông màu xanh dương và xám
Mẫu: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
Lời nhắc: Một người phụ nữ, ảnh chân dung 35mm, phim đen
Mẫu: imagen-3.0-generate-002
Đối tượng
Trường hợp sử dụng | Loại ống kính | Tiêu cự | Thông tin chi tiết khác |
---|---|---|---|
Thức ăn, côn trùng, cây cối (đối tượng, tĩnh vật) | Macro | 60-105mm | Độ chi tiết cao, lấy nét chính xác, ánh sáng được kiểm soát |
Bằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo các hình ảnh đối tượng sau.
![]() |
![]() |
![]() |
![]() |
Lời nhắc: lá cây cầu nguyện, ống kính macro, 60mm
Mẫu: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
Lời nhắc: một đĩa mì ống, ống kính Macro 100mm
Mẫu: imagen-3.0-generate-002
Có chuyển động
Trường hợp sử dụng | Loại ống kính | Tiêu cự | Thông tin chi tiết khác |
---|---|---|---|
Thể thao, động vật hoang dã (ảnh động) | Thu phóng tele | 100-400mm | Tốc độ màn trập nhanh, Theo dõi chuyển động hoặc hành động |
Bằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo các hình ảnh động sau.
![]() |
![]() |
![]() |
![]() |
Lời nhắc: một cú chạm bóng thành công, tốc độ chụp nhanh, theo dõi chuyển động
Mô hình: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
Câu lệnh: Một con nai đang chạy trong rừng, tốc độ màn trập nhanh, theo dõi chuyển động
Mô hình: imagen-3.0-generate-002
Ống kính góc rộng
Trường hợp sử dụng | Loại ống kính | Tiêu cự | Thông tin chi tiết khác |
---|---|---|---|
Thiên văn, ngang (góc rộng) | Ống kính góc rộng | 10-24mm | Thời gian phơi sáng lâu, lấy nét sắc nét, phơi sáng lâu, nước hoặc mây mượt |
Bằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo ra các hình ảnh góc rộng sau.
![]() |
![]() |
![]() |
![]() |
Lời nhắc: một dãy núi rộng lớn, góc rộng 10mm theo chiều ngang
Mô hình: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
Câu lệnh: ảnh chụp mặt trăng, ảnh thiên văn, góc rộng 10mm
Mẫu: imagen-3.0-generate-002