Membuat gambar menggunakan Imagen 3

Gemini API menyediakan akses ke Imagen 3, model pembuatan gambar tercanggih dari Google. Dengan Imagen, Anda dapat membuat gambar baru dari perintah teks. Integrasi Gemini API dengan Imagen dirancang untuk membantu Anda membuat aplikasi AI generasi berikutnya yang mengubah perintah pengguna menjadi aset visual berkualitas tinggi dalam hitungan detik.

Panduan ini akan membantu Anda memulai Imagen menggunakan Gemini API Python SDK.

Tentang Imagen 3

Imagen 3 adalah model text-to-image berkualitas terbaik dari Google, yang menampilkan sejumlah kemampuan baru dan yang ditingkatkan. Imagen 3 dapat melakukan hal berikut:

  • Buat gambar dengan detail yang lebih baik, pencahayaan yang lebih kaya, dan artefak yang lebih sedikit yang mengganggu dibandingkan model sebelumnya.
  • Memahami perintah yang ditulis dalam bahasa sehari-hari yang alami, sehingga memudahkan pembuatan output yang selaras tanpa rekayasa perintah yang kompleks.
  • Buat gambar dalam berbagai format dan gaya, mulai dari lanskap yang menyerupai objek aslinya hingga lukisan cat minyak yang kaya akan tekstur atau adegan animasi clay yang unik.
  • Merender teks secara lebih efektif daripada model sebelumnya, sehingga membuka kemungkinan baru untuk kasus penggunaan seperti kartu ulang tahun bergaya, presentasi, dan lainnya.

Imagen 3 dibuat dengan inovasi keamanan dan tanggung jawab terbaru Google, mulai dari pengembangan data dan model hingga produksi. Tim Google DeepMind menggunakan pemfilteran dan pemberian label data yang ekstensif untuk meminimalkan konten berbahaya dalam set data dan mengurangi kemungkinan output berbahaya. Tim tersebut juga melakukan pengelompokan dan evaluasi penting terkait topik yang mencakup keadilan, bias, dan keamanan konten.

Untuk mempelajari lebih lanjut dan melihat contoh output, lihat ringkasan Google DeepMind Imagen 3.

Sebelum memulai: Menyiapkan project dan kunci API

pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen

Sebelum memanggil Gemini API, Anda perlu menyiapkan project dan mengonfigurasi kunci API.

Buat gambar

Bagian ini menunjukkan cara membuat instance model Imagen dan membuat gambar.

Untuk menjalankan kode contoh, Anda harus menginstal Pillow terlebih dahulu:

pip install --upgrade Pillow

Kemudian, dengan menginstal Pillow dan Python SDK, Anda dapat menggunakan kode berikut untuk membuat gambar:

import os
import google.generativeai as genai

genai.configure(api_key=os.environ['API_KEY'])

imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")

result = imagen.generate_images(
    prompt="Fuzzy bunnies in my kitchen",
    number_of_images=4,
    safety_filter_level="block_only_high",
    person_generation="allow_adult",
    aspect_ratio="3:4",
    negative_prompt="Outside",
)

for image in result.images:
  print(image)

# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>

for image in result.images:
  # Open and display the image using your local operating system.
  image._pil_image.show()

Notebook akan menampilkan empat gambar yang mirip dengan gambar ini:

Gambar dua kelinci lucu yang dibuat AI di dapur

Parameter model Imagen

Parameter berikut tersedia untuk generate_images():

  • prompt: Perintah teks untuk gambar.
  • negative_prompt: Deskripsi hal yang ingin Anda hapus dalam gambar yang dihasilkan. Setelan default-nya adalah tidak ada.

    Misalnya, perintah "jalanan kota di malam hari saat turun hujan tanpa orang". Model dapat menafsirkan "orang" sebagai perintah untuk menyertakan, bukan menghilangkan. Untuk memberikan hasil yang lebih baik, Anda dapat menggunakan perintah "jalan kota di malam hari saat turun hujan" dengan perintah negatif "orang".

  • number_of_images: Jumlah gambar yang akan dihasilkan, dari 1 hingga 4 (inklusif). Defaultnya adalah 4.

  • aspect_ratio: Mengubah rasio aspek gambar yang dihasilkan. Nilai yang didukung adalah "1:1", "3:4", "4:3", "9:16", dan "16:9". Defaultnya adalah "1:1".

  • safety_filter_level: Menambahkan tingkat filter ke pemfilteran keamanan. Nilai berikut valid:

    • "block_low_and_above": Blokir jika skor probabilitas atau skor keparahannya adalah LOW, MEDIUM, atau HIGH.
    • "block_medium_and_above": Blokir jika skor probabilitas atau skor keparahan adalah MEDIUM atau HIGH.
    • "block_only_high": Blokir jika skor probabilitas atau skor keparahannya adalah HIGH.
  • person_generation: Mengizinkan model membuat gambar orang. Nilai berikut didukung:

    • "dont_allow": Memblokir pembuatan gambar orang.
    • "allow_adult": Membuat gambar orang dewasa, tetapi bukan anak-anak.

Bahasa perintah teks

Bahasa perintah teks input berikut didukung:

  • China (aks. sederhana) (zh/zh-CN)
  • China (aksara tradisional) (zh-TW)
  • Inggris (en)
  • Hindi (hi)
  • Jepang (ja)
  • Korea (ko)
  • Portugis (pt)
  • Spanyol (es)

Langkah berikutnya

Imagen 3 di Gemini API masih dalam akses awal. Nantikan pengumuman tentang status fitur ini.