Membuat gambar menggunakan Imagen 3

Gemini API menyediakan akses ke Imagen 3, model pembuatan gambar tercanggih dari Google. Dengan menggunakan Imagen, Anda dapat membuat gambar dari prompt teks. Integrasi Gemini API dengan Imagen dirancang untuk membantu Anda membuat aplikasi AI generasi berikutnya yang mengubah perintah pengguna menjadi aset visual berkualitas tinggi dalam hitungan detik.

Panduan ini akan membantu Anda mulai menggunakan Imagen menggunakan Gemini API Python SDK.

Tentang Imagen 3

Gambar 3 adalah model teks-ke-gambar berkualitas tertinggi dari Google, yang menampilkan sejumlah kemampuan baru yang lebih baik. Imagen 3 dapat melakukan hal berikut:

  • Buat gambar dengan detail yang lebih baik, pencahayaan yang lebih kaya, dan lebih sedikit gangguan dibandingkan dengan model sebelumnya.
  • Memahami perintah yang ditulis dalam bahasa sehari-hari yang alami, sehingga memudahkan pembuatan output yang selaras tanpa rekayasa perintah yang kompleks.
  • Buat gambar dalam berbagai format dan gaya, dari fotorealistik lanskap hingga lukisan cat minyak bertekstur atau pemandangan tanah liat yang unik.
  • Merender teks dengan lebih efektif daripada model sebelumnya, sehingga membuka kemungkinan untuk kasus penggunaan seperti kartu ulang tahun bergaya, presentasi, dan lainnya.

Imagen 3 dibuat dengan inovasi keamanan dan tanggung jawab terbaru dari Google, mulai dari pengembangan data dan model hingga produksi. Tim Google DeepMind menggunakan pemfilteran ekstensif dan pelabelan data untuk meminimalkan konten berbahaya dalam set data dan mengurangi kemungkinan output yang berbahaya. Tim ini juga melakukan tim merah dan evaluasi tentang topik yang mencakup keadilan, bias, dan keamanan konten.

Untuk mempelajari lebih lanjut dan melihat contoh output, lihat Ringkasan Google DeepMind Imagen 3.

Sebelum memulai: Menyiapkan project dan kunci API

pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen

Sebelum memanggil Gemini API, Anda perlu menyiapkan project dan mengonfigurasi kunci API Anda.

Buat gambar

Bagian ini menunjukkan cara membuat instance model Imagen dan membuat gambar.

Untuk menjalankan kode contoh, Anda harus terlebih dahulu menginstal Bantal:

pip install --upgrade Pillow

Kemudian, dengan Pillow dan Python SDK terinstal, Anda dapat menggunakan kode berikut untuk membuat gambar:

import os
import google.generativeai as genai

genai.configure(api_key=os.environ['API_KEY'])

imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")

result = imagen.generate_images(
    prompt="Fuzzy bunnies in my kitchen",
    number_of_images=4,
    safety_filter_level="block_only_high",
    person_generation="allow_adult",
    aspect_ratio="3:4",
    negative_prompt="Outside",
)

for image in result.images:
  print(image)

# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>

for image in result.images:
  # Open and display the image using your local operating system.
  image._pil_image.show()

Notebook akan menampilkan empat gambar yang mirip dengan gambar ini:

Gambar dua kelinci lucu yang dibuat AI di dapur

Parameter model Imagen

Parameter berikut tersedia untuk generate_images():

  • prompt: Perintah teks untuk gambar.
  • negative_prompt: Deskripsi tentang hal yang ingin Anda hapus dalam gambar yang dihasilkan. Nilai defaultnya adalah tidak ada.

    Misalnya, perintah "jalanan kota di malam hari saat turun hujan tanpa orang". Model dapat menafsirkan "orang" sebagai perintah untuk menyertakan, bukan menghilangkan. Untuk memberikan hasil yang lebih baik, Anda dapat menggunakan perintah "jalan kota di malam hari saat turun hujan" dengan perintah negatif "orang".

  • number_of_images: Jumlah gambar yang akan dibuat, dari 1 hingga 4 (inklusif). Defaultnya adalah 4.

  • aspect_ratio: Mengubah rasio aspek gambar yang dihasilkan. Didukung nilainya adalah "1:1", "3:4", "4:3", "9:16", dan "16:9". Defaultnya adalah "1:1".

  • safety_filter_level: Menambahkan tingkat filter ke pemfilteran keamanan. Nilai berikut valid:

    • "block_low_and_above": Blokir jika skor probabilitas atau skor keparahan adalah LOW, MEDIUM, atau HIGH.
    • "block_medium_and_above": Blokir jika skor probabilitas atau skor keparahan adalah MEDIUM atau HIGH.
    • "block_only_high": Blokir saat skor probabilitas atau skor keparahannya adalah HIGH.
  • person_generation: Mengizinkan model membuat gambar orang. Tujuan nilai berikut ini didukung:

    • "dont_allow": Memblokir pembuatan gambar orang.
    • "allow_adult": Membuat gambar orang dewasa, tetapi tidak untuk anak-anak.

Langkah berikutnya

Imagen 3 di Gemini API masih dalam akses awal. Nantikan pengumuman tentang status fitur ini.