יצירת תמונות באמצעות Imagen 3

‏Gemini API מספק גישה ל-Imagen 3, המודל האיכותי ביותר של Google להמרת טקסט לתמונה, שכולל כמה יכולות חדשות ומשופרות. אפשר לבצע את הפעולות הבאות באמצעות Imagen 3:

  • יצירת תמונות עם פרטים טובים יותר, תאורה עשירה יותר ופחות 'פגמים' מפריעים בהשוואה למודלים קודמים
  • הסבר על הנחיות שנכתבות בשפה טבעית
  • יצירת תמונות במגוון רחב של פורמטים וסגנונות
  • רינדור טקסט בצורה יעילה יותר מאשר במודלים קודמים

למידע נוסף ולצפייה בדוגמאות לפלט, ראו סקירה כללית על Google DeepMind Imagen 3.

לפני שמתחילים: מגדירים את הפרויקט ומפתח ה-API

pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen

לפני שמפעילים את Gemini API, צריך להגדיר את הפרויקט ולהגדיר את מפתח ה-API.

יצירת תמונות

בקטע הזה נסביר איך ליצור מודל Imagen ולהפיק תמונות.

כדי להריץ את קוד הדוגמה, קודם צריך להתקין את Pillow:

pip install --upgrade Pillow

לאחר מכן, כש-Pillow ו-Python SDK מותקנים, אפשר להשתמש בקוד הבא כדי ליצור תמונות:

import os
import google.generativeai as genai

genai.configure(api_key=os.environ['API_KEY'])

imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")

result = imagen.generate_images(
    prompt="Fuzzy bunnies in my kitchen",
    number_of_images=4,
    safety_filter_level="block_only_high",
    person_generation="allow_adult",
    aspect_ratio="3:4",
    negative_prompt="Outside",
)

for image in result.images:
  print(image)

# Open and display the image using your local operating system.
for image in result.images:
  image._pil_image.show()

ביומן צריכות להופיע ארבע תמונות דומות לזו:

תמונה שנוצרה על ידי AI של שני ארנבים פרוותיים במטבח

הפרמטרים של מודל Imagen

הפרמטרים הבאים זמינים ל-generate_images():

  • prompt: הנחיה בטקסט לתמונה.
  • negative_prompt: תיאור של מה שרוצים להשמיט בתמונות שייווצרו. ברירת המחדל היא 'ללא'.

    לדוגמה, ניקח את ההנחיה "רחוב עירוני גשום בלילה ללא אנשים". יכול להיות שהמודל יטפל ב-'אנשים' כהוראה לגבי מה לכלול במקום להשמיט. כדי לקבל תוצאות טובות יותר, אפשר להשתמש בהנחיה 'רחוב עירוני גשום בלילה' עם הנחיה שלילית 'אנשים'.

  • number_of_images: מספר התמונות שייווצרו, מ-1 עד 4 (כולל). ערך ברירת המחדל הוא 4.

  • aspect_ratio: שינוי יחס הגובה-רוחב של התמונה שנוצרה. הערכים הנתמכים הם "1:1",‏ "3:4",‏ "4:3",‏ "9:16" ו-"16:9". ערך ברירת המחדל הוא "1:1".

  • safety_filter_level: הוספת רמת סינון לסינון הבטיחות. הערכים הבאים חוקיים:

    • "block_low_and_above": חסימה כשציון הסבירות או ציון החומרה הוא LOW,‏ MEDIUM או HIGH.
    • "block_medium_and_above": חסימה כשציון הסבירות או ציון החומרה הוא MEDIUM או HIGH.
    • "block_only_high": חסימה כשציון הסבירות או ציון החומרה הוא HIGH.
  • person_generation: מאפשרים לדגם ליצור תמונות של אנשים. יש תמיכה בערכים הבאים:

    • "dont_allow": חסימה של יצירת תמונות של אנשים.
    • "allow_adult": יצירת תמונות של מבוגרים, אבל לא של ילדים.

שפת ההנחיה בטקסט

השפות הבאות נתמכות להנחיות טקסט להזנת נתונים:

  • סינית (פשוטה) (zh/zh-CN)
  • סינית (מסורתית) (zh-TW)
  • אנגלית (en)
  • הינדי (hi)
  • יפנית (ja)
  • קוריאנית (ko)
  • פורטוגזית (pt)
  • ספרדית (es)

המאמרים הבאים

הגרסה הזו של Imagen 3 ב-Gemini API נמצאת בגרסת 'גישה מוקדמת'. כדאי לעקוב אחרי העדכונים לגבי הסטטוס של התכונה.