Gemini API מספק גישה ל-Imagen 3, המודל האיכותי ביותר של Google להמרת טקסט לתמונה, שכולל כמה יכולות חדשות ומשופרות. אפשר לבצע את הפעולות הבאות באמצעות Imagen 3:
- יצירת תמונות עם פרטים טובים יותר, תאורה עשירה יותר ופחות 'פגמים' מפריעים בהשוואה למודלים קודמים
- הסבר על הנחיות שנכתבות בשפה טבעית
- יצירת תמונות במגוון רחב של פורמטים וסגנונות
- רינדור טקסט בצורה יעילה יותר מאשר במודלים קודמים
למידע נוסף ולצפייה בדוגמאות לפלט, ראו סקירה כללית על Google DeepMind Imagen 3.
לפני שמתחילים: מגדירים את הפרויקט ומפתח ה-API
pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen
לפני שמפעילים את Gemini API, צריך להגדיר את הפרויקט ולהגדיר את מפתח ה-API.
יצירת תמונות
בקטע הזה נסביר איך ליצור מודל Imagen ולהפיק תמונות.
כדי להריץ את קוד הדוגמה, קודם צריך להתקין את Pillow:
pip install --upgrade Pillow
לאחר מכן, כש-Pillow ו-Python SDK מותקנים, אפשר להשתמש בקוד הבא כדי ליצור תמונות:
import os
import google.generativeai as genai
genai.configure(api_key=os.environ['API_KEY'])
imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")
result = imagen.generate_images(
prompt="Fuzzy bunnies in my kitchen",
number_of_images=4,
safety_filter_level="block_only_high",
person_generation="allow_adult",
aspect_ratio="3:4",
negative_prompt="Outside",
)
for image in result.images:
print(image)
# Open and display the image using your local operating system.
for image in result.images:
image._pil_image.show()
ביומן צריכות להופיע ארבע תמונות דומות לזו:
הפרמטרים של מודל Imagen
הפרמטרים הבאים זמינים ל-generate_images()
:
prompt
: הנחיה בטקסט לתמונה.negative_prompt
: תיאור של מה שרוצים להשמיט בתמונות שייווצרו. ברירת המחדל היא 'ללא'.לדוגמה, ניקח את ההנחיה "רחוב עירוני גשום בלילה ללא אנשים". יכול להיות שהמודל יטפל ב-'אנשים' כהוראה לגבי מה לכלול במקום להשמיט. כדי לקבל תוצאות טובות יותר, אפשר להשתמש בהנחיה 'רחוב עירוני גשום בלילה' עם הנחיה שלילית 'אנשים'.
number_of_images
: מספר התמונות שייווצרו, מ-1 עד 4 (כולל). ערך ברירת המחדל הוא 4.aspect_ratio
: שינוי יחס הגובה-רוחב של התמונה שנוצרה. הערכים הנתמכים הם"1:1"
,"3:4"
,"4:3"
,"9:16"
ו-"16:9"
. ערך ברירת המחדל הוא"1:1"
.safety_filter_level
: הוספת רמת סינון לסינון הבטיחות. הערכים הבאים חוקיים:"block_low_and_above"
: חסימה כשציון הסבירות או ציון החומרה הואLOW
,MEDIUM
אוHIGH
."block_medium_and_above"
: חסימה כשציון הסבירות או ציון החומרה הואMEDIUM
אוHIGH
."block_only_high"
: חסימה כשציון הסבירות או ציון החומרה הואHIGH
.
person_generation
: מאפשרים לדגם ליצור תמונות של אנשים. יש תמיכה בערכים הבאים:"dont_allow"
: חסימה של יצירת תמונות של אנשים."allow_adult"
: יצירת תמונות של מבוגרים, אבל לא של ילדים.
שפת ההנחיה בטקסט
השפות הבאות נתמכות להנחיות טקסט להזנת נתונים:
- סינית (פשוטה) (
zh
/zh-CN
) - סינית (מסורתית) (
zh-TW
) - אנגלית (
en
) - הינדי (
hi
) - יפנית (
ja
) - קוריאנית (
ko
) - פורטוגזית (
pt
) - ספרדית (
es
)
המאמרים הבאים
הגרסה הזו של Imagen 3 ב-Gemini API נמצאת בגרסת 'גישה מוקדמת'. כדאי לעקוב אחרי העדכונים לגבי הסטטוס של התכונה.