Gemini API を使用すると、Google の最高品質のテキスト画像変換モデルである Imagen 3 にアクセスできます。このモデルには、新機能や改善された機能が多数搭載されています。Imagen 3 は次のことができます。
- 以前のモデルよりも細部が鮮明で、照明が豊かで、邪魔なアーティファクトが少ない画像を生成
- 自然言語で記述されたプロンプトを理解する
- 幅広い形式とスタイルの画像を生成
- 以前のモデルよりも効果的にテキストをレンダリングする
Imagen のプロンプトの作成の詳細については、Imagen プロンプト ガイドをご覧ください。
画像を生成
このセクションでは、Imagen モデルをインスタンス化して画像を生成する方法について説明します。
Google Gen AI SDK をインストールしたら、次のコードを使用して画像を生成できます。
from google import genai
from google.genai import types
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_image(
model='imagen-3.0-generate-002',
prompt='Fuzzy bunnies in my kitchen',
config=types.GenerateImageConfig(
negative_prompt= 'people',
number_of_images= 1,
include_rai_reason= True,
output_mime_type= 'image/jpeg'
)
)
response.generated_images[0].image.show()
コードサンプルでは、次のような 4 つの画像が表示されます。
Imagen モデル パラメータ
generate_images()
で使用できるパラメータは次のとおりです。
prompt
: 画像のテキスト プロンプト。number_of_images
: 生成する画像の数(1 ~ 4)。デフォルトは 4 です。aspect_ratio
: 生成される画像のアスペクト比を変更します。サポートされている値は"1:1"
、"3:4"
、"4:3"
、"9:16"
、"16:9"
です。デフォルトは"1:1"
です。safety_filter_level
: 安全フィルタリングにフィルタレベルを追加します。有効な値は次のとおりです。"BLOCK_LOW_AND_ABOVE"
: 確率スコアまたは重大度スコアがLOW
、MEDIUM
、またはHIGH
の場合にブロックします。"BLOCK_MEDIUM_AND_ABOVE"
: 確率スコアまたは重大度スコアがMEDIUM
またはHIGH
の場合にブロックします。"BLOCK_ONLY_HIGH"
: 確率スコアまたは重大度スコアがHIGH
の場合にブロックします。
person_generation
: モデルが人物の画像を生成できるようにします。次の値を使用できます。"DONT_ALLOW"
: 人物の画像の生成をブロックします。"ALLOW_ADULT"
: 大人の画像を生成しますが、子供の画像は生成しません。
生成された画像には、目に見えないデジタル SynthID 透かしが常に追加されます。
テキスト プロンプト言語
次の入力テキスト プロンプト言語がサポートされています。
- 英語(
en
)
次のステップ
Gemini API の Imagen 3 は早期アクセス版です。機能のステータスについては、今後のお知らせをご確認ください。