Gemini API を使用してテキストを生成する

Gemini API は、テキスト、画像、動画、音声を入力として指定すると、テキスト出力を生成できます。

このガイドでは、generateContent メソッドと streamGenerateContent メソッドを使用してテキストを生成する方法について説明します。Gemini のビジョン機能と音声機能の使用方法については、ビジョン音声のガイドをご覧ください。

始める前に: プロジェクトと API キーを設定する

Gemini API を呼び出す前に、プロジェクトを設定して API キーを構成する必要があります。

テキストのみの入力からテキストを生成する

Gemini API を使用してテキストを生成する最も簡単な方法は、次の例に示すように、モデルにテキストのみの入力を 1 つ指定することです。

model = genai.GenerativeModel("gemini-1.5-flash")
response = model.generate_content("Write a story about a magic backpack.")
print(response.text)

この場合、プロンプト(「魔法のバックパックに関する物語を書いてください」)には、出力の例、システムの手順、フォーマット情報は含まれていません。これはゼロショット アプローチです。ユースケースによっては、1 ショットまたは少数ショットのプロンプトを使用すると、ユーザーの期待に沿った出力が生成される場合があります。場合によっては、モデルがタスクを理解したり、特定のガイドラインに従ったりできるように、システム指示を提供することもあります。

テキストと画像の入力からテキストを生成する

Gemini API は、テキストとメディア ファイルを組み合わせたマルチモーダル入力をサポートしています。次の例は、テキストと画像の入力からテキストを生成する方法を示しています。

import PIL.Image

model = genai.GenerativeModel("gemini-1.5-flash")
organ = PIL.Image.open(media / "organ.jpg")
response = model.generate_content(["Tell me about this instrument", organ])
print(response.text)

テキストのみのプロンプトと同様に、マルチモーダル プロンプトにはさまざまなアプローチと改良が含まれる場合があります。この例の出力に応じて、プロンプトに手順を追加したり、手順をより具体的にしたりできます。詳細については、ファイル プロンプト戦略をご覧ください。

テキスト ストリームを生成する

デフォルトでは、モデルはテキスト生成プロセス全体が完了した後にレスポンスを返します。結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

次の例は、streamGenerateContent メソッドを使用してストリーミングを実装し、テキストのみの入力プロンプトからテキストを生成する方法を示しています。

model = genai.GenerativeModel("gemini-1.5-flash")
response = model.generate_content("Write a story about a magic backpack.", stream=True)
for chunk in response:
    print(chunk.text)
    print("_" * 80)

インタラクティブなチャットを構築する

Gemini API を使用して、ユーザー向けのインタラクティブなチャット エクスペリエンスを構築できます。API のチャット機能を使用すると、複数回にわたる質問とレスポンスを収集して、ユーザーが段階的に回答を取得したり、マルチパートの問題のサポートを受けたりできます。この機能は、チャットボット、インタラクティブなチューター、カスタマー サポート アシスタントなど、継続的なコミュニケーションが必要なアプリに最適です。

次のコードサンプルは、基本的なチャットの実装を示しています。

model = genai.GenerativeModel("gemini-1.5-flash")
chat = model.start_chat(
    history=[
        {"role": "user", "parts": "Hello"},
        {"role": "model", "parts": "Great to meet you. What would you like to know?"},
    ]
)
response = chat.send_message("I have 2 dogs in my house.")
print(response.text)
response = chat.send_message("How many paws are in my house?")
print(response.text)

チャット ストリーミングを有効にする

次の例のように、チャットでストリーミングを使用することもできます。

model = genai.GenerativeModel("gemini-1.5-flash")
chat = model.start_chat(
    history=[
        {"role": "user", "parts": "Hello"},
        {"role": "model", "parts": "Great to meet you. What would you like to know?"},
    ]
)
response = chat.send_message("I have 2 dogs in my house.", stream=True)
for chunk in response:
    print(chunk.text)
    print("_" * 80)
response = chat.send_message("How many paws are in my house?", stream=True)
for chunk in response:
    print(chunk.text)
    print("_" * 80)

print(chat.history)

テキスト生成を構成する

モデルに送信するすべてのプロンプトには、モデルがレスポンスを生成する方法を制御するパラメータが含まれています。これらのパラメータは GenerationConfig を使用して構成できます。パラメータを構成しない場合、モデルはデフォルトのオプションを使用します。このオプションはモデルによって異なる場合があります。

次の例は、使用可能なオプションのいくつかを構成する方法を示しています。

model = genai.GenerativeModel("gemini-1.5-flash")
response = model.generate_content(
    "Tell me a story about a magic backpack.",
    generation_config=genai.types.GenerationConfig(
        # Only one candidate for now.
        candidate_count=1,
        stop_sequences=["x"],
        max_output_tokens=20,
        temperature=1.0,
    ),
)

print(response.text)

candidateCount には、返される生成された回答の数を指定します。現在、この値は 1 にのみ設定できます。設定しない場合、デフォルトで 1 になります。

stopSequences には、出力の生成を停止する文字シーケンスのセット(最大 5 個)を指定します。指定すると、stop_sequence が最初に出現した時点で API が停止します。停止シーケンスはレスポンスには含まれません。

maxOutputTokens は、候補に含めるトークンの最大数を設定します。

temperature は出力のランダム性を制御します。より創造的なレスポンスを生成する場合は大きい値を、より確定的なレスポンスを生成する場合は小さい値を使用します。値の範囲は [0.0, 2.0] です。

generateContent への個々の呼び出しを構成することもできます。

response = model.generate_content(
    'Write a story about a magic backpack.',
    generation_config = genai.GenerationConfig(
        max_output_tokens=1000,
        temperature=0.1,
    )
)

個々の呼び出しで設定された値は、モデル コンストラクタの値をオーバーライドします。

次のステップ

Gemini API の基本を理解したので、次のことを試すことができます。

  • 視覚認識: Gemini ネイティブの視覚理解機能を使用して画像や動画を処理する方法を学習します。
  • システム指示: システム指示を使用すると、特定のニーズとユースケースに基づいてモデルの動作を制御できます。
  • 音声認識: Gemini のネイティブ音声認識を使用して音声ファイルを処理する方法を学びます。