チュートリアル: Gemini API のスタートガイド


このチュートリアルでは、Google AI Dart SDK を使用して Dart または Flutter アプリケーション用の Gemini API にアクセスする方法について説明します。アプリの Gemini モデルにアクセスするために REST API を直接操作しない場合は、この SDK を使用できます。

このチュートリアルでは、次の方法を学習します。

さらに、このチュートリアルには、高度なユースケース(エンベディングトークンのカウントなど)と、コンテンツ生成の制御のオプションに関するセクションも含まれています。

前提条件

このチュートリアルは、読者が Dart を使ったアプリケーションの作成に精通していることを前提としています。

このチュートリアルを最後まで進めるには、開発環境が次の要件を満たしていることを確認してください。

  • Dart 3.2.0 以降

プロジェクトを設定する

Gemini API を呼び出す前に、API キーの設定、Pub/Sub の依存関係への SDK の追加、モデルの初期化など、プロジェクトを設定する必要があります。

API キーを設定する

Gemini API を使用するには API キーが必要です。キーがない場合は、Google AI Studio で作成します。

API キーを取得する

API キーを保護する

API キーを安全に保つ。コードに直接 API キーを含めないこと、またはキーを含むファイルをバージョン管理システムにチェックインしないことを強くおすすめします。代わりに、API キーにはシークレット ストアを使用する必要があります。

このチュートリアルのすべてのスニペットは、プロセス環境変数として API キーにアクセスしていることを前提としています。Flutter アプリを開発している場合は、アプリの実行時にプロセス環境が異なるため、String.fromEnvironment を使用して --dart-define=API_KEY=$API_KEYflutter build または flutter run に渡すことで、API キーでコンパイルできます。

SDK パッケージをインストールする

独自のアプリケーションで Gemini API を使用するには、google_generative_ai パッケージを Dart または Flutter アプリに add する必要があります。

Dart

dart pub add google_generative_ai

フラッター

flutter pub add google_generative_ai

生成モデルを初期化する

API 呼び出しを行う前に、生成モデルをインポートして初期化する必要があります。

import 'dart:io';
import 'package:google_generative_ai/google_generative_ai.dart';

void main() async {

  // Access your API key as an environment variable (see "Set up your API key" above)
  final apiKey = Platform.environment['API_KEY'];
  if (apiKey == null) {
    print('No \$API_KEY environment variable');
    exit(1);
  }

  // The Gemini 1.5 models are versatile and work with most use cases
  final model = GenerativeModel(model: 'gemini-1.5-flash', apiKey: apiKey);
}

モデルを指定する際は、次の点に注意してください。

  • ユースケースに固有のモデルを使用します(たとえば、gemini-1.5-flash はマルチモーダル入力用です)。このガイドでは、各実装の手順に、各ユースケースに推奨されるモデルを記載しています。

一般的なユースケースの実装

プロジェクトが設定されたので、Gemini API を使用してさまざまなユースケースを実装してみましょう。

高度なユースケースのセクションでは、Gemini API とエンベディングに関する情報を確認できます。

テキストのみの入力からテキストを生成する

プロンプト入力にテキストのみが含まれている場合は、Gemini 1.5 モデルまたは Gemini 1.0 Pro モデルと generateContent を使用して、テキスト出力を生成します。

import 'dart:io';

import 'package:google_generative_ai/google_generative_ai.dart';

void main() async {
  // Access your API key as an environment variable (see "Set up your API key" above)
  final apiKey = Platform.environment['API_KEY'];
  if (apiKey == null) {
    print('No \$API_KEY environment variable');
    exit(1);
  }
  // The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
  final model = GenerativeModel(model: 'gemini-1.5-flash', apiKey: apiKey);
  final content = [Content.text('Write a story about a magic backpack.')];
  final response = await model.generateContent(content);
  print(response.text);
}

テキストと画像の入力からテキストを生成する(マルチモーダル)

Gemini には、マルチモーダル入力を処理できるさまざまなモデル(Gemini 1.5 モデル)が用意されており、テキストと画像の両方を入力できます。プロンプトのイメージの要件を必ず確認してください。

プロンプト入力にテキストと画像の両方が含まれている場合は、generateContent メソッドで Gemini 1.5 モデルを使用して、テキスト出力を生成します。

import 'dart:io';

import 'package:google_generative_ai/google_generative_ai.dart';

void main() async {
  // Access your API key as an environment variable (see "Set up your API key" above)
  final apiKey = Platform.environment['API_KEY'];
  if (apiKey == null) {
    print('No \$API_KEY environment variable');
    exit(1);
  }
  // The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
  final model = GenerativeModel(model: 'gemini-1.5-flash', apiKey: apiKey);
  final (firstImage, secondImage) = await (
    File('image0.jpg').readAsBytes(),
    File('image1.jpg').readAsBytes()
  ).wait;
  final prompt = TextPart("What's different between these pictures?");
  final imageParts = [
    DataPart('image/jpeg', firstImage),
    DataPart('image/jpeg', secondImage),
  ];
  final response = await model.generateContent([
    Content.multi([prompt, ...imageParts])
  ]);
  print(response.text);
}

マルチターンの会話を構築する(チャット)

Gemini を使用すると、複数のターンで自由形式の会話を構築できます。SDK は会話の状態を管理することでプロセスを簡素化するため、generateContent とは異なり、会話履歴を自分で保存する必要はありません。

マルチターンの会話(チャットなど)を構築するには、Gemini 1.5 モデルまたは Gemini 1.0 Pro モデルを使用して、startChat() を呼び出してチャットを初期化します。次に、sendMessage() を使用して新しいユーザー メッセージを送信します。これにより、メッセージとレスポンスもチャット履歴に追加されます。

会話のコンテンツに関連付けられた role には、次の 2 つのオプションがあります。

  • user: プロンプトを提供するロール。この値は sendMessage 呼び出しのデフォルトであり、別のロールが渡されると、関数は例外をスローします。

  • model: レスポンスを提供するロール。このロールは、既存の historystartChat() を呼び出す場合に使用できます。

import 'dart:io';

import 'package:google_generative_ai/google_generative_ai.dart';

Future<void> main() async {
  // Access your API key as an environment variable (see "Set up your API key" above)
  final apiKey = Platform.environment['API_KEY'];
  if (apiKey == null) {
    print('No \$API_KEY environment variable');
    exit(1);
  }
  // The Gemini 1.5 models are versatile and work with multi-turn conversations (like chat)
  final model = GenerativeModel(
      model: 'gemini-1.5-flash',
      apiKey: apiKey,
      generationConfig: GenerationConfig(maxOutputTokens: 100));
  // Initialize the chat
  final chat = model.startChat(history: [
    Content.text('Hello, I have 2 dogs in my house.'),
    Content.model([TextPart('Great to meet you. What would you like to know?')])
  ]);
  var content = Content.text('How many paws are in my house?');
  var response = await chat.sendMessage(content);
  print(response.text);
}

ストリーミングを使用してより高速にやり取りする

デフォルトでは、モデルは生成プロセス全体を完了するとレスポンスを返します。結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

次の例は、generateContentStream メソッドを使用してストリーミングを実装し、テキストと画像の入力プロンプトからテキストを生成する方法を示しています。

// ...

final response = model.generateContentStream([
  Content.multi([prompt, ...imageParts])
]);
await for (final chunk in response) {
  print(chunk.text);
}

// ...

テキストのみの入力とチャットのユースケースにも、同様のアプローチを使用できます。

// Use streaming with text-only input
final response = model.generateContentStream(content);
// Use streaming with multi-turn conversations (like chat)
final response = chat.sendMessageStream(content);

高度なユースケースの実装

このチュートリアルの前のセクションで説明した一般的なユースケースは、Gemini API の使用に慣れるのに役立ちます。このセクションでは、より高度なとみなされる可能性のあるユースケースについて説明します。

関数呼び出し

関数呼び出しを使用すると、生成モデルから構造化データの出力を簡単に取得できます。これらの出力を使用して他の API を呼び出し、関連するレスポンス データをモデルに返すことができます。つまり、関数呼び出しを使用すると、生成モデルを外部システムに接続し、生成されたコンテンツに最新で正確な情報を含めることができます。詳細については、関数呼び出しのチュートリアルをご覧ください。

エンベディングを使用する

エンベディングとは、配列内の浮動小数点数のリストとして情報を表すために使用される手法です。Gemini を使用すると、テキスト(単語、文、テキストのブロック)をベクトル化形式で表現できるため、エンベディングを簡単に比較および対比できます。たとえば、似た主題や感情を共有する 2 つのテキストは、類似したエンベディングを持つ必要があります。これは、コサイン類似度などの数学的比較手法で識別できます。

embedding-001 モデルと embedContent メソッド(または batchEmbedContent メソッド)を使用して、エンベディングを生成します。次の例では、単一の文字列のエンベディングを生成します。

final model = GenerativeModel(model: 'embedding-001', apiKey: apiKey);
final content = Content.text('The quick brown fox jumps over the lazy dog.');
final result = await model.embedContent(content);
print(result.embedding.values);

トークンをカウントする

長いプロンプトを使用する場合は、コンテンツをモデルに送信する前にトークンをカウントすると便利です。次の例は、さまざまなユースケースで countTokens() を使用する方法を示しています。

// For text-only input
final tokenCount = await model.countTokens(Content.text(prompt));
print('Token count: ${tokenCount.totalTokens}');
// For text-and-image input (multimodal)
final tokenCount = await model.countTokens([
  Content.multi([prompt, ...imageParts])
]);
print('Token count: ${tokenCount.totalTokens}');
// For multi-turn conversations (like chat)
final prompt = Content.text(message);
final allContent = [...chat.history, prompt];
final tokenCount = await model.countTokens(allContent);
print('Token count: ${tokenCount.totalTokens}');

コンテンツの生成を管理するオプション

コンテンツの生成を制御するには、モデル パラメータを構成し、安全性設定を使用します。

generationConfig または safetySettings をモデル リクエスト メソッド(generateContent など)に渡すと、getGenerativeModel で渡された同じ名前の構成オブジェクトが完全にオーバーライドされます。

モデル パラメータを構成する

モデルに送信するすべてのプロンプトには、モデルがどのようにレスポンスを生成するかを制御するパラメータ値が含まれています。このモデルは、パラメータ値によって異なる結果を生成できます。モデル パラメータの詳細を確認してください。この構成は、モデル インスタンスの存続期間中に維持されます。

final generationConfig = GenerationConfig(
  stopSequences: ["red"],
  maxOutputTokens: 200,
  temperature: 0.9,
  topP: 0.1,
  topK: 16,
);
final model = GenerativeModel(
  // The Gemini 1.5 models are versatile and work with most use cases
  model: 'gemini-1.5-flash',
  apiKey: apiKey,
  generationConfig: generationConfig,
);

安全性設定を使用する

安全性設定を使用すると、有害とみなされる可能性のあるレスポンスを受け取る可能性を調整できます。デフォルトでは、安全性設定により、すべての次元で安全でないコンテンツである確率が中程度または高いコンテンツがブロックされます。詳しくは、安全性設定をご覧ください。

安全性設定を 1 つ設定する方法は次のとおりです。

final safetySettings = [
  SafetySetting(HarmCategory.harassment, HarmBlockThreshold.high)
];
final model = GenerativeModel(
  // The Gemini 1.5 models are versatile and work with most use cases
  model: 'gemini-1.5-flash',
  apiKey: apiKey,
  safetySettings: safetySettings,
);

安全性設定は複数設定できます。

final safetySettings = [
  SafetySetting(HarmCategory.harassment, HarmBlockThreshold.high),
  SafetySetting(HarmCategory.hateSpeech, HarmBlockThreshold.high),
];

次のステップ

  • プロンプト設計は、言語モデルから望ましいレスポンスを引き出すプロンプトを作成するプロセスです。適切に構造化されたプロンプトを作成することは、言語モデルからの正確で高品質なレスポンスを実現するために不可欠な要素です。プロンプト作成のベスト プラクティスについて確認する。

  • Gemini には、入力の種類や複雑さ、チャットやその他のダイアログ言語タスクの実装、サイズの制約など、さまざまなユースケースのニーズを満たすために複数のモデルのバリエーションが用意されています。利用可能な Gemini モデルについて学習する。