教程:Gemini API 使用入门


本教程演示了如何使用 Google AI Dart SDK 访问 Dart 或 Flutter 应用的 Gemini API。如果您不想直接使用 REST API 访问应用中的 Gemini 模型,则可以使用此 SDK。

在本教程中,您将了解如何执行以下操作:

此外,本教程还包含一些有关高级用例(如嵌入令牌计数)以及控制内容生成的选项。

前提条件

本教程假定您熟悉使用 Dart 构建应用。

如需完成本教程,请确保您的开发环境满足以下要求:

  • Dart 3.2.0 及更高版本

设置项目

在调用 Gemini API 之前,您需要设置项目,其中包括设置 API 密钥、将 SDK 添加到 Pub 依赖项以及初始化模型。

设置您的 API 密钥

如需使用 Gemini API,您需要 API 密钥。如果您还没有密钥,请在 Google AI Studio 中创建一个。

获取 API 密钥

保护您的 API 密钥

确保 API 密钥的安全。我们强烈建议您不要直接在代码中包含 API 密钥,也不要将包含密钥的文件签入版本控制系统。相反,您应该为 API 密钥使用 Secret 存储区。

本教程中的所有代码段均假定您将 API 密钥作为进程环境变量进行访问。如果您要开发 Flutter 应用,可以使用 String.fromEnvironment 并将 --dart-define=API_KEY=$API_KEY 传递给 flutter buildflutter run,以便使用 API 密钥进行编译,因为运行应用时的进程环境会有所不同。

安装 SDK 软件包

如需在您自己的应用中使用 Gemini API,您需要将 google_generative_ai 软件包 add 到 Dart 或 Flutter 应用:

Dart

dart pub add google_generative_ai

Flutter

flutter pub add google_generative_ai

初始化生成模型

您需要先导入并初始化生成模型,然后才能进行任何 API 调用。

import 'dart:io';
import 'package:google_generative_ai/google_generative_ai.dart';

void main() async {

  // Access your API key as an environment variable (see "Set up your API key" above)
  final apiKey = Platform.environment['API_KEY'];
  if (apiKey == null) {
    print('No \$API_KEY environment variable');
    exit(1);
  }

  // The Gemini 1.5 models are versatile and work with most use cases
  final model = GenerativeModel(model: 'gemini-1.5-flash', apiKey: apiKey);
}

指定模型时,请注意以下事项:

  • 请使用您的用例专用的模型(例如,gemini-1.5-flash 用于多模态输入)。在本指南中,每种实现的说明列出了每种用例的推荐模型。

实现常见使用场景

现在您的项目已设置完毕,您可以探索如何使用 Gemini API 来实现不同的用例:

在“高级用例”部分,您可以找到有关 Gemini API 和嵌入的信息。

根据纯文本输入生成文本

当提示输入仅包含文本时,请使用 Gemini 1.5 模型或带有 generateContent 的 Gemini 1.0 Pro 模型生成文本输出:

import 'dart:io';

import 'package:google_generative_ai/google_generative_ai.dart';

void main() async {
  // Access your API key as an environment variable (see "Set up your API key" above)
  final apiKey = Platform.environment['API_KEY'];
  if (apiKey == null) {
    print('No \$API_KEY environment variable');
    exit(1);
  }
  // The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
  final model = GenerativeModel(model: 'gemini-1.5-flash', apiKey: apiKey);
  final content = [Content.text('Write a story about a magic backpack.')];
  final response = await model.generateContent(content);
  print(response.text);
}

根据文本和图片输入生成文本(多模态)

Gemini 提供了多种可处理多模态输入的模型(Gemini 1.5 模型),让您可以输入文字和图片。请务必查看提示的图片要求

当提示输入同时包含文本和图片时,结合使用 Gemini 1.5 模型和 generateContent 方法来生成文本输出:

import 'dart:io';

import 'package:google_generative_ai/google_generative_ai.dart';

void main() async {
  // Access your API key as an environment variable (see "Set up your API key" above)
  final apiKey = Platform.environment['API_KEY'];
  if (apiKey == null) {
    print('No \$API_KEY environment variable');
    exit(1);
  }
  // The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
  final model = GenerativeModel(model: 'gemini-1.5-flash', apiKey: apiKey);
  final (firstImage, secondImage) = await (
    File('image0.jpg').readAsBytes(),
    File('image1.jpg').readAsBytes()
  ).wait;
  final prompt = TextPart("What's different between these pictures?");
  final imageParts = [
    DataPart('image/jpeg', firstImage),
    DataPart('image/jpeg', secondImage),
  ];
  final response = await model.generateContent([
    Content.multi([prompt, ...imageParts])
  ]);
  print(response.text);
}

建立多轮对话(聊天)

借助 Gemini,您可以跨多个回合构建自由形式的对话。该 SDK 通过管理对话状态来简化该过程,因此与 generateContent 不同,您无需自行存储对话历史记录。

如需构建多轮对话(如聊天),请使用 Gemini 1.5 模型或 Gemini 1.0 Pro 模型,并通过调用 startChat() 初始化对话。然后,使用 sendMessage() 发送一条新的用户消息,此消息也会将此消息和响应附加到聊天记录。

与对话内容相关联的 role 有两种可能的选项:

  • user:提供提示的角色。此值是 sendMessage 调用的默认值,如果传递了其他角色,函数将抛出异常。

  • model:提供响应的角色。使用现有的 history 调用 startChat() 时,可以使用此角色。

import 'dart:io';

import 'package:google_generative_ai/google_generative_ai.dart';

Future<void> main() async {
  // Access your API key as an environment variable (see "Set up your API key" above)
  final apiKey = Platform.environment['API_KEY'];
  if (apiKey == null) {
    print('No \$API_KEY environment variable');
    exit(1);
  }
  // The Gemini 1.5 models are versatile and work with multi-turn conversations (like chat)
  final model = GenerativeModel(
      model: 'gemini-1.5-flash',
      apiKey: apiKey,
      generationConfig: GenerationConfig(maxOutputTokens: 100));
  // Initialize the chat
  final chat = model.startChat(history: [
    Content.text('Hello, I have 2 dogs in my house.'),
    Content.model([TextPart('Great to meet you. What would you like to know?')])
  ]);
  var content = Content.text('How many paws are in my house?');
  var response = await chat.sendMessage(content);
  print(response.text);
}

使用流式传输加快互动速度

默认情况下,模型会在完成整个生成过程后返回响应。通过不等待整个结果,您可以实现更快的互动,而是使用流式传输来处理部分结果。

以下示例展示了如何使用 generateContentStream 方法实现流式传输,以根据文本和图片输入提示生成文本。

// ...

final response = model.generateContentStream([
  Content.multi([prompt, ...imageParts])
]);
await for (final chunk in response) {
  print(chunk.text);
}

// ...

对于纯文本输入和聊天用例,您可以使用类似的方法。

// Use streaming with text-only input
final response = model.generateContentStream(content);
// Use streaming with multi-turn conversations (like chat)
final response = chat.sendMessageStream(content);

实现高级用例

本教程上一部分中介绍的常见用例可帮助您熟悉 Gemini API 的使用。本部分介绍了一些可能被视为更高级的用例。

调用函数

函数调用可让您更轻松地从生成模型获取结构化数据输出。然后,您可以使用这些输出来调用其他 API,并将相关响应数据返回给模型。换句话说,函数调用可帮助您将生成模型连接到外部系统,以便生成的内容包含最新且准确的信息。如需了解详情,请参阅函数调用教程

使用嵌入

嵌入是一种用于将信息表示为数组中的浮点数列表的技术。借助 Gemini,您能够以矢量化形式表示文本(字词、句子和文本块),从而更轻松地比较和对比嵌入。例如,主题或情感相似的两个文本应该具有相似的嵌入,这些嵌入可以通过余弦相似度等数学比较技术来识别。

结合使用 embedding-001 模型和 embedContent 方法(或 batchEmbedContent 方法)生成嵌入。以下示例为单个字符串生成嵌入:

final model = GenerativeModel(model: 'embedding-001', apiKey: apiKey);
final content = Content.text('The quick brown fox jumps over the lazy dog.');
final result = await model.embedContent(content);
print(result.embedding.values);

计算词元数量

使用长提示时,在向模型发送任何内容之前统计词元数量可能会很有用。以下示例展示了如何针对各种用例使用 countTokens()

// For text-only input
final tokenCount = await model.countTokens(Content.text(prompt));
print('Token count: ${tokenCount.totalTokens}');
// For text-and-image input (multimodal)
final tokenCount = await model.countTokens([
  Content.multi([prompt, ...imageParts])
]);
print('Token count: ${tokenCount.totalTokens}');
// For multi-turn conversations (like chat)
final prompt = Content.text(message);
final allContent = [...chat.history, prompt];
final tokenCount = await model.countTokens(allContent);
print('Token count: ${tokenCount.totalTokens}');

用于控制内容生成的选项

您可以通过配置模型参数和使用安全设置来控制内容生成。

请注意,将 generationConfigsafetySettings 传递给模型请求方法(如 generateContent)将完全替换与 getGenerativeModel 中传递的相同名称的配置对象。

配置模型参数

您发送到模型的每个提示都包含参数值,用于控制模型如何生成回答。对于不同的参数值,模型会生成不同的结果。详细了解模型参数。此配置在模型实例的生命周期内保持不变。

final generationConfig = GenerationConfig(
  stopSequences: ["red"],
  maxOutputTokens: 200,
  temperature: 0.9,
  topP: 0.1,
  topK: 16,
);
final model = GenerativeModel(
  // The Gemini 1.5 models are versatile and work with most use cases
  model: 'gemini-1.5-flash',
  apiKey: apiKey,
  generationConfig: generationConfig,
);

使用安全设置

您可以使用安全设置来调整获得可能被视为有害响应的可能性。默认情况下,安全设置会在所有维度上屏蔽不安全内容的中等和/或高概率。详细了解安全设置

设置一项安全设置的方法如下:

final safetySettings = [
  SafetySetting(HarmCategory.harassment, HarmBlockThreshold.high)
];
final model = GenerativeModel(
  // The Gemini 1.5 models are versatile and work with most use cases
  model: 'gemini-1.5-flash',
  apiKey: apiKey,
  safetySettings: safetySettings,
);

您还可以设定多项安全设置:

final safetySettings = [
  SafetySetting(HarmCategory.harassment, HarmBlockThreshold.high),
  SafetySetting(HarmCategory.hateSpeech, HarmBlockThreshold.high),
];

后续步骤

  • 提示设计是创建提示以从语言模型引出所需回复的过程。撰写结构合理的提示是确保语言模型做出准确优质响应的重要环节。了解提示撰写的最佳做法

  • Gemini 提供多种模型变体,以满足不同应用场景的需求,例如输入类型和复杂程度、聊天或其他对话语言任务的实现以及大小限制。不妨了解可用的 Gemini 模型