全新推出：LiteRT：Google 专为设备端 AI 打造的高性能运行时，以前称为 TensorFlow Lite。

此页面由 Cloud Translation API 翻译。

适用于 Web 的 LLM 推理指南

借助 LLM Inference API，您可以完全在浏览器中运行 Web 应用的大语言模型 (LLM)，并使用这些模型执行各种任务，例如生成文本、以自然语言形式检索信息以及总结文档。该任务内置对多个文本到文本大型语言模型的支持，因此您可以将最新的设备端生成式 AI 模型应用于 Web 应用。

该任务支持以下 Gemma 变体：Gemma-3 1B、Gemma-2 2B、Gemma 2B 和 Gemma 7B。Gemma 是一系列先进的轻量级开放式模型，其开发采用了与 Gemini 模型相同的研究成果和技术。它还支持以下外部模型：Phi-2、Falcon-RW-1B 和 StableLM-3B。

您可以通过 MediaPipe Studio 演示查看此任务的实际运作方式。如需详细了解此任务的功能、模型和配置选项，请参阅概览。

代码示例

LLM Inference API 的示例应用提供了此任务在 JavaScript 中的基本实现，供您参考。您可以使用此示例应用开始构建自己的文本生成应用。

您可以在 GitHub 上访问 LLM Inference API 示例应用。

设置

本部分介绍了专门用于设置开发环境和代码项目以使用 LLM Inference API 的关键步骤。如需了解如何设置开发环境以使用 MediaPipe Tasks（包括平台版本要求），请参阅适用于 Web 的设置指南。

浏览器兼容性

LLM Inference API 需要使用与 WebGPU 兼容的网络浏览器。如需查看兼容的浏览器的完整列表，请参阅 GPU 浏览器兼容性。

JavaScript 软件包

LLM Inference API 代码可通过 @mediapipe/tasks-genai 软件包获取。您可以通过平台设置指南中提供的链接找到并下载这些库。

安装本地暂存区所需的软件包：

npm install @mediapipe/tasks-genai

如需部署到服务器，请使用 jsDelivr 等内容分发网络 (CDN) 服务直接将代码添加到 HTML 页面中：

<head>
  <script src="https://cdn.jsdelivr.net/npm/@mediapipe/tasks-genai/genai_bundle.cjs"
    crossorigin="anonymous"></script>
</head>

型号

MediaPipe LLM Inference API 需要与此任务兼容的训练模型。对于 Web 应用，模型必须与 GPU 兼容。

如需详细了解 LLM Inference API 适用的已训练模型，请参阅任务概览的“模型”部分。

下载模型

在初始化 LLM Inference API 之前，请下载某个受支持的模型，并将该文件存储在项目目录中。我们建议使用 Gemma-2 2B，您可以在 Kaggle Models 上找到该模型。

您也可以下载其他受支持的模型：

Gemma 2B：是一系列先进的轻量级开放式模型的一部分，其开发采用了与 Gemini 模型相同的研究成果和技术。非常适合用于处理各种文本生成任务，包括问答、摘要和推理。
Gemma-3 1B：Gemma 系列先进轻量级开放模型中的最新模型，采用与 Gemini 模型相同的研究成果和技术构建而成。该模型包含 10 亿个参数和开放权重。1B 变体是 Gemma 系列中最轻量级的模型，非常适合许多设备端用例。在使用此模型之前，请参阅模型概览部分，了解具体的模型配置要求。
Phi-2：一个拥有 27 亿参数的 Transformer 模型，最适合问答、聊天和代码格式。
Falcon-RW-1B：一个参数数为 10 亿的仅解码器因果模型，基于 RefinedWeb 的 3500 亿个词元进行训练。
StableLM-3B：一个拥有 30 亿参数的 decoder-only 语言模型，基于多样化的英语和代码数据集内的 1 万亿个词元进行了预训练。

如需详细了解可用的模型，请参阅任务概览的“模型”部分。

将模型转换为 MediaPipe 格式

LLM Inference API 与以下类型的模型兼容，其中一些模型需要进行模型转换。使用下表确定您的模型所需的步骤方法。

模型	转化方法	兼容的平台	文件类型
Gemma-3 1B	无需转换	Android、网站	.task
Gemma 2B、Gemma 7B、Gemma-2 2B	无需转换	Android、iOS、Web	.bin
Phi-2、StableLM、Falcon	MediaPipe 转换脚本	Android、iOS、Web	.bin
所有 PyTorch LLM 模型	AI Edge Torch Generative 库	Android、iOS	.task

如需了解如何转换其他模型，请参阅模型转换部分。

将模型添加到项目目录

将模型存储在项目目录中：

<dev-project-root>/assets/gemma-2b-it-gpu-int4.bin

使用 baseOptions 对象 modelAssetPath 形参指定模型的路径：

baseOptions: { modelAssetPath: `/assets/gemma-2b-it-gpu-int4.bin`}

创建任务

使用 LLM Inference API createFrom...() 函数之一来准备任务以运行推理。您可以将 createFromModelPath() 函数与训练好的模型文件的相对路径或绝对路径搭配使用。该代码示例使用了 createFromOptions() 函数。如需详细了解可用的配置选项，请参阅配置选项。

以下代码演示了如何构建和配置此任务：

const genai = await FilesetResolver.forGenAiTasks(
    // path/to/wasm/root
    "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-genai@latest/wasm"
);
llmInference = await LlmInference.createFromOptions(genai, {
    baseOptions: {
        modelAssetPath: '/assets/gemma-2b-it-gpu-int4.bin'
    },
    maxTokens: 1000,
    topK: 40,
    temperature: 0.8,
    randomSeed: 101
});

配置选项

此任务针对 Web 和 JavaScript 应用提供了以下配置选项：

选项名称	说明	值范围	默认值
`modelPath`	模型在项目目录中的存储路径。	路径	不适用
`maxTokens`	模型处理的词元（输入词元 + 输出词元）数量上限。	整数	512
`topK`	模型在生成过程中每个步骤考虑的令牌数。将预测限制为前 k 个概率最高的 token。	整数	40
`temperature`	生成过程中引入的随机性程度。温度越高，生成的文本就越富有创造力；温度越低，生成的文本就越具可预测性。	浮点数	0.8
`randomSeed`	文本生成期间使用的随机种子。	整数	0
`loraRanks`	LoRA 模型在运行时要使用的 LoRA 排名。注意：此功能仅适用于 GPU 型号。	整数数组	不适用

准备数据

LLM Inference API 接受文本 (string) 数据。该任务会处理数据输入预处理，包括标记化和张量预处理。

所有预处理都在 generateResponse() 函数中处理。无需对输入文本进行额外的预处理。

const inputPrompt = "Compose an email to remind Brett of lunch plans at noon on Saturday.";

运行任务

LLM Inference API 使用 generateResponse() 函数触发推理。对于文本分类，这意味着返回输入文本的可能类别。

以下代码演示了如何使用任务模型执行处理。

const response = await llmInference.generateResponse(inputPrompt);
document.getElementById('output').textContent = response;

如需流式传输响应，请使用以下代码：

llmInference.generateResponse(
  inputPrompt,
  (partialResult, done) => {
        document.getElementById('output').textContent += partialResult;
});

处理和显示结果

LLM 推理 API 会返回一个字符串，其中包含生成的回答文本。

Here's a draft you can use:

Subject: Lunch on Saturday Reminder

Hi Brett,

Just a quick reminder about our lunch plans this Saturday at noon.
Let me know if that still works for you.

Looking forward to it!

Best,
[Your Name]

LoRA 模型自定义

Mediapipe LLM Inference API 可配置为支持大语言模型的低秩自适应 (LoRA)。利用经过微调的 LoRA 模型，开发者可以通过经济高效的训练流程自定义 LLM 的行为。

LLM Inference API 的 LoRA 支持适用于 GPU 后端的所有 Gemma 变体和 Phi-2 模型，LoRA 权重仅适用于注意力层。此初始实现将作为实验性 API 用于未来开发，我们计划在即将推出的更新中支持更多模型和各种类型的层。

准备 LoRA 模型

按照 HuggingFace 上的说明，使用支持的模型类型（Gemma 或 Phi-2）在您自己的数据集上训练经过微调的 LoRA 模型。Gemma-2 2B、Gemma 2B 和 Phi-2 模型均以 safetensors 格式在 HuggingFace 上提供。由于 LLM Inference API 仅支持注意力层上的 LoRA，因此在创建 LoraConfig 时，请仅指定注意力层，如下所示：

# For Gemma
from peft import LoraConfig
config = LoraConfig(
    r=LORA_RANK,
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
)

# For Phi-2
config = LoraConfig(
    r=LORA_RANK,
    target_modules=["q_proj", "v_proj", "k_proj", "dense"],
)

如需进行测试，您可以使用 HuggingFace 上提供的适用于 LLM 推理 API 的公开可用的微调 LoRA 模型。例如，对于 Gemma-2B，使用 monsterapi/gemma-2b-lora-maths-orca-200k；对于 Phi-2，使用 lole25/phi-2-sft-ultrachat-lora。

使用准备好的训练数据集进行训练并保存模型后，您会获得一个包含经过微调的 LoRA 模型权重的 adapter_model.safetensors 文件。safetensors 文件是模型转换中使用的 LoRA 检查点。

下一步，您需要使用 MediaPipe Python 软件包将模型权重转换为 TensorFlow Lite Flatbuffer。ConversionConfig 应指定基本模型选项以及其他 LoRA 选项。请注意，由于该 API 仅支持使用 GPU 进行 LoRA 推理，因此后端必须设置为 'gpu'。

import mediapipe as mp
from mediapipe.tasks.python.genai import converter

config = converter.ConversionConfig(
  # Other params related to base model
  ...
  # Must use gpu backend for LoRA conversion
  backend='gpu',
  # LoRA related params
  lora_ckpt=LORA_CKPT,
  lora_rank=LORA_RANK,
  lora_output_tflite_file=LORA_OUTPUT_TFLITE_FILE,
)

converter.convert_checkpoint(config)

转换器将输出两个 TFLite FlatBuffer 文件，一个用于基准模型，另一个用于 LoRA 模型。

LoRA 模型推理

Web、Android 和 iOS LLM 推理 API 已更新为支持 LoRA 模型推理。

Web 在运行时支持动态 LoRA。也就是说，用户声明要在初始化期间使用的 LoRA 排名，并可以在运行时切换不同的 LoRA 模型。

const genai = await FilesetResolver.forGenAiTasks(
    // path/to/wasm/root
    "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-genai@latest/wasm"
);
const llmInference = await LlmInference.createFromOptions(genai, {
    // options for the base model
    ...
    // LoRA ranks to be used by the LoRA models during runtime
    loraRanks: [4, 8, 16]
});

在运行时，初始化基础模型后，加载要使用的 LoRA 模型。此外，在生成 LLM 回答时，通过传递 LoRA 模型引用来触发 LoRA 模型。

// Load several LoRA models. The returned LoRA model reference is used to specify
// which LoRA model to be used for inference.
loraModelRank4 = await llmInference.loadLoraModel(loraModelRank4Url);
loraModelRank8 = await llmInference.loadLoraModel(loraModelRank8Url);

// Specify LoRA model to be used during inference
llmInference.generateResponse(
  inputPrompt,
  loraModelRank4,
  (partialResult, done) => {
        document.getElementById('output').textContent += partialResult;
});