本文档概述了在移动设备上部署和运行 Gemma 模型的各种方法和工具,包括使用 Google AI Edge Gallery 应用和 MediaPipe LLM 推理 API。
如需了解如何将微调后的 Gemma 模型转换为 LiteRT 版本,请参阅转换指南。
Google AI Edge Gallery 应用
如需查看 LLM 推理 API 的实际应用并测试您的 Task Bundle 模型,您可以使用 Google AI Edge Gallery 应用。此应用提供了一个用于与设备端 LLM 互动的界面,可让您执行以下操作:
- 导入模型:将自定义
.task
模型加载到应用中。 - 配置参数:调整温度和 Top-k 等设置。
- 生成文本:输入提示并查看模型的回答。
- 测试性能:评估模型的速度和准确率。
如需详细了解如何使用 Google AI Edge Gallery 应用,包括有关导入自有模型的说明,请参阅该应用的文档。
MediaPipe LLM
您可以使用 MediaPipe LLM Inference API 在移动设备上运行 Gemma 模型。 LLM 推理 API 可充当大型语言模型的封装容器,让您能够在设备上运行 Gemma 模型,以执行常见的文本到文本生成任务,例如信息检索、电子邮件撰写和文档总结。
LLM 推理 API 可在以下移动平台中使用:
如需了解详情,请参阅 MediaPipe LLM 推理文档。