Google AI Edge | Google AI for Developers

隆重推出 Google AI Edge Portal：大规模对边缘 AI 进行基准测试。注册以在非公开预览期间申请访问权限。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 LiteRT-LM 在设备端运行 LLM

一款可用于生产用途的开源推理框架，旨在在边缘设备上实现高性能、跨平台的 LLM 部署。

概览开始使用

焦点

利用多令牌预测 (MTP) 功能，大幅提升 Gemma 4 的设备端推理性能。在移动 GPU 上实现超过 2 倍的解码速度，且不会降低画质。

博文指南

为什么选择 LiteRT-LM？

跨平台

在 Android、iOS、Web 和桌面设备上部署 LLM。

硬件加速

利用 GPU 和 NPU 加速功能最大限度地提升性能。

广泛的生成式 AI 功能

支持热门 LLM，以及多模态（视觉、音频）和工具使用。

开始构建

Python

在 Linux、MacOS、Windows 和 Raspberry Pi 上使用硬件加速的 Python API。

Python 指南

Android

原生 Android 应用和基于 JVM 的桌面工具。

Android 指南

iOS

原生 iOS（macOS 版即将推出）Swift API。

Swift 指南

Web

适用于基于浏览器且具有 WebGPU 加速功能的 Web 应用的 JavaScript 和 TypeScript API。

Web Guide

Flutter

使用社区维护的 flutter_gemma 软件包构建跨平台 Flutter 应用。

Flutter 指南

C++

跨平台 C++ API。

C++ 指南

File Builder

从转换后的 LiteRT 模型构建 .litertlm 文件。

文件制作工具指南

加入社群

GitHub 上的 LiteRT-LM

为开源项目做出贡献、报告问题并查看示例。

在 GitHub 上查看

Hugging Face

下载预转换模型（Gemma、Qwen 等），并加入讨论。

在 Hugging Face 上查看

博客和公告

利用 Gemma 4 将先进的智能体技能引入边缘设备。

使用 LiteRT-LM 在应用内和更广泛的设备上部署 Gemma 4，实现出色的性能和覆盖面。

Chrome、Chromebook Plus 和 Pixel Watch 中的设备端生成式 AI

使用 LiteRT-LM 在穿戴式设备和基于浏览器的平台上大规模部署语言模型。

Google AI Edge Gallery 中的设备端函数调用

了解如何对 FunctionGemma 进行微调，并启用由 LiteRT-LM 工具使用 API 提供支持的函数调用功能。

Google AI Edge 小语言模型、多模态和函数调用

有关边缘端语言模型的 RAG、多模态和函数调用的最新见解。