LiteRT
LiteRT 是 Google 的设备端(on-device)机器学习框架,用于在 边缘设备(Edge Platform) 上部署高性能 ML 与生成式 AI。
它提供:
- 高效的模型转换(conversion)
- 推理运行时(runtime)
- 模型优化(optimization)
LiteRT 是 TensorFlow Lite 的继任者(successor)。 ([GitHub][1])
项目说明
LiteRT 延续了 TensorFlow Lite 的传统,作为 可信且高性能的设备端 AI 推理运行时。
LiteRT 提供:
- 先进的 GPU / NPU 加速
- 更强的 ML 与生成式 AI 推理性能
使 在设备端运行机器学习模型变得更加容易。 ([GitHub][1])
新特性
新的 Compiled Model API
新的 API 用于简化开发流程:
- 自动选择硬件加速器
- 真正的异步执行
- 高效的 I/O buffer 管理
主要能力:
- 自动选择 accelerator(无需手动 delegate)
- 异步执行提高整体运行速度
- 更简单的 NPU 运行时管理
- 更高效的 I/O buffer 处理
统一的 NPU 加速
LiteRT 提供统一接口访问多个芯片厂商的 NPU:
开发者可以获得 一致的开发体验。
LiteRT NPU 已从 Early Access 转为 正式可用。
GPU 高性能推理
LiteRT 提供先进的 GPU 加速能力。
新的 buffer 互操作机制可以:
- 实现 zero-copy
- 减少不同 GPU buffer 类型之间的延迟
更强的生成式 AI 推理能力
LiteRT 提供更简单的方式来集成:
- LLM
- Diffusion
- 其他 GenAI 模型
并提供优化后的推理性能。
支持的平台
LiteRT 设计为 跨平台部署,支持多种硬件环境。
| 平台 | CPU | GPU | NPU |
|---|---|---|---|
| Android | ✅ | OpenCL / WebGPU | Tensor / Qualcomm / MediaTek |
| iOS | ✅ | Metal | ANE |
| Linux | ✅ | WebGPU | N/A |
| macOS | ✅ | WebGPU / Metal | ANE |
| Windows | ✅ | WebGPU | Intel |
| Web | ✅ | WebGPU | 即将支持 |
| IoT | ✅ | WebGPU | Broadcom / Raspberry Pi |
模型支持与性能
(该部分内容将在未来发布)
安装
完整安装指南请查看 Get Started 文档。
从源码构建
LiteRT 可以通过 Docker 构建:
步骤:
- 启动 Docker daemon
- 在
docker_build/目录运行脚本
build_with_docker.sh
该脚本会:
- 创建 Linux Docker 镜像
- 构建 Linux 与 Android 版本的 LiteRT
更多构建方式可以参考:
- CMake 构建
- Bazel 构建
开发路径指南
LiteRT 提供不同开发路径,适用于不同需求。
1️⃣ 已经有 PyTorch 模型
目标:将 PyTorch 模型部署到 LiteRT。
方法:
经典模型
- 使用 AI Edge Torch Converter
- 将模型转换为
.tflite格式 - 使用 AI Edge Quantizer 进行优化
- 使用 LiteRT runtime 部署
LLM 模型
使用 Torch Generative API
将 PyTorch LLM 转换为 Apache 格式,然后通过 LiteRT 部署。
2️⃣ 初次尝试设备端 ML
目标:在移动应用中运行预训练模型。
方法:
初学者
通过 Android Studio 示例构建:
实时图像分割应用
支持:
- CPU
- GPU
- NPU 推理
经验开发者
- 阅读 Get Started 文档
- 在 Kaggle 下载
.tflite模型 - 集成到 Android 或 iOS 应用
3️⃣ 最大化性能
目标:让模型在设备端运行得更快。
建议:
- 使用 LiteRT API
- 启用硬件加速
对于生成式 AI:
- 使用 LiteRT-LM
4️⃣ 生成式 AI
目标:
在移动设备运行:
- LLM
- Diffusion 模型
推荐:
使用 LiteRT-LM。
重点包括:
- 模型量化(quantization)
- 大模型优化
Roadmap
LiteRT 的目标是成为 最佳设备端 ML 推理运行时。
未来发展方向包括:
硬件加速
扩大对以下硬件支持:
- NPU
- GPU
- 其他 AI accelerator
生成式 AI 优化
为下一代 GenAI 模型提供更强优化能力。
开发者工具
改进:
- 调试工具
- 性能分析工具
- 模型优化工具
平台支持
增强对主流平台的支持,并探索新的平台。
贡献
欢迎社区贡献。
请查看:
CONTRIBUTING.md
了解如何参与项目开发。
获取帮助
可以通过以下方式获取支持:
GitHub Issues
- 报告 Bug
- 提交功能请求
GitHub Discussions
- 提问
- 社区讨论
相关项目
LiteRT 属于 Google AI Edge 生态系统的一部分。
相关项目包括:
-
LiteRT Samples LiteRT 示例应用
-
AI Edge Torch Converter 将 PyTorch 模型转换为 LiteRT 格式
-
Torch Generative API 将 LLM 转换为 LiteRT 可运行格式
-
LiteRT-LM 在边缘设备运行 LLM 的框架
-
XNNPACK 为 ARM / x86 / WebAssembly 提供高性能 CPU 推理
-
MediaPipe 构建跨平台 ML 应用的框架
行为准则
该项目致力于营造开放、友好的社区环境。
请阅读 Code of Conduct 了解社区行为规范。
许可证
LiteRT 使用:
Apache License 2.0。 ([GitHub][1])
✅ 一句话总结
LiteRT = Google 新一代设备端 AI 推理运行时(TensorFlow Lite 的继任者)
目标是让 LLM / ML / 多模态模型能够高性能运行在手机、PC、IoT 等边缘设备上。 ([GitHub][1])
