此页面由 Cloud Translation API 翻译。

性能最佳实践

移动设备和嵌入式设备的计算资源有限，务必要确保应用资源高效。我们汇总了一个列表有助于改进 TensorFlow 的最佳实践和策略精简版模型性能。

为任务选择最佳模型

根据具体任务，您需要在模型复杂度之间进行权衡和大小。如果您的任务需要高准确率，那么您可能需要复杂模型。对于精度要求较低的任务，最好使用因为它们不仅占用了更少的磁盘空间和内存，通常速度和能效也更高例如，下面的图表显示了一些常见图片分类模型在准确率和延迟时间方面的权衡。

模型大小与
精确度

准确率与延迟时间的图表

针对移动设备优化的模型的一个例子是针对移动设备进行了优化的 MobileNets 视觉应用。Kaggle “模型”会列出专门针对移动和嵌入式设备进行了优化的模型。

您可以使用转移作业，基于自己的数据集重新训练列出的模型学习。

选择适合任务的候选模型后，对模型进行性能分析和基准测试的好方法。TensorFlow Lite 基准测试工具具有内置性能分析器，可以按操作员显示性能分析统计信息。这可以有助于了解性能瓶颈以及哪些操作器占主导地位计算时间。

您还可以使用 TensorFlow Lite 跟踪来分析将模型推送到 Android 应用中，并使用标准的 Android 系统跟踪；并通过基于 GUI 的分析功能按时间直观呈现运算符调用 tools.

如果某个运算符频繁出现在模型中，并且根据就会发现操作器消耗的时间最多，如何优化该运算符这种情况应该很少见，因为 TensorFlow Lite 具有针对大多数运营商的优化版本。不过，您或许能够如果您知道运算符。请查看自定义运算符指南。

模型优化旨在创建较小的模型，这些模型通常速度更快，因此能在移动设备上部署 TensorFlow Lite 支持多种优化技术，例如量化。

如需了解详情，请参阅模型优化文档。

TensorFlow Lite 支持许多运算符的多线程内核。您可以增加线程数并加速运算符的执行。上升但线程数量会使模型使用更多的资源，电源。

对于某些应用，延迟时间可能比能效更为重要。您可以通过设置解释器的数量来增加线程数线程。然而，多线程执行以提升性能为代价不同程度的差异。这是尤其是在移动应用中例如，隔离测试可能会显示 2 倍与单线程相比，速度提升快一些，但是，如果同时执行另一个应用可能会导致性能低于单线程

如果您的应用设计不严谨，可能就会有多余的副本在将输入馈送给模型并从中读取输出时，请务必消除冗余副本。如果您使用的是更高级别的 API（如 Java），请务必仔细查看相关文档，了解性能注意事项。例如：如果将 ByteBuffers 用作模板，Java API 的速度会快得多输入。

平台特有的工具，例如Android 性能分析器和乐器能为我们带来可用于调试应用的分析信息。有时，性能 bug 可能不在模型中，而是出现在与模型交互。确保您熟悉平台特定分析工具和最佳做法。

TensorFlow Lite 增加了使用更快的硬件加速模型的新方法如 GPU、DSP 和神经加速器。通常，这些加速器解释器执行的各个部分。TensorFlow Lite 可以通过以下方式使用委托：

请注意，有些加速器更适合不同类型的模型。部分代理仅支持浮动模型或以特定方式优化的模型。时间是务必要对每个委托进行基准测试，以确定其是否是优质例如，如果您的模型非常小，将模型委托给 GPU 是不值得的。相反，加速器是非常适合具有高算术强度的大型模型。