写点什么

骁龙大赛 - 技术分享第 5 期(上)

作者:极市平台
  • 2025-12-12
    广东
  • 本文字数:1049 字

    阅读完需:约 3 分钟

骁龙大赛-技术分享第5期(上)

1.在 QAI AppBuilder 中部署模型时,哪些情况会导致模型“不兼容”?如何判断模型能否在 NPU 上运行?

答复:没有“不兼容模型”这种说法,理论上所有能够通过 TensorFlow,PyTorch 或 ONNX Runtime 推理的模型,都可以转换成 QNN 上下文二进制格式并运行在 NPU 上的。

大家容易遇到的比较难处理的问题通常不是模型能不能转换,不是模型能不能跑在 NPU 上,难点在于如何把模型量化成更小的精度的模型并且能够保证精度不会损失过多。量化成更小的精度意味着可以占用更小的内存,运行更快,但过度优化容易导致精度损失,需要花更多时间去优化,让损失降到合理范围。

不存在严格意义上的“不兼容”。只要模型能在 TensorFlow、PyTorch 或 onnx runtime 正常推理,原则上都能转换为 QNN 格式运行在 NPU 上。难点在于量化,需要在压缩精度的同时控制性能损失,这通常需要额外调优。

 

2.通过 LangFlow 调用本地模型是否会带来额外延迟?如果延迟比较高,可以怎么优化?

答复:通过 LangFlow 调用本地模型,模型本身不会产生额外延迟,但 LangFlow 内部的实现有可能会导致模型的输出不能及时显示到 LangFlow 界面上,这完全取决于 LangFlow 内部的实现。如果要优化的化,更多的还是从 LangFlow 这个开源框架的角度去优化。

模型本身不会造成额外延迟,但 LangFlow 的内部实现机制可能导致结果显示不够及时。这属于 LangFlow 的设计问题,需要从其框架层面进行优化。

 

3. LangFlow 构建的流程如果要嵌入本地应用(桌面端或移动端),有没有推荐的接入方式?

答复:通过 LangFlow 构建的模型应用需要运行的话,首先需要 LangFlow 在后台运行。LangFlow 可以把我们自己搭建的 Flow 导出成基于 Web 的 API,自己的应用程序可以通过这些 API 来调用我们在 LangFlow 中创建的 Flow 提供的功能。

可以将 LangFlow 作为后台服务运行,然后把构建的流程导出成 Web API。应用端直接调用这些 API 即可。

 

4.多模态模型(如 CLIP、Whisper)如何使用 AppBuilder 部署?是否有现成的案例?

答复:这两个模型,我们在 QAI AppBuilderGitHub(https://github.com/quic/ai-engine-direct-helper)上正好都有相应的例子,这些例子不需要任何修改,可以直接运行,可以去我们的 GitHub 上获取代码,尝试一下。

官方 GitHub 已提供 CLIP、Whisper 等完整示例。配置好环境后即可运行,模型也能自动下载已转换好的版本,无需额外改动。

 

5.本地大模型的首 token 延迟一般能做到多少?是否能支持实时对话?

答复:由于我们 NPU 架构设计的特性,对于用户输入内容的处理非常快。而且在对话的场景中,用户一次输入的 tokens 不会太多,所以首 tokens 延迟应该不会成为对话场景的瓶颈。

用户头像

极市平台

关注

还未添加个人签名 2025-10-20 加入

还未添加个人简介

评论

发布
暂无评论
骁龙大赛-技术分享第5期(上)_极市平台_InfoQ写作社区