地平线征程6
0 人感兴趣 · 109 次引用
- 最新
- 推荐

地平线 征程 6 工具链入门教程 | 板端部署 UCP 使用指南
地平线征程6工具链UCP平台支持模型板端部署,提供图像获取、性能分析、优化工具及前后处理模块。

征程 6 H/P 工具链 QAT 精度调优
文章介绍了地平线征程6H/P平台的QAT量化调优流程,重点围绕int8+int16+fp16混合精度配置,详细阐述了模型检查、校准、训练和导出部署各阶段的调优原则、常见问题及解决方法。

征程 6 算法工具链 | PTQ 深度使用指南
本文为地平线PTQ实战指南,提供快速评测、校准部署、混合精度调优等步骤,帮助开发者高效优化模型性能与精度。

征程 6 | 平台 QAT 精度一致性问题分析流程
文章介绍了地平线征程6板端部署中模型精度一致性问题的排查方法,涵盖export、convert、插入前处理节点及compile等步骤,并提供了用户侧与工具侧问题的定位流程与解决方案。

上手实操 | Dense Bev 融合优化方案
本文介绍了基于BEVFormer的Dense BEV优化方案,通过引入BevMask减少冗余计算,并使用BPU友好的Gridsample算子,在征程6芯片上实现推理性能提升30%。

征程 6 | cgroup sample
本文介绍了一个基于Linux cgroup API的示例程序,用于限制进程的CPU占用率和指定运行的CPU核心。

linux 常见稳定性问题分析方法
地平线SoC平台稳定性问题概述,涵盖kernel panic、内存损坏、看门狗和防火墙等常见问题,并提供调试方法。

大模型常见量化方法简介
随着大型语言模型(LLM)在具身智能等领域的广泛应用,接下来就该思考如何在有限硬件资源下部署这些模型,量化是其中必不可少的步骤。


LLM 量化技术概述及 AWQ 和 GPTQ 介绍
近期在学习 Qwen3 的模型结构时,看到了 Qwen 使用了 GPTQ 与 AWQ 量化方案,于是便萌生了介绍 LLM 量化技术的想法,笔者将用 2-3 篇文章,给读者们介绍大模型量化的技术。


征程 6P/H 计算平台部署指南
本文旨在提供 征程 6H/P 计算平台的部署指南,将会从硬件、软件两部分进行介绍,本文整理了我们推荐的使用流程,和大家可能会用到的一些工具特性,以便于您更好地理解工具链。


征程 6 | QAT 新版 qconfig 量化模板使用教程
本章将系统且全面地为大家呈现新版 qconfig 模板的核心内容,涵盖其关键更新点、规范的基本使用流程以及对相关产出物的详细介绍。

征程 6E/M 计算平台部署指南
本文旨在提供 征程 6E/M 计算平台的部署指南,将会从硬件、软件两部分进行介绍,本文整理了我们推荐的使用流程,和大家可能会用到的一些工具特性,以便于您更好地理解工具链。


征程 6X 常见 kernel panic 问题
kernel panic 包含了多种内核异常类型,包括但不限于:空指针/异常指针、HungTask、RCU Stall、softlockup、hardlockup、OOM、BUG_ON。


LLM 训练基础概念与流程简介
LLM 首先要学习的并非直接与人交流,而是让网络参数中充满知识的墨水,“墨水” 理论上喝的越饱越好,产生大量的对世界的知识积累。

征程 6 | 多任务 不同帧率 部署方案
推理多任务模型时,可能会有不同任务分支 部署不同帧率的需求,例如 BEV 动态任务 20 帧,静态任务 10 帧这种情况。


三种 Badcase 精度验证方案详解与 hbm_infer 部署实录
在模型结构优化与部署量化过程中,开发者往往会遇到一个关键任务:基于历史 Badcase 数据验证模型精度变化,确保模型修改不会引入明显性能退化。 这类验证常见于感知、预测、行为识别等任务,尤其在客户交付或精度回归过程中十分关键。

大模型 | VLA 初识及在自动驾驶场景中的应用
VLA (Vision Language Action)是一种多模态机器学习模型,结合了视觉、语言和动作三种能力,旨在实现从感知输入直接映射到控制动作的完整闭环能力。VLA 强调一体化多模态端到端架构,非感知规控的模块化方案。

征程 6 | 工具链如何支持 Matmul/Conv 双 int16 输入量化?
我们将详细剖析 PTQ 和 QAT 链路下双 int16 配置的完整流程



手撕大模型 | MQA 和 GQA 原理解析
随着大模型功能的不断强化,其容量也在增加,当前的 KVCache 技术已经不能满足发展需要了,所以,各种针对于 KVCache 优化的技术应时而生。



手撕大模型|FlashAttention 原理及代码解析
FlashAttention 是一种专为 Transformer 优化的高性能注意力机制。它能显著加速训练和推理,同时减少内存占用,广泛应用于 LLaMA、GPT-NeoX、PaLM 等大模型中。






