ModelBox 姿态匹配：抖抖手动动脚勤做深呼吸

2022-11-03
中国香港
本文字数：1953 字
阅读完需：约 6 分钟

在之前发布的 AI 说ModelBox推理真的高效吗一文中，我们使用双阶段单人人体关键点检测作为案例对比测试了 ModelBox 的性能。作为一个性能测试案例我们只是简单的将检测到的关键点画在原图上，并未进行进一步的应用开发。昨晚做梦，梦到关键点检测案例哭诉大材小用为何对它弃之不理明明广阔天地大有可为，愧疚之下连夜写了这篇动手动脚的案例，最终效果如下：

画面左上角随机绘制一个标准姿势，同时检测用户的姿态与标准姿势进行相似性比对，得分绘制在画面中央。如果得分超过阈值，则视为姿态一致，将更新下一个标准姿势。

本案例使用 Windows 版本的 ModelBox SDK 进行二次开发。如果对此还不熟悉，请先阅读ModelBox端云协同AI开发套件（Windows）开发环境篇，如果对 ModelBox AI 应用开发感兴趣，欢迎参加我们的ModelBox实战营。

工程目录

本案例是在single_human_pose应用基础上修改而来，案例所需资源（代码、模型、测试数据等）均可从obs桶下载。工程目录与原始版本基本一致，下面列出其中不一样的地方：

single_human_pose    ├─data    │  └─norm_kpts.npy                  // 标准姿态关键点    ├─etc    │  └─flowunit                       // 功能单元目录    │      ├─draw_pose                  // 关键点绘制功能单元    │         ├─draw_pose.py            // 关键点绘制功能单元入口文件    │         ├─draw_pose.toml          // 关键点绘制功能单元配置文件    │         ├─draw_utils.py           // 关键点匹配算法    │         └─smooth.py               // 平滑算法，使关键点更稳定    │      ├─...                        // 其他功能单元    ├─graph    │  └─single_human_pose.toml         // 默认技能流程图，使用摄像头运行    ├─...    └─build_project.sh

复制代码

主要的不同点有两处：

1、我们希望姿态与标准姿态匹配得分超过阈值后持续展示几帧匹配结果，使结果更可感，这就需要draw_pose单元是有序的，所以我们在关键点绘制功能单元配置文件draw_pose.toml中将单元类型改为流单元：

 # Flowunit Type stream = true # Whether the flowunit is a stream flowunit

复制代码

同时要在draw_pose.py中补充流单元需实现的接口 data_pre、data_post：

def data_pre(self, data_context):    # Before streaming data starts    return modelbox.Status()
def data_post(self, data_context):    # After streaming data ends    return modelbox.Status()

复制代码

2、draw_utils.py中新增关键点匹配算法，主要思路是将检测到的关键点对检测框进行归一化处理后与标准关键点计算 oks：

 def compute_kpts_oks(self, dt_kpts, area=1):     g = np.array(self.target_kpt)     xg = g[:, 0]     yg = g[:, 1]     d = np.array(dt_kpts)     xd = d[:, 0]     yd = d[:, 1]     vd = d[:, 2]
     dx = xd - xg     dy = yd - yg     e = (dx ** 2 + dy ** 2) / self.variances / (area + np.spacing(1)) / 2     e = e[vd > self.kpts_thre]     return np.sum(np.exp(-e)) / e.shape[0] if e.shape[0] else 0.0

复制代码

为防止某些低置信度关键点漂移影响相似性计算，我们只取置信度大于kpts_thre的关键点计算得分。

此外，一时手痒替换了人形检测模型，检测的前后处理以及技能流程图稍有改变；如果使用原本的检测模型只修改上述部分也可以正常运行。由于本项目随机选择标准姿势，所以只提供了使用摄像头运行的技能流程图。

运行项目

打开工程目录下 bin/mock_task.toml 文件，设置其中的任务输入和任务输出配置为如下内容：

[input]type = "url"url = "0"
# 任务输出,目前仅支持"webhook", 和本地输出"local"(输出到屏幕,url="0", 输出到rtsp，填写rtsp地址)# (local 还可以输出到本地文件，这个时候注意，文件可以是相对路径，是相对这个mock_task.toml文件本身)[output]type = "local"url = "0:Pose"

复制代码

即使用编号为 0 的摄像头（默认为 PC 自带的摄像头），输出画面显示到名为 Pose 的本地屏幕窗口中。

执行 bin/main.bat 运行应用，就可以开始伸展胳膊腿儿了：