360OS 张焰：AI 视觉在教育中的应用

关注
发布于: 2020 年 12 月 03 日
﻿
﻿
11月24日，由即构科技主办的2020GET大会教育科技分论坛在北京成功召开，来自叮咚课堂、小冰、360OS、蕃茄田艺术、即构科技的6位资深教育/科技大咖，在论坛上进行深度分享。
﻿
以下为360OSAI影像事业部总经理张焰带来的主题为《AI视觉在教育中的应用》的演讲，我们整理了分享的核心内容，错过活动的小伙伴可以继续回看学习。
﻿
扫描下方二维码，可下载演讲PPT资料
﻿
﻿
二维码地址：https://www.wjx.top/jq/99621641.aspx
﻿
张焰认为：
﻿
360AI视觉针对在线教育痛点开发了4大场景解决方案，包括代替督学、量化检测、智能互动以及智能工具。他相信科技改变未来，AI可以为教育行业起到降本增效的作用。
﻿
以下为张焰演讲实录：
﻿
首先介绍一下我们团队，我们是360集团旗下孵化的创新业务线，专注做AI视觉算法的研发和应用。围绕“人、物、场景”三个维度，为智能手机、泛文娱、在线教育、IOT等行业提供专业的算法支持和解决方案。
﻿
一、为什么做在线教育？从国家层面上来讲，教育是科技兴邦的根本；对家庭而言，教育也是家庭的希望；从情怀而言，教育可能是最大的公益，这也是我们做在线教育的初衷。
﻿
受疫情影响，很多线下传统教培机构，现在可能被迫或加速转到了线上。这其实就是数字化的进程，但是进程来得太快，很多公司还没适应过来，所以这个过程也暴露了很多问题，以下四个痛点尤为明显：
﻿
1、学生自觉性差。尤其是K12教育，这是典型的督导式教学。以前线下督导的压力都在老师身上，搬到线上之后，督导的压力都转移到家长身上了。
﻿
2、效果难以评估。到目前为止，还没有一套成熟的量化指标来评估课堂上的好与坏，家长对线上教学的效果仍然存疑。
﻿
3、课堂互动性差。你面对的互动对象是一个冰冷的屏幕，而不是一个和蔼可亲的老师，所以在互动方面会存在很多问题。
﻿
4、教学效率较低。传统线上课难以还原线下场景，包括场地设备的限制，给老师和机构增加了不少成本。
﻿
二、AI视觉能为在线教育做什么？﻿
其实我不算是教育工作者，只是科技从业者，我坚信科技是可以改变未来的，我们想做未来的教育。那么科技与教育的结合能够碰撞出什么样的火花？我们提出了几个解决方案：
﻿
﻿
1、代替督学方案线上督学的责任由老师转变给家长，我们希望用机器来替代老师跟家长进行督学,这里涉及到两个层面：疲劳提醒和姿态纠正。
﻿
疲劳提醒
﻿
很多教育台灯、教育平板类的产品也有疲劳提醒功能，主要监测“打哈欠、瞌睡”这两个行为，我们增加了趴着的场景。趴着的场景难度更大，原因是虽然全身的骨骼关节点比较好检测，但针对半身，可能只看到头发或上半身的一小部分，这种人体关节点几乎是检测不到或者是不准的。为此我们做了很多的尝试和研究，解决了这个问题。
﻿
姿态纠正
﻿
姿态纠正也分为两类：坐姿不良和距离太近。坐姿不良有很多维度，比如趴着、卧倒、倾斜，这些情况都可以检测出来。距离太近，有两套方案。第一套是基于2D人脸检测技术来做的，这个技术的精度可能比较有限，大概是到厘米级别。我们跟其他的硬件厂商做的升级方案，可以精确到毫米级别的距离探测。
﻿
我们的学生姿态实时检测系统的实现方案，总体分为两个维度：人脸姿态检测和人体姿态。人脸姿态包括打哈欠、瞌睡等，人体姿态检测加入了3D深度信息，这样能获取到深度信息，用深度信息来辅助做人体的立体姿态识别，可以大幅的提高精度。
﻿
2、量化检测方案课堂专注度与课堂接受度是家长比较看重的两个维度，尤其是线下转线上之后。学生有没有走神，有没有认真听讲，上课的效果好不好，这些是家长非常关心的指标。
﻿
课堂专注度
﻿
普通专注度检测有几个维度，像举手、低头、瞌睡、玩手机，缺陷是仅有2D图像信息，检测准确率欠佳。另外是检测指标单一，没法精准回溯学情。
﻿
而我们做的课堂专注度，包括了3D深度检测和学情回溯系统。可以看到我们加入了人体Depth信息，基于这个信息可以比较精准的估计到人体的每个姿态，然后再加入事件的触发机制，最后得到监测结果。包括事件状态的上报，时间戳，以及当前时间戳发生的事件截图等，便于课后对教学情况进行回溯分析。
﻿
课堂接受度
﻿
关于课堂接受度，到目前为止，还没有哪家公司真正把它做到产品里。我们首创的课堂接受度，包含了正向和负向维度。正向的维度有举手、微笑、点头，代表课堂接受度是比较好的。负向的维度有疑惑、皱眉、摇头，这些代表课堂接受度较差。
﻿
﻿
针对疑惑这个表情的处理，我们也下了很多功夫。从学术界来看，人类常见的表情只有7种，并不包括疑惑这个表情，也没有相关的数据。但这个表情对教学场景很有意义，所以我们在这方面做了大量的数据补充，增加了疑惑的数据和标注，最后通过迁移学习的方式，再结合人体关键点进行辅助识别，得到了最终的8类表情识别。
﻿
我们的课质监测方案采用了典型的“边缘计算+云计算”结合的架构，现在边缘端算力已经越来越强了，很多算法可以直接拷在边缘设备端以及APP上。采用这种架构还出于隐私的考虑，大家担心把学生端的摄像头打开之后，检测学生的行为可能会触犯个人隐私或者出现非法上传数据。因此我们尽量把端的能力发挥出来，上传的只是用AI算法检测之后的状态，而不是客户隐私的数据。
﻿
网课助手对老师而言，可以得到整个班级的课堂表现报告，是非常有价值的。对家长而言，可以生成本地的报告，得到学生在每个维度的表现情况，并针对每一个维度的时间戳进行回溯分析。
﻿
3、智能互动方案﻿
AI沉浸式课件
﻿
传统的录播课为了获得较好的效果，可能需要用专业的录播间，后面搭建绿幕，还有补光灯等一系列的设备。这里有一个明显的缺点是对场地的要求过高，后期的制作成本也比较高。
﻿
而传统的直播课，可以看到课件跟老师的头像画面是分屏展示的，老师跟学生之间的互动很有限，这对幼儿教育的体验是非常不友好的。
﻿
﻿
我们的AI沉浸式课件，做了非常精准的人像分割，可以把课件放在人像后面展示，同时人跟课件之间可以进行互动，比如课件播放、暂停、上一页、下一页这些简单的操控，以及老师跟课件内容的互动。这个技术也可以用来做课件的生产工具，不需要录播间的场地和设备，自动完成课件制作。
﻿
网课互动
﻿
说到网课互动，我们知道传统的线上互动都是老师单向输出为主，老师很难兼顾到每个学生的状态。因为学生在屏幕当中只是非常小的头像，学生发生什么状况，老师是不知道的。
﻿
我们研发了一系列智能互动工具，可以通过AI手段实现多向多元的互动。比如手势识别，如果这个学生回答问题之后，老师觉得很棒，可以点一个赞触发点赞的特效。表情识别，如果系统检测到学生疑惑了，可以把他的头像Highlight出来，引起老师的注意；还有像人脸特效是比较常见的，现在有很多幼儿教育都会用它来增加互动的趣味性。
﻿
4、智能工具方案我们在这部分做了很多的投入跟创新，因为这些跟硬件结合比较紧密，也是我们的强项。
﻿
拍照搜题
﻿
很多的学习APP里可能都有拍照搜题的功能，拍照之后用OCR技术识别。很多学生可能用教育平板拍照，但学生手比较小，教育平板又很大，按快门键的时候经常会手抖，而现在的教育平板和手机都没有光学防抖的加持，导致拍出来的效果不清晰。
﻿
我们出了HD Shot解决方案，可以解决各种场景下失焦、抖动、噪点、暗光等一系列拍照模糊的问题。这个功能在科大讯飞的录音笔上已经上线了，现在的录音笔很智能，除了有录音功能，还可以拍会议的文档和PPT。
﻿
如下图所示，左边是处理前的效果，右边是处理之后的。这个功能可以提升动态范围，对高光进行抑制，对暗部进行提亮。
﻿
﻿
画质能力升级
﻿
视频画质提升的技术，对老师端或者主播端非常有价值。专业的主播，设备非常齐全，可以把手机架到补光灯上，让自己的脸更精致透亮。但是长期使用补光灯对眼睛的伤害还是比较大的，所以我们做了纯AI软件补光灯方案。一套是全局的补光方案，还有一套是专门针对人脸的补光方案。针对人脸的补光方案，会对人脸的肤色进行精准的识别，利用3D打光技术把人脸变得更加透亮。
﻿
人脸考勤
﻿
Face ID技术，在智慧校园也已经开始应用了，这个技术的核心难点在于误识率、拒识率指标以及活体检测。它可以用在线上跟线下的大班课程，比如考勤点名，防止别人代答到这种情况。
﻿
﻿
最后用金字塔结构总结一下我们的业务架构，最底层是核心的基础技术，第二层是基于场景化的解决方案，需要深入了解行业的特点以及场景化的需求，顶层则是我们基于各个平台适配的SDK产品，我们可以基于基础技术做很多业务层的封装和开发。
﻿
我一直相信科技改变未来，AI可以为在线教育行业起到降本增效的作用。AI教育，未来可期。谢谢大家！
﻿