360OS 张焰:AI 视觉在教育中的应用
11月24日,由即构科技主办的2020GET大会教育科技分论坛在北京成功召开,来自叮咚课堂、小冰、360OS、蕃茄田艺术、即构科技的6位资深教育/科技大咖,在论坛上进行深度分享。
以下为360OSAI影像事业部总经理张焰带来的主题为《AI视觉在教育中的应用》的演讲,我们整理了分享的核心内容,错过活动的小伙伴可以继续回看学习。
扫描下方二维码,可下载演讲PPT资料
二维码地址:https://www.wjx.top/jq/99621641.aspx
张焰认为:
360AI视觉针对在线教育痛点开发了4大场景解决方案,包括代替督学、量化检测、智能互动以及智能工具。他相信科技改变未来,AI可以为教育行业起到降本增效的作用。
以下为张焰演讲实录:
首先介绍一下我们团队,我们是360集团旗下孵化的创新业务线,专注做AI视觉算法的研发和应用。围绕“人、物、场景”三个维度,为智能手机、泛文娱、在线教育、IOT等行业提供专业的算法支持和解决方案。
一、为什么做在线教育?
从国家层面上来讲,教育是科技兴邦的根本;对家庭而言,教育也是家庭的希望;从情怀而言,教育可能是最大的公益,这也是我们做在线教育的初衷。
受疫情影响,很多线下传统教培机构,现在可能被迫或加速转到了线上。这其实就是数字化的进程,但是进程来得太快,很多公司还没适应过来,所以这个过程也暴露了很多问题,以下四个痛点尤为明显:
1、学生自觉性差。尤其是K12教育,这是典型的督导式教学。以前线下督导的压力都在老师身上,搬到线上之后,督导的压力都转移到家长身上了。
2、效果难以评估。到目前为止,还没有一套成熟的量化指标来评估课堂上的好与坏,家长对线上教学的效果仍然存疑。
3、课堂互动性差。你面对的互动对象是一个冰冷的屏幕,而不是一个和蔼可亲的老师,所以在互动方面会存在很多问题。
4、教学效率较低。传统线上课难以还原线下场景,包括场地设备的限制,给老师和机构增加了不少成本。
二、AI视觉能为在线教育做什么?
其实我不算是教育工作者,只是科技从业者,我坚信科技是可以改变未来的,我们想做未来的教育。那么科技与教育的结合能够碰撞出什么样的火花?我们提出了几个解决方案:
1、代替督学方案
线上督学的责任由老师转变给家长,我们希望用机器来替代老师跟家长进行督学,这里涉及到两个层面:疲劳提醒和姿态纠正。
疲劳提醒
很多教育台灯、教育平板类的产品也有疲劳提醒功能,主要监测“打哈欠、瞌睡”这两个行为,我们增加了趴着的场景。趴着的场景难度更大,原因是虽然全身的骨骼关节点比较好检测,但针对半身,可能只看到头发或上半身的一小部分,这种人体关节点几乎是检测不到或者是不准的。为此我们做了很多的尝试和研究,解决了这个问题。
姿态纠正
姿态纠正也分为两类:坐姿不良和距离太近。坐姿不良有很多维度,比如趴着、卧倒、倾斜,这些情况都可以检测出来。距离太近,有两套方案。第一套是基于2D人脸检测技术来做的,这个技术的精度可能比较有限,大概是到厘米级别。我们跟其他的硬件厂商做的升级方案,可以精确到毫米级别的距离探测。
我们的学生姿态实时检测系统的实现方案,总体分为两个维度:人脸姿态检测和人体姿态。人脸姿态包括打哈欠、瞌睡等,人体姿态检测加入了3D深度信息,这样能获取到深度信息,用深度信息来辅助做人体的立体姿态识别,可以大幅的提高精度。
2、量化检测方案
课堂专注度与课堂接受度是家长比较看重的两个维度,尤其是线下转线上之后。学生有没有走神,有没有认真听讲,上课的效果好不好,这些是家长非常关心的指标。
课堂专注度
普通专注度检测有几个维度,像举手、低头、瞌睡、玩手机,缺陷是仅有2D图像信息,检测准确率欠佳。另外是检测指标单一,没法精准回溯学情。
而我们做的课堂专注度,包括了3D深度检测和学情回溯系统。可以看到我们加入了人体Depth信息,基于这个信息可以比较精准的估计到人体的每个姿态,然后再加入事件的触发机制,最后得到监测结果。包括事件状态的上报,时间戳,以及当前时间戳发生的事件截图等,便于课后对教学情况进行回溯分析。
课堂接受度
关于课堂接受度,到目前为止,还没有哪家公司真正把它做到产品里。我们首创的课堂接受度,包含了正向和负向维度。正向的维度有举手、微笑、点头,代表课堂接受度是比较好的。负向的维度有疑惑、皱眉、摇头,这些代表课堂接受度较差。
针对疑惑这个表情的处理,我们也下了很多功夫。从学术界来看,人类常见的表情只有7种,并不包括疑惑这个表情,也没有相关的数据。但这个表情对教学场景很有意义,所以我们在这方面做了大量的数据补充,增加了疑惑的数据和标注,最后通过迁移学习的方式,再结合人体关键点进行辅助识别,得到了最终的8类表情识别。
我们的课质监测方案采用了典型的“边缘计算+云计算”结合的架构,现在边缘端算力已经越来越强了,很多算法可以直接拷在边缘设备端以及APP上。采用这种架构还出于隐私的考虑,大家担心把学生端的摄像头打开之后,检测学生的行为可能会触犯个人隐私或者出现非法上传数据。因此我们尽量把端的能力发挥出来,上传的只是用AI算法检测之后的状态,而不是客户隐私的数据。
网课助手对老师而言,可以得到整个班级的课堂表现报告,是非常有价值的。对家长而言,可以生成本地的报告,得到学生在每个维度的表现情况,并针对每一个维度的时间戳进行回溯分析。
3、智能互动方案
AI沉浸式课件
传统的录播课为了获得较好的效果,可能需要用专业的录播间,后面搭建绿幕,还有补光灯等一系列的设备。这里有一个明显的缺点是对场地的要求过高,后期的制作成本也比较高。
而传统的直播课,可以看到课件跟老师的头像画面是分屏展示的,老师跟学生之间的互动很有限,这对幼儿教育的体验是非常不友好的。
我们的AI沉浸式课件,做了非常精准的人像分割,可以把课件放在人像后面展示,同时人跟课件之间可以进行互动,比如课件播放、暂停、上一页、下一页这些简单的操控,以及老师跟课件内容的互动。这个技术也可以用来做课件的生产工具,不需要录播间的场地和设备,自动完成课件制作。
网课互动
说到网课互动,我们知道传统的线上互动都是老师单向输出为主,老师很难兼顾到每个学生的状态。因为学生在屏幕当中只是非常小的头像,学生发生什么状况,老师是不知道的。
我们研发了一系列智能互动工具,可以通过AI手段实现多向多元的互动。比如手势识别,如果这个学生回答问题之后,老师觉得很棒,可以点一个赞触发点赞的特效。表情识别,如果系统检测到学生疑惑了,可以把他的头像Highlight出来,引起老师的注意;还有像人脸特效是比较常见的,现在有很多幼儿教育都会用它来增加互动的趣味性。
4、智能工具方案
我们在这部分做了很多的投入跟创新,因为这些跟硬件结合比较紧密,也是我们的强项。
拍照搜题
很多的学习APP里可能都有拍照搜题的功能,拍照之后用OCR技术识别。很多学生可能用教育平板拍照,但学生手比较小,教育平板又很大,按快门键的时候经常会手抖,而现在的教育平板和手机都没有光学防抖的加持,导致拍出来的效果不清晰。
我们出了HD Shot解决方案,可以解决各种场景下失焦、抖动、噪点、暗光等一系列拍照模糊的问题。这个功能在科大讯飞的录音笔上已经上线了,现在的录音笔很智能,除了有录音功能,还可以拍会议的文档和PPT。
如下图所示,左边是处理前的效果,右边是处理之后的。这个功能可以提升动态范围,对高光进行抑制,对暗部进行提亮。
画质能力升级
视频画质提升的技术,对老师端或者主播端非常有价值。专业的主播,设备非常齐全,可以把手机架到补光灯上,让自己的脸更精致透亮。但是长期使用补光灯对眼睛的伤害还是比较大的,所以我们做了纯AI软件补光灯方案。一套是全局的补光方案,还有一套是专门针对人脸的补光方案。针对人脸的补光方案,会对人脸的肤色进行精准的识别,利用3D打光技术把人脸变得更加透亮。
人脸考勤
Face ID技术,在智慧校园也已经开始应用了,这个技术的核心难点在于误识率、拒识率指标以及活体检测。它可以用在线上跟线下的大班课程,比如考勤点名,防止别人代答到这种情况。
最后用金字塔结构总结一下我们的业务架构,最底层是核心的基础技术,第二层是基于场景化的解决方案,需要深入了解行业的特点以及场景化的需求,顶层则是我们基于各个平台适配的SDK产品,我们可以基于基础技术做很多业务层的封装和开发。
我一直相信科技改变未来,AI可以为在线教育行业起到降本增效的作用。AI教育,未来可期。谢谢大家!
版权声明: 本文为 InfoQ 作者【ZEGO即构】的原创文章。
原文链接:【http://xie.infoq.cn/article/5dcf098dbab5ad6265f85000c】。文章转载请联系作者。
评论