基于 SparkMLlib 智能课堂教学评价系统 - 相关研究及文献分析 (二)
近年来,大数据一词在互联网上是被提及到较多的词汇之一,而且对于教育领域来说大数据也是大有作为,能够为教育行业带来一场比较大的变化,也有人预测用大数据技术将给教育行业带来一场革命性的改变。
1 传统教学模式概述
传统的课堂教学模式是一种以课堂教师教学为中心的教学模式。而这种传统教学模式在现代信息技术高速发展的年代看来是存在很多弊端的。教师教授知识,学生接收知识,这就是存在教师主动教学,而学生被动学习,弊端就在于学生在学习中本该有的主动性被忽略掉。学习是一个主动的过程,只有调动学生的主动性,才能真正的去接收知识。而学生的主动性不强的原因主要在于对教师的教学方式不满意、不能听懂本堂课程、或者对本门课程不满意等,而这些问题都是由于教师和学生沟通不及时,互动性不强造成的。
2 智能课堂模式概述
智能课堂模式指运用现代化的信息技术手段,包括人工智能技术,大数据技术等,进行对传统教学模式的改革,主要就是对教师课堂教学、课下作业及教师评价进行改革,从而有效改善学生学习体验,让学生乐于学,提升学习质量与效率。智能课堂是根据学生在课堂学习中的行为表现及学习的积极性实时地改变教学方式,解决教师主观判断学生学习行为的问题。
目前信息技术高速发展,在 2008 年大数据一词开始在技术圈流行,到现在为止经过了十几年的时间,大数据技术已经更新换代了几轮,但以目前的大数据技术来完全地改革传统教学,还是有很大难度的,但是可以从某一方向入手,逐步进行改革,目前比较流行的就是完全线上教学模式,以及传统教学模式与线上教学模式相结合的方式,智能课堂就可以先以这两种方式进行,将传统课堂教师的教授知识以学生的课堂行为录入系统,然后进行数据分析,这种方式实现的技术不是很难,但是对推动传统教学改革有很大的帮助。
3 国内外相关研究的概述
近年来,随着大数据技术发展,大数据被应用于各行各业,而在教育行业也出现了大数据的身影。
在 2019 年,中国大数据教育大会在郑州召开,在大会报告环节,梅宏院士作了《大数据发展-现状及思考》的报告,围绕大数据产业发展回顾、大数据产业生态发展及重点变迁、大数据在数据库管理、处理及应用方面的主要技术挑战多角度总结和回顾了大数据领域发展[5]。对大数据教育进行了深度探讨。而国内的一些企业也在纷纷布局大数据教育领域,在 2019 年末时期,科大讯飞发布了基于大数据的教育行业平台,此平台采用“数据源全平台共享、移动计算而不是移动数据、数据管理运营维护和数据可视化展示”为一体的教育大数据平台,完成不同教学及数据治理的有效方案,做到用数据说话、用数据推动创新,实现“因材施教”。
在国外,大数据分析已经被应用教育领域中的公共教育部分,这也成为教学改革的一大重要方向。美国教育部发放上千万美元,用于支持学生在单独学习知识层面是怎样进行学习的。该计划的数据和案例在美国教育部发布的《通过教育数据挖掘和学习分析增进教与学(公共评论草案)》中披露出来[6]。不仅仅是公共教育,在国外科技较发达的地区,个人的数据包括从小学到大学甚至到工作时的所有数据,如学生在各个学期的考试成绩,在课堂上的表现数据等,都被保存起来,用于对个人的未来发展进行研究规划。
4 研究的“发展趋势”
教育大数据市场前景非常广阔,目前国内外许多高校及企业已经开始规划在教育方面用大数据处理更加细致的方向,全球一流的人工智能及云平台 IBM 就与当地一个县的公共学区进行大数据分析合作。结果显示,大数据对学校的教学有着积极的作用。目前我们国家也加大了在大数据领域的研发投入,支持学校的信息化发展,尤其是智能教育的发展。在国家“十三五”发展规划中,明确提出了用现代化信息技术解决教育领域中的传统教学弊端,推动用先进技术促进教育现代化。
5 关键技术
本论文中所涉及到的技术最为关键的有两处,一处是数据源的获取,即数据采集工作,二是数据分析部分。下面简单介绍相关的技术分析:
(1)数据采集的工作原理
本套系统数据来源于教学中业务系统,包括业务系统用户访问日志数据和数据库中课堂作业、教学评价等结构化数据,日志数据的采集,业务系统使用 js 埋点技术,当有用户登录系统,及点击系统中的任意页面,js 都会生成一条日志,然后由数据采集系统进行采集、清洗、转化。对于结构化数据,像 Mysql 中的部分数据,这类数据都是比较完整有结构的,一般不需要进行清洗,直接进入大数据存储系统中,供后面数据分析系统使用。但是有些数据对于分析系统所使用数据还是有很大问题,比如数据粒度问题,Mysql 数据库存储的是明细化数据,而数据仓库 Hive 中数据没有那么严格分类,因为它主要是用来分析的,不需要各种详细数据,所以对于这类数据还是需要进行转化。在智能课堂系统开发中,会将业务中数据按照数据仓库的分层结构进行分层,本系统主要分为三层,第一层是贴源层 ODS,没有经过清洗的原始数据,第二层是 DW 层,此层属于分析层,进行各种分析之后的数据,最后一层是 DWS 层,属于展示层,可视化中的数据来源于此层或者 HBase 中。还有数据不一致性,因为不同的系统再对数据进行存储时使用的编码方式可能是不同的,所以数据采集过来之后需要进行统一的编码。整体数据采集流程如图 2-1 所示:
图 2-1 智能课堂系统数据采集流程
(2)机器学习技术分析
本系统中所用的机器学习技术是 SparkMLlib,它是 Spark 的机器学习库,本系统主要用 Mllib 进行数据分析部分。在本系统中主要用到 MLlib 中的学习算法有决策树及 K-Means 等,对于较复杂的如在教学分析阶段的多层次,维度较高的数据时,也会用到随机森林的算法,使用 MLlib 主要就是方便,只需要调整好对应的参数即可,算法部分 MLlib 已经帮助我们实现了,直接调用接口即可。相比于基于 Hadoop MapReduce 实现的机器学习算法,像 Manhout 机器学习库,MLlib 在机器学习方面具有一些得天独厚的优势,比 Manhout 的操作性更强,使用也更方便。
首先,MLlib 机器学习算法由多个步骤相互依赖组成一个 Pipeline 管道然后迭代计算的过程,在此步骤中需要在多次迭代后将误差迭代到最小时,计算才算结束,但是此过程中最重要的就是调参,参数的好坏决定着结果的准确度。同时 MLlib 比 MapReduce 计算框架有很大优势,Mllib 是完全基于内存进行计算的,而 MapReduce 每次计算需要进行磁盘的 I/O,从而会导致非常大的 I/O 和 CPU 消耗。
而 Spark 基于内存的计算模型 RDD 对于迭代计算有着天然的优势,多个迭代直接在内存中完成,只有当数据很大时才会经过磁盘。其次,Spark 的通信系统 Netty 是近年来表现最好的通信系统,它的通信效率比 MapReduce 通信机制的效率要高的多。
版权声明: 本文为 InfoQ 作者【大数据技术指南】的原创文章。
原文链接:【http://xie.infoq.cn/article/e1f2db13b0f15afcd17491fd8】。未经作者许可,禁止转载。
评论