首页 首页 大数据 查看内容

教育大数据的核心技术、应用现状与发展趋势

木马童年 2019-7-31 02:05 294 0

作者简介:孙洪涛,博士,中央民族大学现代教育技术部高级工程师,研究方向:教育大数据,教育信息化规划。北京 100081;郑勤华,博士,北京师范大学教育学部副教授,研究方向:教育经济学,教育大数据。北京 100875 ...

作者简介:孙洪涛,博士,中央民族大学现代教育技术部高级工程师,研究方向:教育大数据,教育信息化规划。北京 100081;郑勤华,博士,北京师范大学教育学部副教授,研究方向:教育经济学,教育大数据。北京 100875

内容提要:大数据领域近年来蓬勃发展,作为大数据的细分领域,教育大数据具有推动教育变革的巨大潜力。大数据技术正在快速演进之中,这为大数据应用提供了新的可能。为了深入分析教育大数据发展,文章从大数据技术的最新进展入手,从基础设施、分析技术和领域应用方面阐述了大数据的发展趋势。进而通过教育领域大数据构成与特征的分析,对教育大数据的含义进行了解析。并结合国际范围内教育大数据典型实践,从适应性教学、教育规律发现和精准管理支持的角度,对教育大数据应用进行了探讨。最后,针对我国教育大数据的发展状况,对教育大数据发展所面临的挑战进行了分析,并提出了应对挑战的建议。

关 键 词:教育大数据 大数据技术 数据湖 雾计算 人工智能 适应性学习 精准管理

标题注释:本文系北京师范大学自主科研基金项目“学习者在线学习状态分析与可视化工具研发”(SKZZB2015013)课题成果,并获得中央高校基本科研业务费专项资金资助。

[中图分类号]G434 [文献标识码]A [文章编号]1672-0008(2016)05-0041-09

大数据是近年来快速发展的技术领域。关于大数据的研究与应用与日俱增,并不断深入影响社会生活。购物推荐、路况分析乃至高考预测等与大众密切相关的应用,充分展现了大数据的力量。2016年3月,AlphaGo与李世石的人机大战,让人们从更深层次上认识了大数据驱动下的人工智能对人类社会的深层影响。根据大数据版图(Big Data Landscape)3.0版本的描绘,大数据相关基础设施、分析工具和应用系统都在快速发展中[1]。这个逐年扩展的图景表明了大数据的疆域正在不断延展,领域应用不断深化,影响力与日俱增。

在教育领域中,大数据已经在多方面引起了研究者和实践者的关注。无论是从研究范式、技术应用,还是实践案例都在快速发展之中。教育大数据正在成为教育领域不可忽视的新型驱动力,在教育教学研究与实践中发挥着越来越重要的作用。

作为一个新兴领域,大数据技术仍在快速迭代之中,新方法、新工具和新模式不断涌现。在教育大数据这个细分领域之中,在契合大数据发展整体趋势的同时,具有自身的鲜明特性。在教育大数据日趋瞩目的今天,在研究大数据技术的基础上,分析教育大数据的定义内涵、实践范例、发展趋势与面临挑战,有助于我们把握教育大数据的整体图景,因应技术发展,推动教育的系统化变革。

一、大数据技术的发展趋势

大数据技术的缘起,可以回溯到2004年谷歌公司提出的MapReduce模型[2]。在十几年时间里,大数据技术从概念走向应用,形成了以Hadoop为代表的一整套技术。时至今日,大数据技术仍在快速发展之中,无论是基础框架、分析技术,还是应用系统都在不断演变和完善。据统计,2015年美国大数据初创企业获得的融资额达到了66.4亿美元,占整个技术领域总融资额的11%。这代表着大数据领域具有蓬勃的活力并受到市场的肯定。大数据技术的发展方向是技术发展与应用需求相互推进的结果,对大数据技术趋势的分析,有助于从更本质的层面理解这个领域的现状。

(一)基础架构

历经多年发展,大数据基础设施正在向着快速、便捷与整合的方向发展。Hadoop框架是大数据分析的重要基础框架。但它存在着计算速度慢、运维复杂等问题。基于Hadoop衍生出了如Spark、Pig等框架,正在不断提升计算性能和优化处理流程。与Hadoop相比,Spark的抽象层次更高,计算速度更快,编程更加简便。更重要的是,Spark提供了统一的数据平台,通过不同的模块支持了不同类型的数据应用。通过Spark Core支持批处理,通过Spark SQL支持数据交互,通过Spark Streaming支持流式存储,通过MLlib支持机器学习,通过GrphaX支持图计算[3]。

在大数据基础设施中,各种新技术不断产生,数据湖(Data Lake)和雾计算(Fog Computing)分别从数据的集中与分布的不同角度给出了解决方案。数据湖是大型的基于对象的存储库,数据以其原始格式存储。不需要对数据进行转换,就可以进行全面的监控和分析,并建立数据模型。与一般意义的数据汇聚不同,数据湖不需要改变原始数据的结构,而是支持分析原始数据。这个方式消除了数据抽取、转换和加载ETL的成本。为了达到不改变数据结构直接存储和技术的目标,数据湖对元数据有很高的要求。目前,数据湖技术仍在起步阶段,还存在原始数据差别大、类型复杂、分析应用困难等问题。但它有助于企业完成更长远的数据规划,建立数据治理结构,并预先解决安全问题[4]。数据湖与一般大数据汇集方式的对比,如表1所示。

教育大数据的核心技术、应用现状与发展趋势

与数据湖侧重数据的聚集不同,雾计算则提出了一种分布式解决方案。雾计算这一名词最早来自网络安全领域,后来由思科(Cisco)公司借用,并赋予了分布式计算的含义。思科将雾解释为“更贴近地面的云”,雾计算是云计算的延伸。与云计算不同,雾计算并非由性能强大的服务器组成,而是由性能较弱、更为分散的各类计算模块和智能网络设置组成,这些低延迟且有能力进行位置感知的模块可以融入各类基础设施,乃至生活用品[5]。

可以预见,随着物联网的不断发展,来自各类终端的数据量会激增。面对这一情况,云计算的瓶颈可能会凸显。在雾计算中,数据、分析和应用都集中在网络的终端节点,只在需要的时候汇集到云中。云计算与雾计算的对比,如表2所示。

教育大数据的核心技术、应用现状与发展趋势

雾计算将计算能力延伸到了网络的边缘的各类智能设备。在这种模式下,智能设备的管理与交互就变得非常重要。比如,比特币的底层技术“区块链”(Block Chain)形成了行动登记、权属确认和智能管理模式。这为通过网络实现各种智能终端和设备实现自我管理和智能交互,提供了新的技术支持[6]。

数据湖和雾计算着眼于大数据的源头和终端,从分布和集中两个角度提供了解决方案。诚然,这些方案需要通过实践进行检验。但总体而言,数据湖和雾计算代表着大数据分析基础设施的发展趋势,即采用更灵活的方式获取和处理终端数据,合理分布计算负载,对核心数据进行广泛汇集,通过定制标准实现数据治理。

(二)分析技术

分析技术是基于大数据进行模型构建,并进行评价、推荐和预测等具体应用的基础。大数据分析技术在近年得到快速发展,智能化、实时化和易用性成为了分析技术的发展特征。

1.智能化

在分析技术方面,大数据与机器学习相结合形成的新型人工智能,已经成为近年最引人瞩目的趋势。大数据与机器学习正让数据分析在统计分析的基础上,更快速地实现智能关系发现和预测,如图1所示。AlphaGo就是这一趋势的典型应用范例。在海量数据的基础上,以深度学习为代表的创新算法,通过大规模并行计算,不断迭代演化,最终形成了能够战胜人类的数据智能。

教育大数据的核心技术、应用现状与发展趋势

图1 数据与算法迭代演化形成数据智能

大数据与机器学习整合所实现的人工智能,其意义不限于特定的领域应用,而是实现了一般性人工智能技术的突破。这一突破将在医疗、交通、金融和教育等为代表的各个应用领域产生重大影响。从更为广阔的角度,以智慧城市为代表的智能化系统解决方案,预示着智能化大数据技术综合应用的未来前景。由各类设备和传感器获得的数据,可以成为智能化分析的数据来源。基于大数据的机器学习在完成海量数据汇集与分析的同时,不断演化、提高自身智能水平。数据分析结果驱动智慧城市各个组成部分的智能化活动,基于数据智能的新型技术架构,为未来城市的智慧生活奠定了基础。

2.实时化

实时分析是大数据技术的另一个发展方向。随着大数据技术的深入发展,各类应用对于数据的实时分析和处理的要求不断提高。与针对历史数据的聚合和分析不同,实时数据分析具有更强的时效性,也对数据存储、计算和呈现提出了更高要求。Hadoop中的批处理框架在对实效性要求较高的分析,例如,实时用户行为分析、用户分类和推荐等应用场景中的局限日益凸显。Spark Streaming、Samza、Storm等流式实时计算框架应运而生。以Spark Streaming为代表的实时分析框架具有优秀的调度机制,快速的分布式计算能力,在数据的汇聚和批处理之间通过关键参数建立平衡,提升了数据吞吐量和性能,对实时计算提供了有效支持[7]。实时性预示着大数据将更深度地融入人们的工作和生活之中,在交通、翻译等需要及时响应的领域中,大数据会体现出更强大的作用。

3.易用性

近年来,随着技术的不断成熟,大数据应用的门槛不断降低。Google、微软等巨头不断推出大数据技术平台。我国互联网三巨头百度、阿里和腾讯分别推出了百度开放云、阿里数加和腾讯大数据平台,在应用技术方面提供了全面的支持。从数据汇集、模型构建到可视化应用方面都提供了高质量的解决方案。并且,这些分析框架中存在很多优秀的开源项目,如,Caffe、Torch等[8]。Google为Tensor Flow的开源分析工具提供了一个重要选择,Tensor Flow的开发者来自Google Brain团队,它整合了Google在搜索引擎、电子邮件和翻译、图像识别等方面的分析成果。并且应用了数据图技术(Data Flow Graphic)将模型构建过程和产品开发紧密结合,在完成建模实验之后就可以直接将代码应用到产品中。易用性为大数据在垂直领域的应用铺平了道路。

(三)领域应用

在基础框架和应用技术的支持之下,大数据在各个领域中的应用也在不断快速地深入发展,展现出了领域应用深化与融合、可视化应用广泛和产业生态链萌发的特征。

1.领域深化与融合

大数据在方法论层面上影响着多个领域的研究与实践[9-11],作为新的研究范式影响着众多学科。在各个领域应用中,大数据作为基础方法与工具有着一定的普适性,也具有鲜明的领域特征与领域差异。数据不同于金融、交通、零售等领域有着较为明确的量化指标作为机器学习的依据。在教育等社会科学相关领域中,大数据分析模型建立过程中形成的类量化指标往往很难获得。这就使得教育领域的模型构建具有了一定的独特性。同时,教育教学自身的周期性和复杂性,也为模型构建提出了新的挑战。

随着大数据的发展,领域应用将逐步深入。在各个领域中需要借助领域知识,针对领域问题进行深层次研究与实践。在此过程中,以数据为桥梁,各个领域的融合将成为可能。例如,始于气象系统的DMSP/OLS夜间灯光数据,已经在遥感测绘、城市规划、人口估计、国民经济测算、能源消耗以及生态环境影响评估方面取得了令人瞩目的成果[12]。基于大数据,各个领域自身发生深刻变化的同时,领域之间的比较出现加速融合的趋势。大数据技术在领域内的深入发展,和领域间的融合发展将日趋重要。

2.可视化应用

可视化是大数据应用的呈现层面,直接面向终端用户,并通过各类应用场景服务各类人群。数据可视化可以通过多种方式实现,从较为底层的R语言Ggplot扩展包、D3函数库,到SPSS Modeler、Tableau等数据分析和可视化工具。数据可视化的方法和工具种类繁多,近年来,可视化工具的应用门槛不断降低。SAP、Tableau等重量级数据分析企业都推出了移动端数据可视化工具。以SAP的Roambi为例,只需要导入数据集,选择模板,Roambi就能够马上完成精美的可视化图表并支持互动[13]。Tableau不仅推出了Tableau Mobile支持移动端数据分析,还通过Tableau Public和Desktop等工具,构建了包含桌面分析、在线发布和移动应用的整体可视化方案[14]。

在各类工具支持下,数据可视化的应用门槛大大降低,为更加广泛的应用奠定了基础。数据可视化作为大数据技术的表现层,是数据分析与洞察的“最后一英里”。随着这个环节的不断优化与人性化,数据分析的广泛应用指日可待。

3.生态链萌发

2015年8月,国务院发布的《促进大数据发展行动纲要》,将大数据定位于推动经济转型发展的新动力,重塑国家竞争优势的新机遇以及提升政府治理能力的新途径[15]。《促进大数据发展行动纲要》成为了大数据产业发展的政策依据,必将对大数据产业发展起到催化作用。大数据产业的资金投入、基础设施、数据标准、应用平台、区域实践必将呈现加速发展趋势。同时,正如前文所述,大型互联网企业如百度、阿里和腾讯等,已经在大数据领域发力,并开始构建基础设施、制定标准、推广应用,在各个应用领域的大数据实践也在快速开展。

可见,在政策重点支持、工具平台日渐成熟、领域应用不断深入的合力之下,大数据产业链正逐步形成,生态体系正在孕育之中。生态链将催生一系列数据标准,形成多种整合型技术路线,打通原始数据到终端应用,将大数据应用推向新的层次。

二、教育大数据的含义

教育大数据的含义,需要从数据和技术两个层面进行解析。在引用较多的大数据定义中,维基百科定义[16]和麦肯锡(McKinsey)定义[17]都强调了大数据的量,无法用常见数据工具处理;而高德纳(Gartner)定义则着眼于数据的特性与价值[18]。为了解析教育大数据的真正意义,需要对教育大数据的构成和特性进行分析。

在教育大数据的构成方面,在线学习的数据首当其冲。可以说教育大数据的广受关注,与在线教与学的盛行有着密不可分的关系。在舍恩伯格的《与大数据同行——学习和教育的未来》一书中,第一个大数据教育应用案例就来自在线学习。随着在线教学的日益普及,在教与学过程中,由学习管理系统和各类移动设备所记录下来的各类海量数据,成为分析教学过程的重要来源。这些数据包括记录学习过程的行为数据,记录学习结果的评价数据,以及学习形成的社会网络关系数据等。由这些数据拓展开来,教育大数据还包含着各类学生个人信息数据、教学管理数据等。可见,教育大数据来自于教育教学的主体和过程。

依照不同层级的主体和教育教学活动的各项内容,教育大数据可以分为四个层次和六大类型。四个层次包括个体、学校、区域和国家;六大类型包括基础数据、教学数据、科研数据、管理数据、服务数据和舆情数据。其中,基础数据包括以人口学为代表的学习者基本信息数据;教学数据包括教学过程中涉及的过程、内容和结果数据;科研数据包括各类教育教学实验与科研项目当中所获得的数据;管理数据包括各类教育管理系统当中所记录下来的数据,如,学生的学籍数据、档案数据和各类统计数据等等;服务数据包括各类与教育教学相关的服务系统当中记录的数据,如,各类师生生活服务、图书档案服务等等;舆情数据包括各类公开媒体中与教育相关的数据,如,各类教育新闻数据、微博等社会网络系统中教育相关数据等。

从特征的角度看,大数据的特点往往被概括为4V,包括海量规模(Volume)、快速流转(Velocity)、多样构成(Variety)和巨大价值(Value)。教育大数据的特征与4V既有重合又有不同:首先,从规模上看,教育大数据的体量尚未达到零售业、电信业等领域的规模,但已经超出了传统数据工具的处理能力。其次,从流动速度的角度,教育大数据流转速度相对较慢,并不像交易数据、搜索数据或通讯数据具有快速流转的特性。相应地,教育教学的周期性决定了教育大数据具有典型的周期性。进而从数据构成方面看,教育大数据中非结构化数据,特别是音视频数据占很大比重。这些数据来自课堂录像、教学资源等,不同于传统数据库记录的数据,具有一定的分析复杂性。同时与电商等领域中步骤清晰、结果明确、周期较短的交易活动不同,教育教学活动具有更高的过程复杂性。通过教育大数据分析发现规律也就更为困难。可见教育大数据的特征可以概括为强周期性、高复杂性和巨大价值。

综上所述,我们可以把教育大数据定义为:服务教育主体和教育过程,具有强周期性和巨大教育价值的高复杂性数据集合,具体如图2所示。

教育大数据的核心技术、应用现状与发展趋势

图2 教育大数据的构成

三、教育大数据的应用

对于教育大数据的应用,研究者从不同的角度提出了各自的思考。祝智庭教授从研究范式的角度,提出了大数据对教育技术研究方法的启示,并着重强调了数据支持下的自适应学习。郑燕林和柳海民认为,教育大数据的应用主要是对教育评价和教育教学决策的支持[19]。胡弼成和王祖霖将大数据应用总结为通过评价和预测促进教学有效性,基于变化的教育形式和复杂关系推动教育决策的科学性,完整、全面、动态的质量监控体系[20]。杨现民等研究者认为,教育大数据应用可以分为政策科学化、区域教育均衡、学校教育质量提升、课程体系与教学效果最优化、个体的个性化发展等层面[21]。

大数据对教育领域的冲击是全面性的。它能够改变个体学习者的学习状况、对教育规律的认识深度、教育政策的制定方式,乃至整个教育系统的结构。从需求的角度,教育大数据的应用可以概括为五个层次,即学习、教学、研究、管理与政策。学习层与教学层需求着眼于适应性学习;研究层需求着眼于发现教育教学规律;管理层需求着眼于精细管理和科学决策;政策层需求来自获得机制设计依据,如图3所示。

教育大数据的核心技术、应用现状与发展趋势

图3 教育大数据的应用

针对不同层次的需求,教育大数据应用形成了各种产品和服务。从适应性教学到动态跟踪测评,从管理模型构建到数据共享门户,各种类型的应用勾勒出了大数据影响教育领域的整体图景。

我们不妨通过国际范围内典型的技术、产品和服务,从适应性教学、教育规律发现和精准管理支持三个方面,对有较大影响的教育大数据国际应用进行分析,以期对我国教育大数据发展应用提供借鉴。

(一)适应性教学支持

适应性教与学是教学的最优化状态。适应性教学中的内容、方法和过程都可以根据学习者的状况来进行定制,让每个学习者都有可能获得适合自己的最大程度的发展。适应性教学的实现,需要基于学习者的个体特征和学习状况的全面分析。大数据为追踪和整合这些数据,并对学生进行个性化支持提供了可能,如图4所示。

教育大数据的核心技术、应用现状与发展趋势

图4 适应性教学的构成

最为常见的适应性教学系统来自在线学习领域。在各种学习管理系统和在线学习平台中,学习者的学习过程能够得到完整记录。学习过程的记录结合人口学和学习风格等学习者特征数据,可以清晰地表征学习者的学习路径和学习者特征,在有效记录学习过程、综合评价学习状况的基础上,进行诊断和推荐,开展有针对性的教学。

适应性学习支持几乎已经成了在线学习的“标配”,在每一个商业在线学习平台中,都有不同程度的适应性。内容推荐是适应性的一种主要形式。然而,真正有效的适应性教学系统需要整合三个系统,即知识系统、行为系统和特征系统。通过知识系统来描绘知识体系;通过行为系统来记录学习、练习和反馈过程;通过特征系统去分析学生的个体特征和学习特质。

当前,最具代表意义的适应性学习系统当属Knewton和可汗学院(Kehan Academy)。此类适应性学习系统重点支持了学生的学。学习系统试图扮演教师的角色,对学生的学习进行自动化记录、诊断和干预。适应性学习的另一个层面是对教师教的支持。应当看到,目前的学习系统还存在诸多局限,在MOOCs发展的初期,教师是否会被在线课堂所替代曾经成为一个引人瞩目的话题。然而,教师作为教育过程中的关键角色,不可能在短时间消失,而是会借助技术实现专业水平提升和角色转变。大数据将成为教师教学的强大助手,帮助教师更好地发挥自身作用,更好地促进学生的学习。

在大数据技术支持下,教师可以根据自身的需求对学生的学习进行监测,并通过自己设定的标准,对学生进行自动化或半自动化的评价。在数据的支持下,教师可以结合自身的教学经验对学生进行诊断和干预。在教师的训练下,大数据工具将对教师的教提供更有力的支持。大数据工具将成为教师最好的帮手,而不是竞争者。

以Masteryconnect为例,Masteryconnect对教师的教提供了全面的数据化支持,它从教师的日常工作出发,提供了数据采集、分析、呈现和基于数据的协作支持。教师可以在其支持下采集各种教学数据,包括课堂观察数据、答题卡数据、量表数据和在线测试数据。在采集数据之后,Masteryconnect可以进行自动化分析和可视化呈现。分析的结果可以通过该系统分享给其他教师,教师可以在数据的基础上进行交流和协作。Masteryconnect为各种形成性评价提供了全面的支持,教师可以自行建立教学内容的结构,并为各个模块和知识点设计问卷、练习、试卷等各种测评方式。测评可以发布到PC和移动设备,学生可以选择自己喜欢的方式完成测评。同时,测评结果可以形成定制报告,并发送给家长[22]。

对教与学的支持是大数据在适应性学习中应用的两个侧面。基于数据,学生的学习状态得以完整记录,学习系统可以推送定制化内容,教师可以开展更具针对性的教学。可见,数据正在改变着线上和线下的教学过程。

(二)教育规律发现

教育研究是一项复杂的系统性研究。长期以来,小样本量、个案研究对教育规律探索起到了重要作用。而教育大数据的引入,大大拓展了教育规律探索的视角。图灵奖得主吉姆·格雷在《第四范式:数据密集型科学发现》一书中,提出了一种新型研究范式,即数据密集型研究,这将成为大数据时代教育研究的利器之一。

换言之,在大数据的驱动下,教育研究将出现不同的态势,通过挖掘、分析教育大数据,研究者可以量化学习过程,表征学习状态,发现影响因素,找到干预策略,从更深的层次揭示教育规律。诚然,规律发现并非易事。但可以肯定的是,在多来源、大体量数据的基础上,通过技术手段进行数据汇集和共享,组织研究者进行群体协作,开展大量能够进行标准化,具有对比意义的研究,最终更易发现真实的教育规律,如图5所示。

教育大数据的核心技术、应用现状与发展趋势

这里可以通过对美国的三个大数据教育应用的案例,即“预测分析报告项目(Predictive Analytics Reporting,PAR)、数据商店(Data Shop)和Data.gov”的介绍与分析,充分了解大数据标准化研究和数据门户对教育规律探索的意义。

美国的预测分析报告项目(PAR)对高校学生的学习状况进行了全面分析,在学生辍学等重要风险的预测方面进行了探索。从2011年开始,该项目与美国的高校合作,建立了标准化数据收集框架,通过对学生学习数据的收集和分析,发现影响因子并构建预测模型。该项目分析的原始数据包括学生人口学数据、教学管理数据、学习过程数据、成绩数据和学生财务信息数据等。通过分析,该项目建立了通用分析标准和风险预测模型,并为各个学校提供了定制化风险因素模型。迄今,PAR已经服务351家院校,分析了超过2000万条课程数据。PAR也为学校分析学生学业表现提供了综合视角,为防止学生辍学提供了有效手段[23]。

教育大数据研究需要大量汇集数据,数据汇集需要大量研究者的群策群力,也需要行之有效的组织机制。匹兹堡大学学习科学中心(Pittsburgh Science of Learning Center)的数据商店(Data Shop),是美国自然科学基金支持建立的学习科学数据库。经过十多年的建设,已经成为全球最大的学习数据分享社区[24]。数据商店具有数据存储和数据分析两大类功能:一方面,它为全球学习科学研究者提供安全的数据存储与共享工具;另一方面,它提供了数据分析工具和调用接口,便于分析应用。数据商店中的数据,分为公开数据和私有数据,研究者可以根据需要选择自己的数据是否要公开。数据商店中的数据,包括教学软件应用数据、在线课程数据、智能教学系统(Intelligent Tutoring Systems)、虚拟实验室数据、协作学习系统数据等。在数据汇集和分享功能的基础上,数据商店提供了丰富的数据分析功能,支持探索性统计分析和数据挖掘,提供Web Service支持远程调用,以及R语言、Excel等工具的接口。

美国教育部在教育研究与实践数据汇集方面开展了大量工作,汇集了大量数据。截至2016年5月,在其数据门户Data.gov中,汇聚的数据包含了325个大型数据集。数据包含范围很广,涉及人口统计、学习成绩、贷款情况、校园安全等情况。Data.gov针对各类数据提供了多种数据格式,同时,提供了在线数据分析功能,它可以实现灵活便捷的在线数据可视化。同时,Data.gov还为每个数据集提供了API,便于外部调用与分析。

由此可见,大数据分析对于教育研究及规律的发现意义重大。上述三个案例——预测分析报告项目、数据商店和Data.gov,对于我们利用大数据研究教育现象、发现与探索教育规律,有着重要的借鉴意义。因为规律的发现,需要针对特定研究主题进行长期研究,需要大量标准化数据支持,需要对基于数据的研究与协作作广泛支持。对于重要的教育研究主题,设定数据标准,进行长期纵向跟踪和广泛横向比较研究,是探索教育规律的有效途径。同时,还需要建立更加通畅的数据分享渠道,通过开放,最大化实现数据的应用价值,以便为研究提供更加广泛的支持。

(三)精准管理支持

在学校和教育机构中,管理者时常面对无法及时掌握教学与管理综合状况的困境。这也导致了教育管理常常是粗放的、由直觉驱动的现状。数据对于学校和教育机构的精准管理和科学决策,可以起到重要的支持、调节作用。基于数据的管理,需要通过汇集各类管理与教学数据,构建多维模型。以Learnsprout、Calarity、Altschool等为代表的数据化管理应用,体现了数据建模对于精准管理的重要支撑作用,如图6所示。

教育大数据的核心技术、应用现状与发展趋势

图6 数据支持下管理模型构建

Learnsprout能够整合学生信息系统和学习管理系统的数据,对学生日常表现进行监测,通过构建模型对学生综合状况进行分析,并对管理和教学提出建议。例如,Learnsprout能够对高中学生进入大学的准备情况等进行评价,对存在问题的学生进行早期预警,提出教学干预建议,并评估干预效果。Learnsprout不仅提供了自动化分析,还建立了有教育专家和数据专家构成的团队对数据进行深入挖掘,并形成分析报告。Learnsprout已经在美国42个州、200多个学区的2500多所学校中得以广泛应用。该公司于2016年1月被苹果公司收购,这也从一个侧面说明了市场对其应用效果的认可。

Calarity是通过构建模型提供管理支持的另一个典型案例。Calarity旨在评估学校应用信息化技术促进教学的状况,并提出改进建议。它针对学校师生的技术应用情况,采集了280个数据点,建立82个变量,形成21个指标,进而聚合成了4个维度,分别为课堂学习、技术应用、信息化技能和信息化环境[25]。在模型化数据分析的基础上,Calarity对存在的问题进行了分析和诊断,并提出了解决方案建议。

Altschool是学校层次上进行整体性数据采集、分析与应用的代表。这所由前谷歌工程师Max Ventilla创办的学校,将教育教学和工程化思维密切结合,将提供个性化的教育作为办学宗旨。在教育教学过程中采用全方位数据采集和分析,成为了这所学校提供适应性教与学的重要依据和支撑。Altschool构建了独特的信息化基础设施进行数据采集,它为教室设计的Alt Video系统,通过各种传感器、摄像头和麦克风采集学生行为数据,这些数据每天都将被分析,用来改进教学过程和教学系统。Altschool还开发了Stream等教学系统和移动应用,在支持教学过程的同时,其基于数据开展教学研究,并通过研究结果支持教学和管理。不同于传统教育研究,Altschool的研究周期非常短,教学设计更新以周为单位,教学管理调整速度极快。快速迭代的工程化思维、系统化信息技术环境支持、完整的数据采集与分析,构成了Altschool在精准教学管理方面的整体解决方案。

可见,通过系统化数据采集,采用科学方法建立的数据模型,可以帮助教育管理者对学校和机构的管理状况进行持续动态监控和综合性评价。在数据支持下,管理者能够更容易地发现管理和教学问题,设计可能的解决方案,并追踪问题解决的成效。

四、教育大数据所面临的挑战

教育大数据领域方兴未艾,既具有巨大的发展潜力,又面临着诸多的挑战。我们认为,这些挑战包括数据标准、数据采集、模型构建、产品服务和开放共享和隐私保护等方面,具体如图7所示。

教育大数据的核心技术、应用现状与发展趋势

图7 教育大数据应用所面对的挑战

(一)数据标准有待完善

大数据分析需要多来源、多类型数据的汇集,数据汇集需要建立统一标准与规范。教育部于2012年发布了《教育管理信息教育管理基础代码》等七个教育信息化行业标准,对教育管理、行政管理、教育统计、中小学、中职学校和高等学校管理的信息进行了规范。这一规范,虽然对统一教育管理信息有着重要意义。然而,教学环境、教学过程相关数据标准尚存大量空白。同时,近年来在线教育蓬勃发展,其数据标准也尚未建立。上述标准的缺失,成为了教育大数据有效应用的瓶颈。

(二)数据采集覆盖面窄

“十二五”期间,我国教育管理公共服务平台基本建成,教育管理数据的收集具备了较好的条件。但其他教育教学数据,特别是教学过程数据的采集,尚存在较大不足。现有在线学习平台在设计上,往往并未考虑数据分析的需要,对教与学过程的记录不够完整,对数据的分析应用造成了困难。近年来,各高校和部分中小学开始进行智慧校园建设,传感器、Wifi网络、移动设备等技术手段,为更全面的数据采集提供了一些条件。但在现有智慧校园建设中,对数据应用尚缺乏整体设计,对数据采集的支持还远远不够。

(三)模型构建专业性不足

数据模型是对教学与管理进行有效监测、评价、诊断和预测的核心支持。从教学的适应性到管理决策支持,都需要通过科学的模型来支撑。但在现阶段模型构建过程中,教育大数据模型构建的专业化水平明显不足。一方面,教育研究成果没有得到很好地应用,教育领域专家知识应用明显不足;另一方面,前沿数据分析方法与技术的应用不足,未能有效借助通用大数据技术的力量。

(四)产品服务单一

在我国教育领域中,以网龙、科大讯飞、猿题库、优答、一起作业、学堂在线为代表的企业,都开始对教育数据的分析与应用展开探索。但总体而言,目前,我国教育大数据相关应用主要聚焦于适应性教学,题库类产品居多,缺乏管理类的应用,对于教学决策的支持不足。同时,教育数据分析应用在功能上较为单一,所采用的分析方法也有一定局限,统计分析仍占有很大的比重,缺乏高水平产品与服务。

(五)开放共享尚未形成

教育大数据的重要价值,首先来自于其数据的大规模和全面性,规模的形成需要广泛的数据共享与开放。当前,行之有效的数据共享开放和应用规则尚未建立,所以,还需要建立有效的资源共享机制,通过多种途径汇聚教学,研究和管理数据,扩大数据的规模,才能形成教育大数据的独特优势。

(六)隐私保护有待完善

教育大数据涉及庞大规模的受教育者与教育者群体。对于这些人群,特别是对于大量的未成年学生而言,隐私保护至关重要。所以,应当从法律上明确、规范公开数据与私有数据的边界,有效的保护隐私数据。在来源清晰、责权明确、应用有序的前提下,才能有效地开展教育大数据研究与应用。

我国教育大数据领域正处于起步阶段。教育大数据研究与应用具有鲜明的特点,其发展需要将大数据技术与教育领域进行深度融合。在“互联网+”时代,为了更好地应对教育大数据所面临的一系列挑战,我们认为,目前迫切需要在体制与机制上,多方协同,各尽其力,以形成一种合力,如图8所示。

教育大数据的核心技术、应用现状与发展趋势

图8 教育大数据发展需要多方合力

具体来说,教育主管部门需要推动教育大数据方面的相关法律、法规的制定,划定边界,明晰责权,建立更加全面的教育数据标准,为国家层面的大规模数据共享和分析奠定基础。以学校为代表的教育机构,需要提升数据驱动教学与管理的意识,构建综合数据采集环境,并建立数据管理与应用机制。一些研究机构需要将教育科学与数据科学紧密结合,开展多学科协同研究,并注重研究成果的转化。公司、企业则需要从教学与管理的整体流程出发,设计与开发多元化产品,并根据教育需求提供灵活可扩展的定制化服务,从而共同促进教育大数据的健康发展,更好地服务于教育事业。

参考文献:

[1]Turck M.Is Big Data Still a Thing?(The 2016 Big Data Landscape)[EB/OL].[2016-02-01].http://mattturck.com/2016/02/01/big-data-landscape/.

[2]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014,(9):1889-1908.

[3]与Hadoop对比,如何看待Spark技术?[EB/OL].[2016-04-06].https://www.zhihu.com/question/26568496.

[4]O'Brien J.Critical Factors for Data Lake Success[EB/OL].[2015-09-01].

http://www.teradatamagazine.com/v15n03/Tech2Tech/Critical-Factors-for-Data-Lake-Success/.

[5]Cisco.Fog Computing and the Internet of Things:Extend the Cloud to Where the Things Are[EB/OL].[2015-04-15].

http://www.cisco.com/c/dam/en_us/solutions/trends/iot/docs/computing-overview.pdf.

[6]Norton S.CIO Explainer:What Is Blockchain? The Wall Street Journal[EB/OL].[2016-02-02].

http://blogs.wsj.com/cio/2016/02/02/cio-explainer-what-is-hlockchain/.

[7]周明耀.Spark Streaming指南[EB/OL].[2015-08-03].http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-streaming/index.html.

[8]Li F.Convolutional Neural Networks for Visual Recognition[EB/OL].[2016-01-20].http://cs23 ln.stanford.edu.

[9]刘红,胡新和.数据革命:从数到大数据的历史考察[J].自然辩证法通讯,2013,(6):33-39,125-126.

[10]祝智庭,沈德梅.基于大数据的教育技术研究新范式[J].电化教育研究,2013,(10):5-13.

[11]喻丰,彭凯平,郑先隽.大数据背景下的心理学:中国心理学的学科体系重构及特征[J].科学通报,2015,(5/6):520-533.

[12]范长煜,朱艳婷,高雅静.大数据在社会科学中的价值:以DMSP/OLS夜间灯光数据为例[J].华东理工大学学报:社会科学版,2016,31(1):1-9.

[13]SAP.Roambi Analytic Understand Your Numbers[EB/OL].[2016-06-29].https://roambi.com/.

[14]Tableau.5 Steps to Self-Service Analytics that Scales[EB/OL].[2016-06-29].http://www.tableau.com/.

[15]国务院.国务院关于印发促进大数据发展行动纲要的通知[EB/OL].[2015-09-05].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

[16]Big Data-Wikipedia[EB/OL].[2016-06-29].https://en.wikipedia.org/wiki/Big_data.

[17]McKinsey Global Institute.Big Data:The Next Frontier for Innovation,Competition,and Productivity[EB/OL].[2016-06-15].

http://www.mckinsey.com/business-functions/business-technology/our-insights/big-data-the-next-frontier-for-innovation.

[18]Gartner.Big Data[EB/OL].[2016-06-29].http://www.gart ner.com/it-glossarybig-data/.

[19]郑燕林,柳海民.大数据在美国教育评价中的应用路径分析[J].中国电化教育,2015,(7):25-31.

[20]胡弼成,王祖霖.“大数据”对教育的作用、挑战及教育变革趋势——大数据时代教育变革的最新研究进展综述[J].现代大学教育,2015,(4):98-104.

[21]杨现民,王榴卉,唐斯斯.教育大数据的应用模式与政策建议[J].电化教育研究.2015,(9):54-61,69.

[22]Edshelf.Masteryconnect Review[EB/OL].[2016-06-29].https://edshelf.com/tool/masteryconnect/.

[23]PAR.Predictive Analytics Reporting Framework[EB/OL].[2016-06-29].https://public.datacookbook.com/public/institutions/par.

[24]Kiesinger.Baker R.,Cunningham K.,et al.A Data Repository for the Leaming Science Community:The PSLC DataShop[J].Handbook of Educational Data Mining,2010.

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

大数据 信息化 大数据技术 大数据应用 基础设施 雾计算
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...