大数据及其在教育中的应用

文章来源:未知     责任编辑:武汉软件工程职业学院    时间:2017-03-03  点击数:

大数据及其在教育中的应用

[关键词]目前对大数据的定义有三种,分别从数据体量、复杂性程度、价值这三个角度来界定,反映了大数据三个最主要的特性。大数据在教育领域的主要应用是教育数据挖掘和学习分析。今后要加强多个来源的数据库整合,充分利用在线数据开展教育舆情分析等研究,在确保数据安全的前提下与专业数据公司开展合作。

[关键词]大数据数据挖掘学习分析

一、大数据的定义和类型

1.定义

“大数据”概念第一次创造出来是在2008年9月4日,谷歌成立10年前际,《自然》推出了大数据专辑,包括8篇大数据专题文章加上1篇编者按。虽然该专辑并没有直接提出大数据的定义,但是从互联网技术、网络经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据带来的挑战。概括而言,科学研究产生的数据集越来越大,并且数

据越来越复杂,使得研究人员都转向依靠数据挖掘工具、在线的团队合作(如维基百科)和复杂的可视化技术。每年的研究数据聚合起来形成了大数据资源,依靠研究者自身去花大量精力记录和管理数据已经跟不上发展,科学研究数据的长期管理和维护需要有大机构的支持。但是政府、社会机构对此还没有充分认识,文化还跟不上数据的发展。这组文

章的目的是引起各方面对数据管理和分析的重视,指出充分利用数据实际上是需要额外建设大量基础设施、需要经费和资源支持、需要建立标准、需要工具和培训、需要专业的数据支持服务的。

目前对大数据的定义有三种,分别从数据体量、复杂性程度、价值这三个角度来界定什么是大数据。

第一次提出大数据的定义并且估计大数据的商业价值的是全球著名咨询公司麦肯锡。2011年麦肯锡全球研究院发布了《大数据:创新、竞争和生产力的下一个新领域》,研究了数据和文档的规模,同时分析了处理这些数据能够释放出的潜在价值。麦肯锡对大数据的定义是从数据集的“大体量”人手的:大数据是指那些规模大到传统的数据库软件工具已

经无法采集、存储、管理和分析的数据集。麦肯锡故意采用了主观的定义,没有定义多大的数据集才是大数据,所以这个定义中的“大”是动态的概念。他们的假设是,随着技术的进步,随着时间的推移,符合大数据界定的数据集大小也将增加。还有,不同部门对大数据的界定也可能不同,这取决于他们通常用什么软件,以及某个特定产业的数据库是多大的。在考虑这些因素后,许多部门的大数据规模将从几十

个TB到多个PB(几千个TB)。维基百科采纳了麦肯锡的定义,认为大数据是一组庞大而复杂的数据集的集合,大且复杂到难以用现有的数据库管理工具或传统的数据处理应用来处理。我国学界也采用了这一定义。

德勤咨询技术负责人罗伯特·福莱对大数据的定义是从“复杂性程度大”人手的。他在2012年提出,过去对大数据的界定主要基于规模,而实际上,规模并不是常规数据和大数据的关键区别。他对大数据的定义是:有用的数据源排列数量巨大,使有用的查询非常困难,并且,复杂的相关关系使得排除很困难。大数据的第一个属性是复杂性,大不是数量大,而是复杂性更大。例如一架飞机上有10万个传感器,产生的数据流要查询起来非常困难,但它的规模可能没有想象的那么大,1小时的飞行中产生的数据不到3G。而有些数据集很大,例如媒体流,生成量非常大,但是它的结构并不复杂,现在的搜索引擎和数据库工具可以很快将它解析出来。所以媒体流只是数据数量大,但复杂性程度却没有飞机传感器产生的数据那么大。大数据的另一个属性是很难删

除,使得隐私成为共同关注的问题。例如,从收费公路数据中清除与某个汽车司机相关联的所有数据几乎是不可能的,如果删除的话,传感器计数的汽车数量将不再与个人的计费记录匹配,也与公司收到的款项不平衡。我国学者李国杰也指出,大数据往往以复杂关联的数据网络这样一种独特的形式存在。

维克托·迈尔一舍恩伯格在《大数据时代》一书中主要从“价值大”的角度来定义大数据,他认为大数据是当今社会所独有的一种新型的能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。

《上海推进大数据研究与发展行动计划》对大数据的概念做了较全面的概括:大数据有三层内涵:一是数据量巨大、来源多样和类型多样的数据集;二是新型的数据处理和分析技术;三是运用数据分析形成价值。

2.类型

大数据可以根据来源区分为三种类型。

(1)科研数据。以数据为中心的传统学科(如基因组学、蛋白组学、天体物理学和脑科学等)的研究产生了越来越多的数据。例如,用电子显微镜重建大脑中的突触网络,l立方毫米大脑的图像数据就超过1PB。《自然》杂志最早提出大数据概念也是源于科学研究中产生的大量数据。

(2)互联网数据。近年来大数据的飙升主要还是来自日常生活,特别是互联网公司的服务。谷歌每天要处理24PB的数据,Facebook每天更新的照片超过1000万张[10],生成300TB以上的日志数据,百度每天大约要处理几十个PB的数据。

(3)感知数据。传感网或物联网①的蓬勃发展是大数据的又一推动力。进入移动互联网时代后,移动平台的感知功能和基于位置的服务普及产生了大量感知数据,各个城市的视频监控每时每刻都在采集巨量的流媒体数据,工业监控也是大数据的重要来源,与互联网数据产生了重叠。

科学实验是科技人员设计的,如何采集数据、处理数据事先都已想好了,不管是检索还是模式识别,都有一定的规律可循。而网络大数据和感知数据有许多不同于自然科学数据的特点,包括多源异构、交互性、实效性、社会性、突发性和高噪声等,不但非结构化数据多,而且数据的实时性强,大量数据都是随机动态产生。所以一般而言,社会科学的大数据分析,特别是根据Web数据做经济形势、安全形势、社会群体事件的预测,比科学实验的数据分析更困难。分析这些新记录的事件,需要新的技术来处理非结构化的文本和图像数据、来自多个来源的数据、大量的数据。

3.对几个问题的理解

(1)大数据的门槛究竟是多少?

多大的数据才达到大数据的门槛是一个随时间变化的概念,在2011年麦肯锡公司对大数据做界定时,由于当时传统数据库有效工作的数据大小一般来说在10-100TB,因此10-100TB通常成为大数据的门槛。国际数据公司(IDC)2012年发表第一份全球大数据技术和服务市场报告时也把大数据的规模阈值设在100TB。随着数据库分析技术的发展,大

数据的门槛也在提高,目前一般认为PB级以上数据是大数据。

而根据麦肯锡公司的界定,大数据的阈值还与行业部门有关。据麦肯锡公司对美国所有1000人以上的公司或单位的数据库估计,截至2009年,美国积累的教育数据为269PB,大约为卫生数据的62%/,只有制造业(包含离散制造和流程制造在内)的16%,平均到每个教育单位的数据为319TB,其中大量是视频和音频数据。目前最大的教育国际比较

研究PISA项目的结果数据库只有几个G,如果把已经实施的5轮数据加起来,再加上计算机辅助测试搜集的原始数据,加上个案研究拍摄的视频数据,也只有几百个G。所以在教育界,TB级的数据就可以算大数据了。

(2)只要数据库规模足够大就是大数据了吗?

大数据=海量数据+复杂类型数据。用传统的算法和数据库系统可以处理的海量数据不算大数据。例如,人口普查数据库、经济普查数据库、教育调查数据库、心理测验数据库等等,都有严格的结构,即便各级数据、历年数据累积起来达到了较大的规模,但都是用传统算法和数据库技术就能够处理的,不能算是大数据。

(3)大数据的主要特性是什么?

大数据的主要特性被概括为4个V:体量大(Volume),速度快(Velocity),类型杂(Variety),价值大(Value),还有人提出真实性(Veracity)、复杂性(Complexity)。笔者认为,从大数据的定义来看,体量大、关系复杂、价值大是大数据最主要的特性。

二、大数据在教育领域的主要应用

美国联邦政府教育部技术办公室2012年4月10日发布《通过教育数据挖掘和学习分析改进教与学:问题简介》(以下简称《简介》),指出在教育中有两个特定的领域会用到大数据:教育数据挖掘和学习分析。教育数据挖掘应用统计学、机器学习和数据挖掘的技术和开发方法,对教学和学习过程中收集的数据进行分析,教育数据挖掘检验学习理论并引导教育实践。学习分析应用从信息科学、社会学、心理学、统计学、机器学习和数据挖掘的技术,来分析从教育管理和服务过程中收集的数据,学习分析创建的应用程序直接影响教育实践。

1.教育数据挖掘

早期的教育数据挖掘主要是网站日志数据的挖掘,现在新的计算机技术支持的交互式学习方法和工具(智能辅导系统、仿真、游戏),为量化和收集学生行为数据带来了新的机会。特别是更加集成、更加模块化和更加复杂化的在线学习系统提供了更多类型的数据,其中包含了数据挖掘算法需要的许多变量。教育数据挖掘能发现这些数据中的模式和规律,探索建立预测模型,让我们重新发现和预测学生如何学习。例如,过去对在线课程的评价主要通过课程结束时的学生问卷来评价,Hung,J.L-等(2012)开发了一种在线课程评价方法,通过分析一个学生K-12在线课程的学生学习日志,一共有7539名学生在883门注册课程中的23854527份学习日志,结合学生人口特征数据、课程结束时对学生开展的课程评价问卷调查,对学生进行分类,发现高危学生和高表现的特征,预测学生的成绩,并研究学生表现和对课程满意度的关系。

教育数据挖掘最早也是最普遍的应用是预测学生表现(成绩),近年来,教育数据挖掘的应用已经越来越广泛了,《简介》将教育数据挖掘的目标概括为以下4个方面:

※通过创建把学生的知识、动机、元认知和态度

结合在一起的学生模型来预测学生未来的学习行为。

※发现或改进学科领域的模型,这些模型能够

概括要学习的内容特点和优化的教学步骤。

※研究学习软件能够提供的对不同教学法支持

的效果。

※通过建立综合了学生模型、领域模型和软件

教学模型的计算模型,推进关于学习和学生的科学

知识。

2.学习分析

学习分析主要涉及学业分析、行为分析和预测分析的研究和应用。《简介》采纳了Johnsonetal(2011)对学习分析的定义,指的是对学生学习过程中产生的大量数据进行解释,目的是评估学业进步、预测未来表现、发现潜在问题。数据来自学生的显性行为,如完成作业和参加考试;还有学生的隐性行为,如在线社交,课外活动,论坛发帖,以及其他一些不直接作为学生教育进步评价的活动。学习分析模

型处理和显示的数据帮助教师和学校更好地理解教与学。学习分析的目标是使教师和学校创造适合每个学生需要和能力的教育机会。

学习分析技术对于学生、教师、管理人员、研究人员以及技术开发人员均具有重要价值。对于学生而言,可以从学习者行为角度了解学习过程的发生机制,并用来优化学习,以基于学习行为数据的分析为学习者推荐学习轨迹,开展适应性学习、自我导向学习。对于教师和管理人员而言,可以用来评估课程和机构,以改善现有的学校考核方式,并提供更为深入的教学分析,以便教师在数据分析基础上为学生提供更有针对性的教学干预。对于研究人员而言,可以作为研究学生个性化学习的工具和研究网络学习过程和效用的工具。对于技术开发人员而言,可以优化学习管理系统。

3.教育数据挖掘和学习分析的区别

从上述应用中可以看出,教育数据挖掘和学习分析有共同之处,例如个别化学习、提供反馈,但两者也有区别。Romero从4个方面概括了教育数据挖掘和学习分析的区别:

※技术:学习分析最常用的技术是统计、可视化、系统网络架构、情绪分析、影响分析、话语分析,概念分析和意义建构模型;教育数据挖掘最常用的技术是分类、聚类、贝叶斯模型、关系挖掘和用模型来发现数据中有意义的信息。

※起源:学习分析较多地源于语义网络、智能课程和系统干预;教育数据挖掘较多地源于教育软件、学生建模和预测课程的结果。

※重点:学习分析更重视对数据和结果的描述;教育数据挖掘更重视对所采用的数据挖掘技术的描述和比较。

※发现:在学习分析中,利用人类判断的是关键,自动化的发现是用于实现这一目标的工具。在教育数据挖掘中,自动化的发现是关键,利用人类判断是用来完成这个目标的工具。

三、有关思考

大数据不是指单个数据库,而是数据库的集合。单个数据库可能并不大,但是多个来源的数据库集合起来规模就大了;单个数据库可能只有一种数据类型,但多个不同类型的数据库集合起来,传统数据库就难以处理了;单靠一次考试的成绩难以准确地评价一个学生的发展水平,但是结合态度、行为和背景因素,结合总体学生的表现和其他因素的分布就能够比较准确地对每个学生做出评价了。教育政策制定也是如此,不仅要有教育事业发展数据,还要结合经费数据、人口数据、以及学生表现和学生家庭社会经济背景数据等,才能公平地分配教育资源。所以数据库的集成和共享是大数据研究首先要考虑的问题。目前我们的考试数据、学籍数据、教师数据、事业数据、经费数据、人口数据、研究数据都分散在不同的机构和政府部门,很难形成大数据,这是需要政府部门统筹考虑解决的问题。

目前,“与社会科学有关的大数据问题,例如舆情分析、情感分析等,许多理论问题过去没有考虑过,才刚刚开始研究。借助大数据的推理,社会科学将脱下“准科学”的外衣,真正迈进科学的殿堂。”然而,教育数据挖掘和学习分析研究的议题都是以学生的学习和认知发展为中心的,对于教育舆情分析、德育评价等教育中的难点问题很少涉及。在自然

状态下生成的在线数据,反映了社会和教育的真实。如何利用大数据来了解学生真实的课业负担,了解社会对教育的满意度,了解学生的道德水平,需要教育研究者和数据科学家合作来解决问题。

大数据需要专业研究,需要大机构的支持,需要政府、研究机构和专业数据分析公司的合作。政府负责提供数据或组织搜集数据,研究机构负责设计研究框架和分析结果,专业数据分析公司负责软件开发并提供数据分析模型方面的支持。这其中会涉及到数据安全和存储问题,因为大数据会涉及学生的个人信息,大数据可以重复利用,所以在合作中必须用合同的方式来确保学生个人信息的安全,不被用作商业用途(例如学习产品广告推送),还要确定数据由谁负责存储和维护,谁有权对数据进行二次开发利用。一般应由政府或政府授权的非营利机构负责数据的存储和管理,如果商业公司在完成合同规定的任务后要再次利用该数据库,就需要再次取得政府的授权,避免公司将政府投入经费委托收集的数据用于商业开发和商业化的培训。

Copyright 2018 武汉软件工程职业学院 版权所有 All Rights Reserved

学院地址:武汉市东湖新技术开发区光谷大道117号 邮编:430205 邮箱:whvcse2014@126.com

鄂公网安备42018502001188号  鄂ICP备11010169号-2