大数据时代的教育研究
发布时间2017-12-26 13:16:39     作者:admin     浏览次数: 次

来源:《清华大学教育研究》2017年第5期  作者:丁小浩

 

 

要:本文讨论了大数据时代的教育研究,特别从研究的几个环节具体分析了大数据驱动的教育数据挖掘的研究范式与传统研究范式的异同,旨在表明迄今为止大数据的研究方法论主要是探索性数据分析方法论,应被看作为教育研究提供了新的补充的途径而不是替代的途径。

关键词:大数据;教育数据挖掘;测量;抽样;因果;相关

 

一、大数据与大数据研究

近年来,大数据概念的兴起和应用在众多领域方兴未艾,蓬勃发展,深刻地影响并改变着人们的思维方式和生活方式。

大数据作为特定的专有名词变得普及应该是20世纪90年代以来的事。Usenix公司的约翰·马谢被认为是首创或者至少让该概念流行起来的人[1]。比较流行和权威的关于大数据特征的描述包括:Meta集团(后并入Gartner集团)2001年在谈到数据增长的挑战和机会时,将大数据的特征概括为3V,即数据量巨大(volume),数据输入输出快速(velocity),数据类型和来源种类多样(variety)。3V的定义被广泛使用,一些机构还将3V扩展到4V、5V、6V甚至7V,例如继3V之后人们又加上了真实性(veracity)、低价值密度(value)等。网络化汇集和网络化存储、形态数字化、非结构化、在线流动、传统软件工具难以捕捉、管理和分析的大容量是大数据具有的特征。由于超出了常用传统工具在可容忍的时间内捕获、策划、管理和处理数据的能力,大数据是需要用新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。[2]

大数据最大的特点之一是把世间许多之前从来没有能够量化的方面数据化了。比如,继经纬度的发明之后,GPS卫星导航系统提供了来自于位置信息的大数据;大数据不仅可以分析文字记录的文本信息,还可以分析包含图像、音频、视频等非文字记录的超文本信息,特别是可以分析微信、QQ、BBS等社交平台记录下来的人与人沟通互动的信息。

如果说因特网让大数据的收集和分享更容易,那么大数据不仅沟通信息,还使得人类可以从海量数据中探索很多在应用小数据时不可能注意到以及不可能理解的东西。类似于当初微生物学家刚刚使用显微镜时的感觉,社会科学家们突然发现随着大数据时代的到来,许多领域大量的信息可以用来了解和探求被认为非常棘手的影响人类社会的问题。例如,研究人员曾经主要依赖受害者调查来研究犯罪,而现在有大量的实时地理编码事件报告可用;要了解民意,除了对受访者进行随机调查之外,研究人员可以每天收集数亿个社交媒体帖子,并使用新的自动文本分析方法提取相关信息;随着基因组学、蛋白质组学、代谢组学和脑成像产生了大量的人体变量,这些领域的研究人员加入了对行为表型的测量,使得部分生物科学正在成为社会科学;与此同时,计算机科学家和物理学家正在通过新的分析方法和数据收集方案研究社会科学数据。[3]大数据被认为是继计算机、互联网之后的第三次信息产业浪潮,它的应用在商界、医疗界等都带来了许多激动人心的成功,不仅如此,它还深远地影响了政府的工作模式,对政府在促进社会发展、提供公共服务的职能方面起到了积极作用。

曾几何时,闻名于世的埃及亚历山大图书馆被认为收藏了人类的所有知识。然而当今人类所拥有的知识总量呈爆炸式增长,如果平摊,则每一个世人的知识拥有量大约是当年这座宏大图书馆馆藏的320倍,把这些信息存到CD盘后摞起来,可以在地球和月球间矗立5个通天柱。而令人更为惊叹的是,这种信息量的大爆炸主要是近些年的事情。公元2000年左右,电子数据还只占总数据储存量的1/4,其余部分存储在纸张、胶片及其他介质上。由于电子数据存储量以大约每3年翻倍的速度剧增,其比例已经增到98%以上。[4]实际上,数据量的“大”和“小”并没有绝对的边界,其范畴是随时代而不断变化的。例如含有1万名学生、每生含5000字节记录的数据库,大约需要50兆字节的存储空间,这在上个世纪大约应该算是一个很“大”的数据集了,但是现如今动辄就包含成百上千万条记录,以百亿亿字节计量的数据库并不罕见。

二、大数据与教育数据挖掘

大数据时代催生了教育数据挖掘(EDM)领域的发展。教育数据挖掘是为了探索来自教育场景的独特且日益庞大的数据,并使用这些方法更好地了解学生以及他们学习的环境。[5]教育数据挖掘为从大量教育数据中发现潜在有用的信息提供了手段,学习分析(LA)成为教育数据挖掘的核心,传统的教育技术、智能教学系统、教育游戏、学习管理系统等均产生持续增长的大量数据,成为分析研究的可用数据。对成千上万MOOCs学生的教学反馈和评价近年来也成为研究的新兴趣点。[6]2008年起已有国际范围的教育数据挖掘年度会议;2009年创办了专业杂志《教育数据挖掘》。2005年之前,进行教育数据挖掘的研究人员需要收集自己的教育数据,而之后这种状况发生了改变,例如匹兹堡科学学习中心开设了一个公共数据存储库(PSLC DataShop),使得大量来自各种在线学习环境的数据免费提供给全球研究人员;研究人员越来越多地通过使用开源在线学习平台(例如Moodle)和网页分析工具(例如WebCAT),分析世界各地的大量学生所使用的现有在线课程的情况。[7]种种变化表明,学生、教师、教育科研人员和管理者都不同程度地参与到该领域的发展,并受到影响。教育研究在预测学生学习行为、发现和改进既有的学生发展和教学策略模型、增强教育实验的评价效果等方面的努力和探索,似乎借力于大数据概念的兴起,给人们带来无限的憧憬和希望。

然而必须看到,迄今为止,基于大数据的学术研究取得的突飞猛进的进展多是在计算机并行处理、数据挖掘方法、云计算、互联网和存储系统等技术领域。教育数据挖掘、教育中的人工智能、智能辅导系统和用户建模等虽然受到了不少关注和应用,但真正属于使用大数据的教育科学研究还鲜有突破性进展。实际上,探索和推进大数据的分析和手段,基本是计算机行业、统计和数学专业的工作者的科研地盘。作为教育相关领域的研究者,我们只需坐享搜索、计算和存储技术进步带来的科技成果就可以了。然而,教育研究的发展不单纯是方法和技术的进步,因为方法和技术始终是为研究目的服务的,教育研究的进步需要教育研究人员与大数据开发技术人员的密切合作,在解决研究问题中应用新方法,在应用新方法中提出并回答新的研究问题。所以数据规模的“大”对教育研究者而言并不是最本质的,我们需要认真思考的是大数据对传统研究范式带来的机遇和挑战究竟是什么。下文按照研究设计的几个环节来谈谈我对大数据对教育科研真正意义的理解。

三、大数据对教育研究的影响

(一)关于研究议题

教育数据挖掘研究的选题大体聚焦在以下方面①:(1)完善学生模型。学生模型反映了学生的特征或状态的信息,如学生知识掌握、动机、元认知和态度等方面的情况。对这些领域的学生个人差异进行模式归纳和提炼,使相关的教育软件能够针对个体差异提供措施,显著提高学生的学习能力。虽然以往的教育研究一直关注这类主题,但大数据驱动的教育数据挖掘方法的发展使研究人员能够引入更广泛的、潜在的学生属性,并进行实时建模。一些角度是过去传统研究不可能深入到的层面,例如,研究人员使用教育数据挖掘方法来推断学生在学习过程中是否经历了过低的自我效能阶段,是否分心,是否感觉无聊或沮丧,并结合教育软件之外的数据扩展学生模型,以确定哪些因素可能预测学业失败。(2)探索和改善知识结构模型。例如通过心理计量方法与机器学习中空间搜索算法的结合,一些研究人员开发了可以直接从数据中寻找有关领域知识结构的计算机自动表述方法。(3)教学支持和管理(包括学习软件和诸如协作学习行为等领域),旨在发现哪种类型的教学支持和管理最有效。(4)寻找经验证据来改进和扩展教育理论及众所周知的教育现象,以便更深入地了解影响学习的关键因素,进而改善学习系统和学习方法。

从以上议题分类可以看出,教育数据挖掘除继续教育研究的传统议题外,确实因大数据而可以切入一些过去教育研究不可能进行的新的研究问题和角度,例如,游戏系统(gaming the system)就是一个有趣的例子,研究人员利用大数据,研究学生是如何利用系统设计的漏洞来“游戏”系统的:在教学智能系统中,一些使用者试图利用系统的特性而不是对知识的掌握,投机取巧地获取高分。研究者可以通过使用者在传感器上留下的行为痕迹,对这类现象进行深入研究,而以往传统的分析方式很难获取相关信息,当然就更谈不上深入地实证研究。类似的例子比比皆是。

(二)关于测量工具

以往我们靠传统的调查数据进行定量研究,其调查是有明确的目的和针对性的。研究者需要使用特定的测量工具,对要研究的概念进行测量,而很多概念是研究者建构出来的,是现实世界中原本不存在的。人们用这些概念进行交流,但是对概念的内涵并没有共识,因此测量这些概念所产生的信度和效度偏误会或多或少地威胁到研究的内部和外部的信、效度。大数据则不同。有许多大数据是人们活动行为的实时的和真实的记录,鲜受人类记忆、偏好和情感的干扰,这将会在很大程度上排除人们因主观性以及对概念的误解等因素对调查内容的误填和烂填。从这个角度看,大数据可以在一定程度上减少测量误差,提高基于数据资源的研究结果的效度和信度。例如传统研究中我们通过抽样调查了解学生在校发展状况,这些调查内容常常是靠学生的主观自评和不准确的记忆回溯获得的,于是研究者始终会挣扎于论证这种调查工具的信、效度。而教育系统的大数据主要包括了学生成长过程中留下的行为和活动等各类数据,比如他们在各类传感器上留下的时间分配和各类活动的信息,这些记录会实时地和如实地被记录汇集,真实而客观。于是人们可以把学生在校期间的所有“有痕”信息拼接起来,构成一幅较为完整的“学生画像”。不仅如此,人们还可以将学生进入劳动力市场之后留下的各种“痕迹”记录下来,并与学生时代的行为续拼起来,构成一幅更加完整的“人生画像”,这为深入认识和探讨教育与人的发展的复杂关系提供了新的可能性。

大数据时代拓宽了传统教育研究对测量数据的界定,历史文本、在线课堂、社交媒体、多媒体等结构化、非结构化、关系型的数据都可以成为研究对象,这使得研究可以突破传统研究测量结果囿于文字和数字的局限性。如今人工智能、机器阅读、机器识别和机器学习等领域突飞猛进的方法进步,使得传统定量研究极不擅长,而主要靠质性研究分析和处理的非结构化和半结构化的信息数据的能力得到了极大发展,其前景值得期待。

大数据的新理念跟人们几百年来要求数据“纯粹”和“精准”的理念不同。对数据精准度的痴迷是有限信息环境下的人为产物。当没有足够信息的时候,研究人员不得不尽量确保所收集的“小”数据越准确越好。而大数据时代常常可以以一定程度的测量不精确为代价,换取海量数据所带来的洞察力和解释力。

但是,没有人为干预的大数据并不能构成有价值的教育研究数据的全部,它们甚至仅仅只是教育研究可以利用的数据的很小的一部分。大数据在记录人们在各种传感器上留下痕迹的客观行为时是有用武之地和得天独厚的,但是在记录人们的观念、看法、思想、感受等主观的东西时常常是有很大局限性的,即便大数据能收集到人们在社交网络平台上态度、观点的表达,但是这些表达也会是不全面的、不能包罗万象,不可能覆盖研究者所关注的所有议题,而且因为各种复杂的原因(例如受主流价值观和社会赞许的压力,人们真实意愿的公开和客观表达会受到影响),大数据记录下的观点可能会或者异乎寻常的激进,或者异乎寻常的中庸,并不能反映表达者的真实看法,缺乏客观性和真实性,偏离人们日常的真实状态。所以大数据并不能完全解决测量方面的问题,对传统调查而言大概在一个可见的未来还只能是一种补充,而不可能成为替代。

(三)关于研究对象

传统上,由于收集信息和处理信息的成本,取样成为人们调查研究的主要方式。由于收集、整理、存储及分析信息的工具的局限性,人们一直利用相对少量的数据进行研究,把所依赖的数据限制为尽可能小,从而可以更容易使用的信息。定量研究试图通过随机抽样的样本特性推断总体特性,这是现代统计学的精妙之处。起源于19世纪末的统计学使人类可以依据少量的数据理解复杂的现实。但如今,技术环境发生了根本性的转变,虽然人们可以使用的数据量依然会受到限制,但是比起过去的限制已经小了很多,并且随着时间的推移,限制会越来越少,这使得人们可以对特定总体进行全纳性的分析,而不必须是有目的的抽样调查。传统抽样是有成本的,再加上人们往往难以得到完整的抽样框,难以确定总体结构的准确信息,因此常常不能把握样本分层后的抽样比例等。大数据使得廉价便捷地获取总体数据成为可能。维克托·舍恩伯格等在《大数据时代》中将大数据的一个特征概括为不用随机分析法(抽样调查法),而采用总体的所有数据进行分析处理。根据这一特性,大数据分析的样本常常可以做到等于或者近似等于目标总体的全部。这带给教育研究的机遇有可能是排除了样本与总体之间的差异,排除了抽样带来的系统误差,排除了样本的选择性偏差等。由于研究对象就是总体,所以奇异值和极端值在样本中的干扰也将不会是一个严重问题。这对教育研究是很有价值的,研究者可以忽略困扰外部效度的样本代表性问题。过去当人们收集“小”数据的时候,必须事先决定收集哪些数据和如何应用这些数据,也就是说定量研究的研究设计必须先行,而对于大数据,不需要在研究之前知道如何抽样和测量,因为数据都已经在那里了。虽然收集所有数据并不总是可行的,但是收集到一个现象的大部分数据比收集一个随机样本更可行。大数据的关键不是建立更大的样本,而是利用尽可能多的相关的既有数据。所以,基于大数据的教育研究仍然需要统计学,只是不再完全依赖小样本,而可以从海量数据中发现小数据中不可能发现的东西。

当然,因为大数据的所谓总体常常是特定的、局部的,人们最终还是要关心此总体的结论是否适用于彼总体。于是问题从样本到总体的推广性会演变为此总体到彼总体的推广性,更何况还存在不能在相关传感器上留下足够痕迹的人群产生的总体代表性的偏差。由于教育大数据主要是在网上能够留下痕迹的学习者的行为记录,数据代表性不可避免地存在局限性,因此大数据方法最终还是要与传统的小数据调查方法相结合。

另外,用历史预测未来并不是大数据独有的逻辑方式,所谓“黑天鹅事件”的发生是传统的小数据分析时代就面临的,是归纳逻辑无法绕过的困境。大数据并不能彻底实现数据的全纳。当人们试图用过去发生的来归纳和凝炼规律并预测未来的时候,未来的总体通常并不等于过去的总体,即大数据依然会面临“黑天鹅”困境,这是所有以过去预测未来的归纳逻辑天然的局限。所以要避免被预测误导,需要消除对大数据分析范式的盲目乐观。

(四)关于大数据的分析方法

传统的定量研究使用的大多是统计学的方法。统计学已经经历了数个世纪,有牢固的数学基础,是一门发展成熟的学科。传统统计学处理的数据是小而纯的,通常是对单一数据集的深入分析,检验数据是否具有预先假设的某种关系,目标总体是被清晰定义的,样本是遵从独立同分布条件的,是被随机抽取的,并且数据都是以数字的形式被记录和收集的。

而大数据驱动的数据挖掘是一个新兴的交叉学科,涉及统计、数据库技术、模型识别、机器学习等领域,既包括了数据管理又包括了数据分析,是较新的,正在发展的学科,它本身鲜有独特专属的方法,主要是借用其他学科的方法,常用方法包括决策树、神经网络、关联规则、聚类分析等。与传统的统计学相比,数据挖掘所面对的数据量通常非常之大,可能处理的是成百上千倍传统统计分析的数据量,难以在一台计算机上独立完成计算和分析,需要通过云计算等手段,动用成百上千万台分布在各地的服务器,这是传统统计学面临的完全不同的条件;数据挖掘不囿于数字化、结构化的数据格式,语音、图像等各类超文本格式都可以作为分析的对象;不同于传统的分析模型,数据挖掘也试图模式化数据,但研究者并没有一个先验假设,不需要预先设定拟合模型的形式,而是更强调从数据中提取信息的模式(paterns),也即数据挖掘强调的是发现数据的局部的模式而不是建立数据的通则式的模型(models),并试图将其转换成可以理解的结构。数据挖掘可以靠计算机软件自动寻找某种相对最优的数据拟合链条,所以其结果常常是复杂的、难以解释的,但却有较好的拟合结果和预测功能。

除了统计分析,数据挖掘还涉及到数据库和数据管理、数据预处理、模型与推断、兴趣度度量、复杂度,以及发现结构、可视化及在线更新等后处理,并且教育数据挖掘方法通常比普通的数据挖掘方法更多地使用多水平分层且非独立的教育数据。

以往研究者所面临的挑战通常来自数据不足,而大数据让研究者伤脑筋的恰恰是数据过多。比如,在使用传统的统计方法时,人们通常要做显著性检验,也就是样本统计量和假设的总体参数之间的显著性差异。显著性检验是依据小概率事件原理,控制犯第一类错误(“弃真”)的可能性。[8]但是显著性检验是受样本容量影响的,当数据量非常大的时候,这种分析逻辑就发生问题了,即:控制一类错误的策略有可能夸大研究的因变量在现实中微不足道的影响效果。再例如,如果样本不是来自一个假定的分布总体,对于以往的小数据可能不是大问题,而对于大数据而言,成百上千万污染数据的存在就不是一个可以忽略的问题了。再例如,经典的统计方法的前提一般需要假定目标总体的构成是稳定清晰的,是独立同分布。而大数据则常常很难遵循这样的前提假定,其目标总体甚至会发生改变,产生所谓的总体漂移(population drift)[9],而在许多情况下,总体的改变还是不易察觉的。因此大数据很可能包含各种各样的选择性偏差,其可能就是方便选样而根本不是经典统计学里强调的随机抽样。假如考虑研究结论的可推广性,分析对象的代表性依然是必须考虑的。

综上所述,传统的对单一数据集的统计分析方式常常并不适合大数据挖掘。还需要提及的是,尚缺乏能够完全替代人工干预的计算机软件自动有效地发现数据模式。

(五)关于相关性与因果性的问题

流行的观点认为大数据强调的是相关性,不在乎是否是因果。[10]因为大数据在探索性数据分析方面有其独特的优势,许多情况下大数据的使用就意味着以放弃理解“为什么”为代价换来对“是什么”的了解,研究者的注意力从传统研究关注现象发生的深层原因转移到关注事物间的相关性和利用相关性解决相关问题。当人们还不知是什么的时候,确实无法深入了解为什么。知道事情发生的原因是科学研究追求的价值取向,但要证明真正的原因其实是非常困难的,当人们认为找到了原因,其实常常只是假象;行为经济学揭示了人们容易在实际没有原因的情况下认为知道原因。

教育研究可以分成几类,其中包括预测性的和解释性的。如果研究的目的是为了预测,而通过相关关系可以很好地进行预测,那么即便这种相关关系不能被很好地解释,只要预测结果好用,相关关系就是有价值的,就是能提高研究的生产力的。但是人类研究的重要目的常常需要进行理论解释,即不仅需要知道其然,也想知道其所以然,所以人类追求对因果关系的认知和理解不会因大数据的出现而消亡。在小数据的研究传统中,我们一直警惕并努力排除所谓的伪相关性,看起来毫不相关的两件事同时或相继出现的现象比比皆是,所以相关性常常是有误导性的,本身并没有多大价值,关键是要找出“相关性”背后的原因,才是新知识或新发现。沃尔玛可以不问缘由,仅仅因尿布与啤酒销量的正相关而采取相应的销售对策[11],但是教育研究者和政策制定者一定不能仅仅依据一些无法解释的教育生产函数中的投入与产出的相关关系就贸然地改变教育投入策略,因为相关毕竟不是因果,如果相关是伪相关,而我们因不理解投入对产出的真实影响及其作用机制就贸然行动,变革的结果会是灾难性的。

尽管一些来自大数据的相关分析结果在一些领域带来了一定的商业价值和令人瞩目的应用前景,但恰恰是因为许多结果不能在因果层面给予合乎逻辑、合乎人类认知的有效解释,所以在社会科学研究领域,也包括教育研究领域,能经得住时间和学术标准检验的重要研究结果还是比较鲜见的。

事实上,社会科学使用大数据的一些研究结果也并没有止于相关性分析,追求结论背后的理论解释,探讨因果关系是研究者更高层次的探索和追求。例如在社会科学领域,约翰·格里等人曾收集了在国家、地域和区县等多层次的选举档案的大数据来研究政体大小与民主的因果关系。约翰尼斯·本德勒等人对Twitter用户数据的研究发现,用户对诸如餐厅、酒吧、银行、博物馆等的兴趣与用户在该兴趣点发布的Twitter消息之间存在着因果关系。[12]

大数据时代不应该也绝对不是“理论终结”的时代。相关代替因果,用相关性代替因果性并不是大数据所具有的方法论哲学的天然的基础,而仅仅反映了现实中人们对大数据挖掘特点及其局限性的一种妥协甚至是无奈。关于因果的认知没有共识,争论会继续下去,但追求因果是社会科学研究(包括教育研究)和创新的动力所在,人类永远不会满足于用相关代替因果,而大数据应用的性质实际上可以算作一种为因果关系的研究铺路奠基的探索性数据分析,而不是小数据研究范式的替代。

四、结语

通过以上对研究设计几个环节的分析,我们可以看出以大数据驱动的数据挖掘的分析范式是一种探索性数据分析的范式,旨在对数据进行定量描述和定量概括,发现变量间的相关性,在性质上类似于传统研究中理论建构和假设检验之前的数据预处理,不受分析模型和研究假设的限制。大数据挖掘技术方法的发展在一定程度上解决了数据因大体量、无结构、半结构、多渠道、多类型、快增长等特性在贮存、调用、数量化、计算等方面所产生的问题,从而推动了众多领域大数据的应用研究和快速普及。正因为此,大数据的利用可以产生许多小数据时代无法涉及、难以进行操作的研究问题,并为新理论和新假设的产生提供了可能性。但同时我们必须认识到在一个可预见的未来,大数据范式与小数据范式是不能相互替代的,它们自身的优势常常是对方的劣势,而自身的劣势又常常是对方的优势。虽然大数据在一定程度上可以直接获取人类行为和互动的基本信息,但数据量的庞大、各种信息混杂、信息质量参差不齐,使得大数据本身是一座信息和知识的“贫矿”,信息“品位低”,信息价值密度低,在数据的采、选及冶等方面尚难充分利用。由足够详尽的搜索和拟合产生的数据“模式”可能是过度拟合的结果,仅仅是随机波动的产物,并不代表所研究现象的任何本质的特征。有人用拖网捕鱼形容数据挖掘,意喻它会把各种东西打捞上岸,需要人们再从中甄别有价值的东西。所以大数据挖掘需要好的研究设计和方法的引导,以便提高数据资源的使用效率。大数据和小数据分析的有效结合才是教育研究健康发展的必由之路。

除了上文讨论的研究逻辑和范式的角度外,随着可用大数据的剧增,数据共享、数据管理、信息学、研究伦理和相关政策等方方面面的现有基础都面临着巨大挑战。我们不能盲目乐观,沉浸在五彩缤纷的虚幻泡沫中,而是要脚踏实地地做好准备应对挑战。

五、后记

在此文完稿之时,《自然》上线重磅论文,详细介绍了谷歌DeepMind团队最新的研究成果:新一代的阿法元(AlphaGo Zero)不需要任何历史棋谱的指引,更不需要参考人类任何的先验知识,完全靠自己强化学习(reinforcement learning)和参悟,棋艺增长远超阿法狗,百战百胜,击溃阿法狗。这一报道无疑给本文作者带来了不小的震撼:阿法元的设计理念是颠覆传统认知的,其影响不容小觑。通过摆脱对人类经验的依赖,类似阿法元的深度强化学习的设计理念和算法思路或许也能被应用到教育研究这一领域?而本文的讨论和分析基本都是建立在作者对现有研究范式和先验知识理解基础上的,在看到阿法元之后,作者感觉有必要进一步深入思考和讨论这个议题,当然这是下一步计划的事情了。

 

注释:

[1]维基百科.大数据[EB/OL].https://en.wikipedia.org/wiki/Big_data.

[2]维基百科.大数据[EB/OL].https://baike.baidu.com/item/大数据/1356941.

[3]Gary,K.2011,Ensuring the Data-rich Future of the Social Sciences.Science331,6018:719-721.

[4]Kenneth,C.and V.Mayer-Schoenberger.2013.The rise of Big Data:How It's Changing the Way We Think About the World,Foreign Affairs,92(3),28-40.

[5]Http://www.Educational datamining.org.

[6]John,S.,Zachary,P.,Manolis,M.,and Bruce,M.M.2014.Proceedings of the Seventh International Conference on Educational Data Mining.

[7]Baker,R.S.J.D.,and K.Yacef.2009.The State of Educational Data Mining in 2009: A Review and Future Visions Journal of Educational Data Mining,Article 1,1(1).

[8]显著性检验可能会导致两类错误:当原假设为真时,却错误地拒绝了它,于是犯了第一类错误(即所谓“弃真”);当原假设不真时,却错误地接受了它,于是犯了第二类错误(即所谓“存伪”)。

[9]David,J.1998.H and Data Mining:Statistics and More?The American Statistician,52(2),112-118.

[10]维克托·舍恩伯格在他的著名之作《大数据时代》明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,取而代之关注相关关系。

[11]据说这一流传颇广的案例仅仅是Teradata公司一位经理为宣扬大数据之神奇而杜撰出来的“故事”。

[12]刘林平.规律与因果:大数据对社会科学研究冲击之反思[J].社会科学,2016(9).

 

The Educational Research under the Context of Big Data:Opportunities and Challenges

DING Xiaohao

 

Abstract:This study discusses the opportunities and challenges of educational research in the era of big data.It particularly analyzes the differences and similarities between classic research paradigms and the educational paradigms of researching big data.It aims to illustrate that the latter paradigms are one kind of explorative methodologies,which should be regarded as a new supplement kind,rather a replacement kind.

Key words:big data;data mining;measurement;sampling;causal relationship;relation

 

责任编辑:李威