数据采集|教育大数据的来源、分类及结构模型
一、 教育大数据的来源
教育是一个超复杂的系统,涉及教学、管理、教研、服务等诸多业务。与金融系统具有清晰、规范、一致化的业务流程所不同的是,不同地区、不同学校的教育业务虽然具有一定的共性,但差异性也很突出,而业务的差异性直接导致教育数据来源更加多元、数据采集更加复杂。
教育大数据产生于各种教育实践活动,既包括校园环境下的教学活动、管理活动、科研活动以及校园生活,也包括家庭、社区、博物馆、图书馆等非正式环境下的学习活动;既包括线上的教育教学活动,也包括线下的教育教学活动。
教育大数据的核心数据源头是“人”和“物”——“人”包括学生、教师、管理者和家长,“物”包括信息系统校园网站、服务器、多媒体设备等各种教育装备。
依据来源和范围的不同,可以将教育大数据分为个体教育大数据、课程教育大数据、班级教育大数据、学校教育大数据、区域教育大数据、国家教育大数据等六种。
二、 教育大数据的分类
教育数据有多重分类方式。
从数据产生的业务来源来看,包括教学类数据、管理类数据、科研类数据以及服务类数据。
从数据产生的技术场景来看,包括感知数据、业务数据和互联网数据等类型。
从数据结构化程度来看,包括结构化数据、半结构化数据和非结构化数据。结构化数据适合用二维表存储。
从数据产生的环节来看,包括过程性数据和结果性数据。过程性数据是活动过程中采集到的、难以量化的数据(如课堂互动、在线作业、网络搜索等);结果性数据则常表现为某种可量化的结果(如成绩、等级、数量等)。
国家采集的数据主要以管理类、结构化和结果性的数据为主,重点关注宏观层面教育发展整体状况。到大数据时代,教育数据的全面采集和深度挖掘分析变得越来越重要。教育数据采集的重心将向非结构化、过程性的数据转变。
三、教育数据的结构模型
整体来说,教育大数据可以分为四层,由内到外分别是基础层、状态层、资源层和行为层。
基础层:也就是我们国家最最基础的数据,是高度保密的数据;包括教育部2012年发布的七个教育管理信息系列标准中提到的所有数据,如学校管理信息、行政管理信息和教育统计信息等;
状态层,各种装备、环境与业务的运行状态的数据;必然设备的耗能、故障、运行时间、校园空气质量、教室光照和教学进度等;
资源层,最上层是关于教育领域的用户行为数据。比如PPT课件、微课、教学视频、图片、游戏、教学软件、帖子、问题和试题试卷等;
行为层:存储扩大教育相关用户(教师、学生、教研员和教育管理者等)的行为数据,比如学生的学习行为数据、教师的教学行为数据、教研员的教学指导行为数据以及管理员的系统维护行为数据等。
不同层次的数据应该有不同的采集方式和教育数据应用的场景。
关于教育大数据的冰山模型,目前我们更多的是采集一些显性化的、结构性的数据,而存在冰山之下的是更多的非结构化的,而且真正为教育产生最大价值的数据是在冰山之下的。
参考文献:
教育大数据的来源与采集技术 邢蓓蓓