产品经理@产品

数据采集|教育数据采集技术

2017-11-24  本文已影响105人  嗯哼嗯

教育数据的采集需要综合应用多种技术,每种技术采集的数据范围和重点都有所不同。

大数据的采集是指利用多个数据库来接收发自客户端(web、app或者传感器等形式)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。

大数据采集过程主要的特点和挑战:并发量高。

大数据采集环节涉及的关键技术包括:数据源的选择和高质量原始数据的采集方法,多元数据的实体识别和解析方法,数据清洗和自动修复方法,数据演化的溯源管理,数据加载、流计算和信息传输技术。

根据教育数据的结构模型,不同层次教育数据的采集与生成方式、应用场景也有所不同。

一、教育大数据采集的常见技术


1、物联感知类技术

主要包括物联网感知技术、可穿戴设备技术和校园一卡通技术

物联网感知技术主要用于采集设备状态数据,可穿戴设备技术主要用于采集个体生理数据与学习行为数据,校园一卡通技术则主要用于采集各种校园生活数据。

物联网感知技术是实现万物相连的前提,是采集物理世界信息的重要渠道。

目前在教育领域利用物联网感知技术采集基础信息,主要通过传感器和电子标签等方式进行——通常情况下,传感器用来感知采集点的环境参数,电子标签用于对采集点的信息进行标识。而对于采集后的信息数据,需经过无线网络上传至网络信息中心进行存储,并利用各种智能技术对感知数据进行分析处理以实现智能控制。学校的教室设备、会议设备、实验器材等分布离散、信息透明度小、管理难度大,通过给这些物理教学设备粘贴RFID标签或传感器,分配专人管理,可以实现统一管理和调度,有效检测设备的工作状态。

可穿戴设备技术可以把多媒体、传感器和无线通信等技术嵌入人们的衣着中,支持手势和眼动操作等多种交互方式

近年来,智能眼镜、智能手表、智能手环等新产品的不断出现,形态各异的可穿戴设备正在逐步融入人们的日常生活与工作中。可穿戴设备技术为自然采集学习者的学习、生活和身体数据提供了可能。

通过佩戴相关设备可以实时记录学习者的运动状态、呼吸量、血压、运动量、睡眠质量等生理状态数据,以及学习者学习的时间、内容、地点、使用的设备等学习信息。除此之外,可穿戴设备技术还可以与虚拟仿真、增强现实技术相结合,优化内容呈现方式、丰富学习环境,对学习者的所见、所闻、所感进行全息记录。

校园一卡通技术是以校园网为载体,以电子和信息技术为辅助手段,集身份识别、校务管理以及各项校园服务等应用项目为一体的完整系统,可以采集的数据范围包括:餐饮消费、洗浴收费、超市购物、运动健身、课堂考勤、图书借阅、银行转账、上机收费、学生选课、学生补助、就医买药等,几乎涵盖了校园生活的方方面面。部分地区的校园一卡通系统还与城市交通、医疗等系统关联,学生可以方便地使用一卡通坐公交、地铁,购买药物等。这些数据的采集不仅对于教育管理有价值,对于整个城市的管理与规划也有重要意义。

2、视频录制类技术

主要包括视频监控技术、智能录播技术与情感识别技术。视频监控技术主要用于采集校园安全数据,智能录播技术主要用于采集课堂教学数据,情感识别技术主要用于采集学生学习过程中的情感数据。

校园安全监控系统是一套旨在用于全面、实时监控校园运行情况,跟踪学生出入学校情况,从而准确监控和预测校园中可能发生的危机地点,实现校园防火防盗和综合等安全管理工作的系统。校园安全监控系统的核心技术是视频监控,主要借助不同监控点的摄像机采集整个校园数据,以服务于学校管理中心、市教育局监控中心等不同监控单位来实时诊断校园安全。视频监控系统能够实现对学生教师以及校外人员出入校园情况的监控,实现对校园异常情况如对突发性奔跑、人员密集等进行预警,实现对校园设备的全面监控与管理,实现对各班级情况的有效监控[。

智能录播系统通过先进的流媒体及智能化全自动控制技术,可以实时、自动地采集课堂教学数据,并同步实现在校园网或Internet上的视频直播以及远程互动教学功能,成为网上可实时直播、点播的学习资源,全真再现课堂教学的全过程。智能录播系统主要通过教室内3台可跟踪定位的摄像机,来实时采集教学过程中的音视频信息。此外,智能录播系统还通过对电子白板的录屏采集教学课件,最终形成3份不同角度的课堂实录视频、教学课件录像以及定制的合成视频。通过在教室中安装智能录播系统来实时采集课堂中教师的提问、引导、评价等教学行为,可以完整采录教师在教学中使用课件的内容、使用的时间以及使用的方法,还可以采集到学生课堂上的回答内容、记录、倾听以及走神等行为。

情感识别技术通过观察人的表情、行为和情感产生的前提环境来推断情感状态,其基本目的在于赋予计算机像人一样观察、理解和生成各种情感特征的能力。目前,情感识别技术主要通过面部表情和语音特征来提取情感信息。情感是影响线上线下学习效果的重要变量,学习过程中的情感数据采集至关重要。通过情感识别技术可以即时判断学生的情绪状态,进而提供针对性的支持服务。以在线学习为例,当学生在学习过程中出现烦躁情绪时,通过情感识别技术,系统可以给予学生适当的鼓励或者减慢学习进度;当学生感到枯燥乏味、情绪低落时,系统可以适当降低内容难度并给出调动学生积极性的鼓励话语;当学生感到充满自信时,系统可以根据学生的水平提供更具挑战性的学习内容与材料。

当前,主流的情感识别技术是基于面部表情特征的情感计算,该技术通过摄像头实时采集学习者的脸部五官位置、肌肉运动等表情特征值来进行情绪识别。除此之外,还可以实时采集学习者的语音、文本、绘图等输入信息,对其中蕴含的情绪信息进行内容挖掘和智能分析识别。随着人类对人脑结构认识的不断深入,未来基于脑电波的情感识别采集技术将成为情感数据采集和情感识别的重要渠道。

3、图像识别类技术

图像识别类技术是人工智能的一个重要领域,是指利用计算机对图像进行匹配、处理、分析,以识别各种不同模式的目标和对象的技术,主要包括网评网阅技术、点阵数码笔技术与拍照搜题技术。

网评网阅技术主要用于采集学生考试成绩数据,点阵数码笔技术主要用于采集各种作业、练习、考试数据,拍照搜题技术主要用于采集学生作业练习数据。

互联网阅卷系统是目前中考、高考、英语四级或六级考试等大型考试活动惯用的阅卷技术,是学生考试成绩数据的重要采集技术。阅卷系统以计算机网络技术和图像处理技术为依托,采用专业扫描阅读设备,对各类考试答卷和文档进行扫描和处理,实现客观题机器自动评卷以及主观题教师网络高效评卷。随着试题库系统以及人工智能技术的不断发展,一些产品已实现对部分主观题的自动评阅。

点阵数码笔是一种新型高科技纸面书写工具。通过在普通纸张上印刷一层不可见的点阵图案,点阵数码笔前端的高速摄像头能随时捕捉笔尖的运动轨迹,同时将数据传回数据处理器,最终将信息经由蓝牙或者USB线向外传输。点阵数码笔既可以保存学习者的最终书写结果,又可以记录学习者的书写过程信息,如书写方式、书写顺序、书写时间等,还可以结合书写或者绘画过程同步录入声音,采集书写时的情景信息。点阵数码笔是一种非常自然的书写数据采集工具,十分贴近用户的日常书写习惯,因此有望成为作业、练习数据的主导采集工具。

拍照搜题技术是图像识别技术在教育领域的应用形式之一,主要通过终端设备(如智能手机、平板等)来获取相关题目的照片,继而由系统根据已有的题库进行自动匹配、处理与分析,最终筛选出与图片最为相似的题目、答案及其解答思路。市场上越来越多的作业题库产品开始提供拍照搜题功能,为学生日常作业练习数据的采集提供了很好的渠道。拍照搜题技术除了可以实现题目答案的检索,还可以通过拍照上传的方式存储学生的作业练习结果以及过程数据。这些数据通过软件平台的处理分析,可以有效服务于教师的教学决策和学生的自我诊断。

4、平台采集类技术

主要包括在线学习与管理平台技术、日志搜索分析技术、移动APP技术与网络爬虫采集技术。在线学习与管理平台技术主要用于采集各种在线学习与管理数据,日志搜索分析技术主要用于采集运维日志与用户日志数据,移动APP技术主要用于采集各种移动学习过程数据,网络爬虫采集技术主要用于采集教育舆情数据。

在线学习与管理平台是当前教育数据采集的重要载体,可以采集大多数网上学习、教研与管理活动数据。各种在线学习类平台与管理类平台,因定位和功能的不同,其支持采集的教育数据范围和类型也有所不同——通常情况下,在线学习类平台主要负责采集课程学习数据,如课程基本信息、课程资源、课程作业、师生交互信息、课程考核结果等;管理类平台(如资产管理系统、人事管理系统等)主要负责学籍、设备资产、科研、财务、人事等信息的采集与管理。除了使用专门的在线学习与管理平台采集数据外,还可以通过第三方的插件来采集数据,如基于火狐浏览器的油猴脚本可以自动采集BlackBoard平台中的交互数据,包括学生信息交互频次、交互内容以及交互的方向等。

日志文件中存储了大量的用户以及系统的操作信息,通过日志搜索分析技术可以有效筛选出有用的信息。日志搜索分析技术是指通过日志管理工具,对日志进行集中采集和实时索引,提供搜索、分析、可视化和监控等,最终实现对线上业务的实时监控、业务异常原因定位、业务日志数据统计分析以及安全与合规审计。日志搜索分析技术一方面可以实时监控教育设备及资产的运行状况,如设备耗电量、故障信息、安全威胁等,为智能运维提供数据支撑;另一方面可以详细记录用户的操作行为,如系统登录次数、登录时间、增删查改等基本信息,用于教师、学生以及管理者的行为模式诊断。

移动APP技术,从本质上来看,移动APP技术与在线学习与管理平台技术类似,只是采集渠道来自于移动终端,采集方式更加灵活、多样。学生可以通过无线网络,使用移动终端(如智能手机、平板、PDA等)与云端学习平台进行互动。通过结合移动终端的定位技术,系统将实时采集学习者的学习地点、学习时间、学习内容以及学习状态等信息,以服务于教师对学生学习情况的实时监测,进而实现个性化智能辅导。

网络爬虫是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。网络爬虫类产品如八爪鱼采集器、网页抓取软件等,在数据采集领域有着广泛的应用,可以定期实时采集各大门户网站数据、监控各大社交网站、博客,自动抓取企业产品的相关评论。随着互联网新媒体(如门户网站、微博、微信)的兴起,教育领域的信息传播呈现出传播速度快、波及范围广和内容多样化的特点。网络爬虫采集技术可以实时监控、采集教育领域网络舆情数据,从而为有效处理各种突发事件提供可能。

参考文献:教育大数据的来源与采集技术   邢蓓蓓  杨现民  李勤生

上一篇下一篇

猜你喜欢

热点阅读