论文笔记
A difficulty ranking approach to personalization in E-learning
Avi Segala, , Kobi Gala, Guy Shania, Bracha Shapiraa
aBen-Gurion University of the Negev, Israel
【以色列]】盖夫本古里安大学
International Journal of Human-Computer Studies(SCI) 2019
概要:本文提出了一种称为EduRank的算法,用于学生的教育内容个性化,该算法结合了协同过滤算法和偏好排名的社交选择方法,扩展了用于对用户项目进行排名的现有方法。该算法通过汇总相似学生的排名,为目标学生的问题构建难度排序,包括成绩,重试次数和所花费的时间等属性特征。它可以直接根据每个学生的问题推断出难度,而不是根据学生的预期分数对其进行排序。该算法在两个大型现实数据集上进行了测试,并将其性能与多种个性化方法以及依赖领域专家的方法进行了对比;并在真实课堂上实践了该算法,证明了该算法的有效性和优越性。
EduRank主要方法:协同过滤和投票
解决了冷启动问题:使用一个预模型(a prior model)预测了无历史记录的学生
社会选择理论的——Copeland‘s method
基于成对的ordering alternatives based on the number of pairwise defeats and victories with other alternatives.
https://en.academic.ru/dic.nsf/enwiki/132988
排序得分的指标
信息检索中的任务,黄金标准,a reference ranking,领域专家标注
1. Normalized Distance based Performance Measure
L中成对的题目顺序,其中,>1是标准的,>2是系统给出的
计算得分,>1且>2为0分,两者兼容(有1无2,有2无1)为1分,相反为3分
β为L总分,m为归一化因子
【0,1]】 越小越好
2. AP Rank Correlation
考虑次序列表中的权重,前面的更重要
【0,1】 越大越好
Ap的计算
Datasers
两个真实的教育类数据集,
https://pslcdatashop.web.cmu.edu/KDDCup,一个是KDD cup 2010 by PSLC中的ALgebra1,包含在2005年-2006年期间的575个学生的800,000回答,数据是非常稀疏的,所用属性:questionID,尝试重新回答问题的次数,所花时间。
第二个数据集,K12,非公开,部署在120个学校,超过1万名学生使用,存在关于数学,英问文等课程的900,000条记录,所用属性:questionID ,每一次尝试答题的学生答案和相关分数
计算排序分数
用答题得分作为难度排序依据是不合理的,在PSLC数据中的最终得分为0或1,多选题,二分,一直尝试作答至答题成功。
两种备选方法是项目响应理论IRT和贝叶斯知识跟踪BKT,IRT假设许多学生已经完成了二分项目的测试,并为每个学生分割了一个熟练度参数。它模拟了不同项目中学生水平的差异。BKT可以随时了解学生能力的动态变化。这两个模型都没有考虑重试次数和相应时间或学生之间相似性的原因。
确定难度等级
PSLC,正确的第一次尝试,K12,学生在其第一次尝试中获得的成绩,在按年级排名之后,使用提交正确答案之前进行的尝试次数来打破联系。当学生未获得正确答案时,我们将使用学生的所有尝试。然后使用所花费的时间打破联系。
在每个主题中,随机选择一名学生并将所有其他学生的排名与此学生排名进行比较来计算AP指标。每个主题的AP指标都大大低于1,意味着与其他学生之间没有很好的相关性??????这是什么意思
算法对比:Mahout实现
使用Pearson相关性的,基于用户的协同过滤,UBCF
使用SVD的矩阵分解MF,SVD
学生在主题上的平均得分来分配分体,基于主题的排名,TBR,这个仅用于拥有可用主题数据的K12数据集
CF算法的得分计算方式:标准化【0-1】,每次重试问题,降低0.2,负分都记录为0
实验:训练集与测试集相等,较早答案在训练集中,较晚答案在测试集中
比较的指标:NDPM和AP进行困难程度排名进行比较,AP还衡量了相邻学生之间的相似性
NDPM分数越低排名越好,AP分数越高得分越高
在教室中使用时,可能需要多次为学生生成个性化的难度等级
Case Study
冷启动问题
a prior score pr(qk)=其他学生的平均分
先验得分和学生相似度分数的线性组合
权重值为等级数 / 选择相似学生时使用的相邻大小
EudRank-Prior,更改了训练集和测试集
在课堂中的部署
2015.7.15-2015.8.15在以色列举行的夏季学校数学课程上进行的
方法:EduRank+prior是难度降序,ASC,基于教学专家建立,是升序,而且不包括最困难的题目
两个暑期班,
提出问题,收到每个问题的得分反馈,并允许重试次数限制为3,
每天下课后每晚都会更新EduRank算法的数据
假设,使用EduRanak方法对学生进行问题使学生在处理更困难的问题时发表更好,不会降低他们的学习积极性.
l两个课都进行了预测试
EduRank的学生解决了更难得问题,而且解决了更多的问题,而且没有降低学习积极性。
EKT: Exercise-aware Knowledge Tracingfor Student Performance Prediction
Qi Liu1, Zhenya Huang1, Yu Yin1, Enhong Chen,1 Hui Xiong2, Yu Su3 and Guoping Hu3
1 School of Computer Science and Techonology, University of Science and Technology of China.
2 Rutgers, the State University of New Jersey
3 iFLYTEK Research, IFLYTEK Co., Ltd, Hefei, Anhui China
IEEE Transactions on Knowledge and Data Engineering(CCF-A类期刊) 2019
概要:本文提出了一个关于学生习题表现的整体研究.预测学生习题表现,首先通过探索学生的习题记录和相应习题的文本内容提出了通用性的增强回归神经网络(EERNN)框架,在该框架中,简单地将每个学生概括为一个综合向量,使用递归神经网络对其进行跟踪,并且设计了双向LSTM学习每个所作的习题.使用了两种预测策略,一种是马尔可夫性质,仅由当前状态决定未来的表现,另一种是注意力机制,是由历史记录影响未来表现. 为了明确跟踪学生在知识点的掌握程度,本文结合知识点信息将EERNN扩展到可解释性的EKT框架,其中学生的综合状态向量扩展为知识状态矩阵.在ETK中,进一步利用一个记忆网络量化每个习题在训练过程中可以影响学生掌握知识点的程度.本文在大规模的真实数据上进行实验,在一般情况下和冷启动情况下的实验结果都证明了两者的学生表现预测的有效性以及EKT优秀的可解释性.
现有传统的方法, 题目是被相应的知识点概念区分的, 当标注为相同概念的不同题目分别被不同学生回答正确,将难以区分是否掌握, 习题未得到充分利用
将学生的答题记录与习题材料相结合,将更加准确预测学生的表现情况
挑战:统一的方式自动理解习题语义层面的概念; 学生未来表现依赖于长期历史答题记录; 冷启动问题; 很难量化已解决的习题对学生的影响和追踪学生在练习过程中对知识掌握程度的状态
原有工作: 解决了前三个挑战,提出了EERNN,
第一次将双向LSTM用来表示每个习题的语义,可以铺货习习题的个性化特征
提出了另一个LSTM,结合习题特征来追踪学生在持续习题训练过程中的状态
最终预测,设计了两种策略,
一, 简单的,马尔可夫性质的,下一次的表现仅有当前状态决定
二,复杂的, 注意力机制, 基于历史相似的习题预测
缺点:在得到的所整合的隐藏向量中,是不能理解她对知识概念的掌握程度,EERNN是不够的
扩展了EERNN, 提出了一个具有解释性的EKT, 随时间更新的知识状态矩阵,其中每一个向量代表了对某个知识点的掌握程度
两种预测模型:
一: 简单的, 马尔可夫性质的
二, 注意力机制
大规模真实数据集上进行实验
在一般情况下和冷启动场景下的实验结果都证明了所提出的两种框假在学生表现能力预测的有效性和EKT框架的出色的可解释性
与传统方法不同的地方(创新点):
1. 传统的忽视了习题材料信息,本文结合了学生答题记录和习题材料
2. 以前的方法预测的结果仅有当前状态决定, 本文考虑了学生的历史答题记录
3. 本文加入习题间的关联性而不是重训练来解决了冷启动问题
4. 预测结果的可解释性
数学题中,知识点可以是相互影响的,量化知识点间的关系权重
两种应用:
表现预测
知识掌握程度追踪
1)讨论了加入习题题目内容的重要性
2)讨论了冷启动问题
3)讨论了attention机制的有效性
4)讨论了加入知识点概念的重要性,与ETK最终结果的可解释性