一种基于决策树的学习成绩预测及个性化干预的方法技术

技术编号:31702485 阅读:16 留言:0更新日期:2022-01-01 11:03
本发明专利技术公开了一种基于决策树的学习成绩预测及个性化干预的方法,从自适应平台获得学习行为数据后,对数据进行清洗、转换和集成处理,然后数据中提取影响学习成绩的行为指标作为预测指标;然后将预测指标和决策树预测算法相结合预测可能影响学习成绩的行为指标,再根据准确率、精确率和召回率评估预测算法最终确定的行为指标,再通过K

【技术实现步骤摘要】
一种基于决策树的学习成绩预测及个性化干预的方法


[0001]本专利技术属于智慧教育
,涉及一种基于决策树的学习成绩预测及个性化干预的方法。

技术介绍

[0002]在在线教育平台中,一个学习者的学习行为会被系统进行详细的记录,研究者收集这些数据,再通过教育大数据对这些数据进行分析,获得学习者的特征,以便提供个性化的推送。其中,学习者与学习成绩之间有许多制约因素,但目前大多数对在线教育中学习成绩预测的研究仅仅考虑了学习者的行为特征,并未考虑学习者的学术背景特征、家庭特征以及学习者的状态变化特征等基本信息,而且筛选的学习者的行为特征也很局限和单一,并将其作为测试指标时,数据类型和样本的数量都十分有限。同时,当预测到影响学习成绩的行为特征并进行干预时,并未根据学习者的个体差异,给出个性化的干预方案。

技术实现思路

[0003]本专利技术的目的是提供一种基于决策树的学习成绩预测及个性化干预的方法,解决了现有技术中存在的对学习者学习成绩预测时仅仅考虑了学习者的行为特征且预测到影响学习成绩的行为特征并进行干预时,并未根据学习者的个体差异给出个性化的干预方案的问题。
[0004]本专利技术所采用的技术方案是,一种基于决策树的学习成绩预测及个性化干预的方法,具体按照如下步骤实施:
[0005]步骤1,采集学习者的学习行为数据,包括静态数据和动态数据,静态数据包括一大类:学习者的基本信息数据,动态数据包括四大类:学习者在自适应平台的界面交互数据、内容交互数据、测试数据、状态变化数据;
[0006]步骤2,对步骤1采集的学习行为数据进行处理;
[0007]步骤3,对经过步骤2处理的学习行为数据中动态数据的进行量化;
[0008]步骤4,分别选取经步骤2处理的静态数据和经步骤3量化的动态数据中的一部分作为训练集数据,计算训练集中数据之间的相关性,根据相关性确定作为学习成绩预测指标的学习行为变量;
[0009]步骤5,将训练集中经步骤4确定作为学习成绩预测指标的学习行为对应的训练数据保留,提出其他训练数据得到更新后的训练集,应用决策树算法使用更新后的训练集进行学习成绩预测;
[0010]步骤6,按照步骤4

5的步骤分别选取经步骤2处理的静态数据和经步骤3量化的动态数据中的一部分作为测试集数据,生成最终的决策树预测模型去预测学习成绩结果;
[0011]步骤7,通过精确率、准确率和召回率对预测结果进行判断,当精确率、准确率和召回率任意一个不小于90%时,将对应的学习行为指标可以被作为影响学习者成绩的学习行为指标;
[0012]步骤8,根据步骤7确定的行为指标,进行K

Means聚类,确定学习群体;
[0013]步骤9,根据步骤8确定的具有相同学习行为的不同学习者群体,对于每一类学习者群体提供不同的学习方案。
[0014]本专利技术的特征还在于,
[0015]步骤1中的基本信息数据包括以下小类:户籍所在地、户籍类型、家庭情况、父母受教育程度、是否为寄宿生、是否为留守儿童;
[0016]步骤1中的学习者在自适应平台的界面交互数据包括以下小类:查看测试结果、浏览资料、浏览公告、帖子的浏览、课程信息的浏览、知识点掌握程度的浏览和点赞量;
[0017]步骤1中的学习者在自适应平台的内容交互数据包括以下小类:课件下载量、视频下载量、观看视频次数、试卷下载次数、发帖量、回帖量、在线答题次数、提交作业数次数、参与测试评论量和被评论量;
[0018]步骤1中学习者在自适应平台的测试数据包括以下小类:测试成绩、测试难度、知识点掌握程度、正确率、每道题答题时长、测试消耗时长和测试类型;
[0019]步骤1中学习者在自适应平台的状态变化数据包括以下小类:登录次数、系统登录时长、累计在线时长、在线时间间隔、离开平台的时长、离开平台的次数和登录时间离线时间。
[0020]步骤2具体为:
[0021]步骤2.1,数据清洗:对步骤1采集的数据根据每个变量的合理取值范围和相互关系,检查所拿到的学习者数据是否合乎要求,如果发现超出正常范围、逻辑上不合理或者相互矛盾的数据,对其进行核对和纠正;如果学习者的某些行为数据是无效值和缺失值;
[0022]其中,若某些学习行为数据与现实情况不符则认为为无效值;
[0023]若某些学习者的学习行为数据不完整,即就是不完全包括所有学习行为的各个类别,则认为将对应学习者的其他包括的学习行为数据视为缺失值,将其删除;
[0024]步骤2.2,将清洗的数据整合在一起;
[0025]步骤2.3,将进行整合的学习行为数据转换成字符串类型,其中,转换后的浮点型字符串保留两位小数。
[0026]步骤3具体为:
[0027]步骤3.1,学习者在自适应平台的界面交互数据的量化:
[0028]测试结果和点赞量直接在自适应平台上根据学习者查看测试结果以及点赞的点击次数来进行累加获得;
[0029]浏览资料、浏览公告、帖子的浏览、课程信息的浏览、知识点掌握程度的浏览按照学习者对对应资源的浏览时长来进行统计的,学习者每次开始浏览到浏览结束的这段时间即为学习者本次的浏览时长,而总的浏览时长即为每次的浏览时长累加得到,具体如下:
[0030]学习者对对应资源的浏览时长按照如下公式计算:
[0031][0032]其中,S
scan
表示学习者浏览某资源的浏览时长,T
leave
和T
enter
表示学习者浏览某个资源的离开时间和进入时间,t表示一个学习者访问该资源的次数;
[0033]步骤3.2,学习者在自适应平台的内容交互数据的量化:
[0034]根据学习在自适应平台的学习记录直接对对应的行为进行累加求和获取课件下载量、视频下载量、观看视频次数、试卷下载次数、发帖量、回帖量、在线答题次数、提交作业数次数、参与测试评论量和被评论量;
[0035]步骤3.3,学习者在自适应平台的测试数据的量化
[0036]正确率是指在一次阶段测试中答对题目所占比例,定义一套试卷的题目集合为:Q={q1,q2,q3,

,q
m
},做错题目的集合为:E={e1,e2,e3,

,e
k
},,则正确率可表示为:
[0037][0038]其中,T
correct
表示正确率,和表示题目总数和做错的题目数;
[0039]学习者的知识点掌握程度为:
[0040]在对应的知识点下分别选取简单、中等、难题分别x个,其中,简单题的难度值范围为:0

0.3,中等题的难度值范围为:0.4

0.7,难题的难度值范围为:0.8

1.0,则该知识点的掌握程度W按照如下公式计算:
[0041][0042]其中,B、N、H分别表示简单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于决策树的学习成绩预测及个性化干预的方法,其特征在于,具体按照如下步骤实施:步骤1,采集学习者的学习行为数据,包括静态数据和动态数据,所述静态数据包括一大类:学习者的基本信息数据,所述动态数据包括四大类:学习者在自适应平台的界面交互数据、内容交互数据、测试数据、状态变化数据;步骤2,对步骤1采集的学习行为数据进行处理;步骤3,对经过步骤2处理的学习行为数据中动态数据的进行量化;步骤4,分别选取经步骤2处理的静态数据和经步骤3量化的动态数据中的一部分作为训练集数据,计算训练集中数据之间的相关性,根据相关性确定作为学习成绩预测指标的学习行为变量;步骤5,将训练集中经步骤4确定作为学习成绩预测指标的学习行为对应的训练数据保留,提出其他训练数据得到更新后的训练集,应用决策树算法使用更新后的训练集进行学习成绩预测;步骤6,按照步骤4

5的步骤分别选取经步骤2处理的静态数据和经步骤3量化的动态数据中的一部分作为测试集数据,生成最终的决策树预测模型去预测学习成绩结果;步骤7,通过精确率、准确率和召回率对预测结果进行判断,当精确率、准确率和召回率任意一个不小于90%时,将对应的学习行为指标可以被作为影响学习者成绩的学习行为指标;步骤8,根据步骤7确定的行为指标,进行K

Means聚类,确定学习群体;步骤9,根据步骤8确定的具有相同学习行为的不同学习者群体,对于每一类学习者群体提供不同的学习方案。2.根据权利要求1所述的一种基于决策树的学习成绩预测及个性化干预的方法,其特征在于,所述步骤1中的基本信息数据包括以下小类:户籍所在地、户籍类型、家庭情况、父母受教育程度、是否为寄宿生、是否为留守儿童;所述步骤1中的学习者在自适应平台的界面交互数据包括以下小类:查看测试结果、浏览资料、浏览公告、帖子的浏览、课程信息的浏览、知识点掌握程度的浏览和点赞量;所述步骤1中的学习者在自适应平台的内容交互数据包括以下小类:课件下载量、视频下载量、观看视频次数、试卷下载次数、发帖量、回帖量、在线答题次数、提交作业数次数、参与测试评论量和被评论量;所述步骤1中学习者在自适应平台的测试数据包括以下小类:测试成绩、测试难度、知识点掌握程度、正确率、每道题答题时长、测试消耗时长和测试类型;所述步骤1中学习者在自适应平台的状态变化数据包括以下小类:登录次数、系统登录时长、累计在线时长、在线时间间隔、离开平台的时长、离开平台的次数和登录时间离线时间。3.根据权利要求2所述的一种基于决策树的学习成绩预测及个性化干预的方法,其特征在于,所述步骤2具体为:步骤2.1,数据清洗:对步骤1采集的数据根据每个变量的合理取值范围和相互关系,检查所拿到的学习者数据是否合乎要求,如果发现超出正常范围、逻辑上不合理或者相互矛盾的数据,对其进行核对和纠正;如果学习者的某些行为数据是无效值和缺失值;
其中,若某些学习行为数据与现实情况不符则认为为无效值;若某些学习者的学习行为数据不完整,即就是不完全包括所有学习行为的各个类别,则认为将对应学习者的其他包括的学习行为数据视为缺失值,将其删除;步骤2.2,将清洗的数据整合在一起;步骤2.3,将进行整合的学习行为数据转换成字符串类型,其中,转换后的浮点型字符串保留两位小数。4.根据权利要求3所述的一种基于决策树的学习成绩预测及个性化干预的方法,其特征在于,所述步骤3具体为:步骤3.1,学习者在自适应平台的界面交互数据的量化:所述测试结果和点赞量直接在自适应平台上根据学习者查看测试结果以及点赞的点击次数来进行累加获得;所述浏览资料、浏览公告、帖子的浏览、课程信息的浏览、知识点掌握程度的浏览按照学习者对对应资源的浏览时长来进行统计的,学习者每次开始浏览到浏览结束的这段时间即为学习者本次的浏览时长,而总的浏览时长即为每次的浏览时长累加得到,具体如下:学习者对对应资源的浏览时长按照如下公式计算:其中,S
scan
表示学习者浏览某资源的浏览时长,T
leave
和T
enter
表示学习者浏览某个资源的离开时间和进入时间,t表示一个学习者访问该资源的次数;步骤3.2,学习者在自适应平台的内容交互数据的量化:根据学习在自适应平台的学习记录直接对对应的行为进行累加求和获取课件下载量、视频下载量、观看视频次数、试卷下载次数、发帖量、回帖量、在线答题次数、提交作业数次数、参与测试评论量和被评论量;步骤3.3,学习者在自适应平台的测试数据的量化所述正确率是指在一次阶段测试中答对题目所占比例,定义一套试卷的题目集合为:Q={q1,q2,q3,

,q
m
},做错题目的集合为:E={e1,e2,e3,

,e
k
},,则正确率可表示为:其中,T
correct
表示正确率,和表示题目总数和做错的题目数;所述学习者的知识点掌握程度为:在对应的知识点下分别选取简单、中等、难题分别x个,其中,简单题的难度值范围为:0

0.3,中等题的难度值范围为:0.4

0.7,难题的难度值范围为:0.8

1.0,则该知识点的掌握程度W按照如下公式计算:其中,B、N、H分别表示简单题、中等题和难题的难度总值,表示答对简单题的难
度值之和,表示答对中等题的难度值之和,表示答对难题的难度值之和;所述测试难度由一套试卷中每个题目的难度累加求均值获得的,一套试卷单个题目的难度可定义为:F={f1,f2,f3,

,f
M
},则难度可表示为:其中,F
difficult
表示测试难度,表示该测试卷所有题目的难度值之和,M表示该次测试试卷的题目总数,E为学习者的优秀指数;其中,其中,a为学习者学习知识点的个数,p
i
为学习者对知识点p的掌握程度,根据公式(3)计算得到;测试成绩根据该次测试学习每道题目的分数累加计算得到;测试类型在自适应平台中直接获取,测试类型包括学前测试和学情测试两种类型,其中学前测试用0表示,学情测试用1表示;每道题答题时长指学习者在点击进入该题目到点击进入下一题的时间间隔,在自适应平台中直接获取;测试消耗时长指一套试卷的消耗时长,表示为其中,T
i
为第i个题目答题时长,M为该次测试试卷的题目总数;步骤3.4,学习者在自适应平台的状态变化数据的量化所述登录次数、系统登录时长、累计在线时长、在线时间间隔、离开平台的时长、离开平台的次数和登录时间、离线时间根据学习者在平台的访问频数累加求得。5.根据权利要求4所述的一种基于决策树的学习成绩预测及个性化干预的方法,其特征在于,所述步骤4具体为:步骤4.1,分别选取经步骤2处理的静态数据的80%和经步骤3量化的动态数据的80%放入训练集,作为训练数据;步骤4.2,计算训练集中任意两个训练数据皮尔森相关系数r,若训练数据为对应的静态数据,则训练数据为经步骤2转换后的字符串值,若训练数据对应动态数据,则训练数据为经步骤3量化后的值,具体按照如下公式计算:其中,g为训练集中训练数据的总数,Z
i
为训练集中某类学习行为对应的一个训练数据,为...

【专利技术属性】
技术研发人员:王磊马永娟费蓉江巧永王彬张佳婷王焱龙罗颖
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1