本发明专利技术涉及考试阅卷自动化领域,尤其涉及一种试卷主观题自动评分方法。用以解决计算机自动评阅的准确率很难达到人工评阅的水平的问题。方法包括:步骤1、获取考生主观题答案,并划分训练样本和测试样本;步骤2、进行分句处理;步骤3、进行分词处理;步骤4、提取关键词语;步骤5、对标准答案进行步骤2
【技术实现步骤摘要】
一种试卷主观题自动评分方法
[0001]本专利技术涉及考试阅卷自动化领域,尤其涉及一种试卷主观题自动评分方法。
技术介绍
[0002]随着计算机技术与通讯技术的飞速发展,计算机技术已经应用到人们生活的各个领域中。在教育领域,计算机不仅可以辅助教学,还可以用于辅助评测。目前,客观题的计算机阅卷技术已经趋向成熟,很多已经成熟的系统已经投入使用。但是,用计算机对学生的主观题进行评分上,还存在一些限制。由于中文的复杂性,对主观题的自动阅卷的研究还处于理论研究阶段。现在比较实用的技术是通过高速扫描仪将学生的答卷扫描到系统服务器,再由一个或者多个阅卷老师对学生的答卷进行评分。从本质上讲,这种阅卷方式的本质上还是属于人工阅卷,其花费的人工成本较大,评分容易受阅卷老师的情感状态的、知识经验、主观性的影响。
[0003]主观题自动阅卷技术主要解决的问题是计算出学生的答案与标准答案之间的相似程度。两者之间的相似度越高则评分就越高,反之相似度就越低。目前,已经有多种方法用于相似度计算,例如:吕学强等在研究句子相似度计算中综合考虑了词表面意思相似度和词序相似度两个因素,并提出了中文语句相似模型和查找最相似语句的算法。
[0004]考试中主观题具有答题特点和复杂性,目前没有一种考试系统能够很好地完成自动评分。因此,专利技术一种能够对考试主观题进行自动评分,且评分的准确率较好的试卷主观题自动评分方法很有必要。
技术实现思路
[0005]本专利技术的目的在于提供一种试卷主观题自动评分方法,用以解决计算机自动评阅的准确率很难达到人工评阅的水平的问题,提高计算机自动评阅的准确率,提高阅卷效率,减少人工成本,使考试更加公平公正。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]一种试卷主观题自动评分方法,步骤如下:
[0008]步骤1、获取考生主观题答案,并划分训练样本和测试样本;
[0009]步骤2、进行分句处理;
[0010]步骤3、进行分词处理;
[0011]步骤4、提取关键词语;
[0012]步骤5、对标准答案进行步骤2
‑
4后,设定得分词;
[0013]步骤6、提取文本特征;
[0014]步骤7、进行训练,得到评分模型;进行测试,得到评分。
[0015]进一步的,所述步骤1中,主观题是有参考答案的主观题,而非开放性答案的主观题;训练样本与测试样本的数量比为4:1。
[0016]进一步的,所述步骤2中,分句处理主要使用逗号、分号、句号等标点作为子句分句
的分割符号,来对考生的主观题答案进行分割,其中分号的优先级最高,句号次之,逗号最次;若句子长度大于40个字符,则以逗号对句子进行分割。
[0017]进一步的,所述步骤3中,分词处理采用jieba分词器对句子进行分词,采用的是精确模式。
[0018]进一步的,所述步骤4中,提取关键词语采用TF
‑
IDF算法。
[0019]进一步的,所述步骤5中具体包括:对标准答案进行分句处理、分词处理以及关键词语后,对主观题的一些得分要点进行设定,作为得分词。
[0020]如权利要求6所述的一种试卷主观题自动评分方法,其特征在于,所述步骤6中,文本特征包括:文本词性相似度、词语个数相似度、关键词语相似度、文本长度相似度、得分词相似度以及文本语句相似度,其中文本词性相似度包括:形容词相似度、数量词相似度、名词相似度、动词相似度、连词相似度、副词相似度、量词相似度、数词相似度、代词相似度以及介词相似度;文本特征的提取需要以词语语义相似度为基础,词语语义相似度采用基于知网的语义相似度计算,计算公式如下:
[0021][0022]公式(1)中,D表示词语A、B在义原层次树中的距离,H表示层次数的高度,M
A
、M
B
分别表示一个义原,subDep(M
A
,M
B
)表示两个义原节点在同一类型树的层数差值;
[0023]其中名词相似度计算表示如下:
[0024][0025]k=min(m,n)(3)
[0026]公式(2)和(3)中,MAXi(S)表示第i个词语的词语语义相似度最大值,m,n分别表示标准答案文本A与考生答案文本B的词数个数;其他词性的相似度同理;
[0027]词语个数相似度计算如下:
[0028][0029]公式(4)中,CountA表示标准答案文本A中的词数个数,CountB表示标准答案文本B中的词数个数;
[0030]关键词语相似度计算如下:
[0031][0032]n=max(a,b)(6)
[0033]公式(5)和(6)中,V
A
、V
B
表示n维特征向量,C
‑1表示C的协方差逆矩阵,a,b表示标准答案文本A与考生答案文本B的关键词个数;
[0034]文本长度相似度计算如下:
[0035][0036]公式(7)中,LenA表示标准答案文本A的长度,LenB表示考生答案文本B的长度;
[0037]得分词相似度计算表示如下:
[0038][0039]公式(8)中,ScoreA表示标准答案文本A中的得分词数,ScoreB表示考生答案文本B中的得分词数;
[0040]文本语句相似度具体包括:
[0041]WordSim(A,B)=μ1Sim(A1)+μ2Sim(A2)+
…
+μ
m
Sim(A
m
)(9)
[0042]μ1+μ2+
…
+μ
m
=1(10)
[0043]公式(9)和(10)中,A
i
,i∈[1,m]表示标准答案文本A的一个子句分句,Sim(A1)表示标准答案文本A中的第一个子句分句与考生答案文本B中的任意一个子句分句的相似度的最大值,其他同理;μ
i
,i∈[1,m]表示子句分句所占的权重;m表示标准答案文本A中子句分句的个数。
[0044]进一步的,所述步骤7中,训练选用MATLAB中的神经网络工具箱进行网络的训练,网络采用BP神经网络,其中BP神经网络由输入层、隐含层和输出层组成,输入层有15个神经元,分别对应提取到的15个特征,输出层有1个神经元,对应评分,隐含层和输出层的激活函数均为tansig函数;选取隐层神经元个数的问题上参照了以下的经验公式:
[0045][0046]公式(11)中,n为输入层数,m为输出层数,a为[1,10]内的常数。
[0047]本专利技术的有益效果:
[0048]1、通过提取多个文本特征,更加详细地描述文本,对标准答案与考生答案的相似度的计算更具说服力,为后续的评分提供了有力支持。
[0049]2、提出了以词语语义相似度为基础,赋予不同子句分句权重,统计得到文本语句相似度的计算方式。
...
【技术保护点】
【技术特征摘要】
1.一种试卷主观题自动评分方法,其特征在于,包括以下步骤:步骤1、获取考生主观题答案,并划分训练样本和测试样本;步骤2、进行分句处理;步骤3、进行分词处理;步骤4、提取关键词语;步骤5、对标准答案进行步骤2
‑
4后,设定得分词;步骤6、提取文本特征;步骤7、进行训练,得到评分模型;进行测试,得到评分。2.如权利要求1所述的一种试卷主观题自动评分方法,其特征在于,所述步骤1中,主观题是有参考答案的主观题,而非开放性答案的主观题;训练样本与测试样本的数量比为4:1。3.如权利要求2所述的一种试卷主观题自动评分方法,其特征在于,所述步骤2中,分句处理主要使用逗号、分号、句号等标点作为子句分句的分割符号,来对考生的主观题答案进行分割,其中分号的优先级最高,句号次之,逗号最次;若句子长度大于40个字符,则以逗号对句子进行分割。4.如权利要求3所述的一种试卷主观题自动评分方法,其特征在于,所述步骤3中,分词处理采用jieba分词器对句子进行分词,采用的是精确模式。5.如权利要求4所述的一种试卷主观题自动评分方法,其特征在于,所述步骤4中,提取关键词语采用TF
‑
IDF算法。6.如权利要求5所述的一种试卷主观题自动评分方法,其特征在于,所述步骤5中具体包括:对标准答案进行分句处理、分词处理以及关键词语后,对主观题的一些得分要点进行设定,作为得分词。7.如权利要求6所述的一种试卷主观题自动评分方法,其特征在于,所述步骤6中,文本特征包括:文本词性相似度、词语个数相似度、关键词语相似度、文本长度相似度、得分词相似度以及文本语句相似度,其中文本词性相似度包括:形容词相似度、数量词相似度、名词相似度、动词相似度、连词相似度、副词相似度、量词相似度、数词相似度、代词相似度以及介词相似度;文本特征的提取需要以词语语义相似度为基础,词语语义相似度采用基于知网的语义相似度计算,计算公式如下:公式(1)中,D表示词语A、B在义原层次树中的距离,H表示层次数的高度,M
A
、M
B
分别表示一个义原,subDep(M
A
,M
B
)表示两个义原节点在同一类型树的层数...
【专利技术属性】
技术研发人员:刘莲英,
申请(专利权)人:刘莲英,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。