基于孪生神经网络的文本自动评分方法、装置及电子设备制造方法及图纸

技术编号:28942838 阅读:15 留言:0更新日期:2021-06-18 21:50
本申请公开了一种基于孪生神经网络的文本自动评分方法、装置及电子设备,所述方法包括:将待评价文本、参考文本进行切分,然后对切分得到的句子进行预处理得到句子的词汇集合,并确定词汇集合的词向量集合,将待评价文本句子和参考文本句子组成句子对,分别输入句子对的词向量至孪生神经网络子网络训练,得到句向量,确定两个句向量差后将句向量差转换为句子之间的相似度,根据句子之间的相似度,匹配与参考句子相对应的待评价句子,根据匹配结果,进行评分。该方法相较现有技术,可提高主观题的自动阅卷的准确度。

【技术实现步骤摘要】
基于孪生神经网络的文本自动评分方法、装置及电子设备
本申请涉及计算机
,特别涉及一种基于孪生神经网络的文本自动评分方法、装置及电子设备。
技术介绍
智能阅卷是指通过计算机对学生作答的试题答案进行自动阅卷。智能阅卷能大大减轻老师人工阅卷的工作量,在一定程度上提高了评卷的公平性。在现有的智能阅卷方法中,多通过分析字数、词数等表面特征以及分析长文本的上下文连贯性进行自动评分,然而,受到答案文本长度的限制,能从类似主观题的短文本中获取的上下文信息有限,因此增加语篇连贯性的指标并不能有效地提升评分的准确度。
技术实现思路
本申请的目的在于至少解决现有技术中存在的技术问题之一,提供一种基于孪生神经网络的文本自动评分方法,提高短文本自动阅卷的准确度。本申请实施例提供一种基于孪生神经网络的文本自动评分方法,包括:分别对待评价文本和参考文本进行切分,得到待评价句子集合和参考句子集合;将所述待评价句子集合和所述参考句子集合分别进行预处理,得到每个句子的词汇集合,并确定每个所述词汇集合的词向量集合;将所述待评价句子集合中每个待评价句子和所述参考句子集合中每个参考句子组成句子对,并分别输入所述句子对的两个所述词向量集合至孪生神经网络子网络,训练得到两个长度一致的句向量;根据曼哈顿距离确定两个所述句向量的向量差,并将所述向量差转换为所述句子对的相似度;根据所述相似度,确定与所述参考句子相匹配的所述待评价句子,记录匹配结果,所述匹配结果包括匹配成功的句子之间的相似度,以及未匹配成功的所述参考句子;根据所述匹配结果,计算待评价文本的评分。进一步的,所述根据所述相似度,确定与所述参考句子相匹配的所述待评价句子包括:将所述相似度按照大小进行排列;将所述相似度最大的句子对所对应的两个句子作为所述匹配成功的句子,并记录所述相似度最大的句子对的相似度;将未匹配成功的句子组成的句子对作为待匹配的句子对,再次按照待匹配的句子的相似度大小进行排列,并记录,直至不存在句子对为止;记录所述参考句子集合中未匹配成功的所述参考句子的信息。进一步的,所述预处理包括:分词处理、去除标点符号、去除空白字符和去除停用词。进一步的,本方法还包括:对所述待评价句子集合和所述参考句子集合进行所述分词处理,并去除标点符号和空白字符,得到每个句子的第一词汇集合,提取所述第一词汇集合的第一词法特征,所述第一特征为词汇字数总和和错别字字数;去除所述第一词汇集合中的停用词,得到第二词汇集合,提取所述第二词汇集合的第二词法特征,所述第二特征为去除停用词后的词汇字数总和;根据所述匹配结果、所述第一词法特征和所述第二词法特征,计算待评价文本的评分。进一步的,还所述将所述向量差转换为所述句子对之间的相似度包括:判断所述向量差是否满足预设阈值,若所述向量差大于所述预设阈值,则所述句子相似度为0;若所述向量差小于预设阈值,则所述句子相似度满足公式其中,所述C为相似度,所述S为所述向量差,所述M为预设阈值。进一步的,包括以下步骤训练所述孪生神经网络子网络:分别将训练模板的两个词向量集合输入至孪生神经网络子网络进行训练,得到训练模板的两个句向量;根据曼哈顿距离确定所述训练模板的两个句向量的向量差;所述训练模板两个句向量的向量差经全连接层、softmax层处理得到预测结果,所述预测结果为二维向量;确定所述预测结果和所述训练模板真实结果的向量差,得到神经网络的损失,所述训练模板真实结果为二维向量;根据反向传播算法调整所述孪生神经网络子网络的权重。进一步的,还包括:分别对所述待评价句子集合和所述参考句子集合中的句子进行编号;对所述词汇集合进行标记,所述标记为所述词汇集合所属的句子编号。进一步的,还提供了一种基于孪生神经网络的文本自动评分装置,其特征在于,包括:文本切分单元,用于对待评价文本和参考文本进行切分,得到待评价句子集合和参考句子集合;预处理单元,用于将所述待评价句子集合和所述参考句子集合分别进行预处理,得到每个句子的词汇集合,并确定每个所述词汇集合的词向量集合;词向量训练单元,用于将所述待评价句子集合中每个待评价句子和所述参考句子集合中每个参考句子组成句子对,并分别输入所述句子对的两个所述词向量集合至孪生神经网络子网络,训练得到两个长度一致的句向量;转换单元,用于根据曼哈顿距离确定两个所述句向量的向量差,并将所述向量差转换为所述句子对的相似度;句子匹配单元,用于根据所述相似度,确定与所述参考句子相匹配的所述待评价句子,记录匹配结果,所述匹配结果包括匹配成功的句子之间的相似度,以及未匹配成功的所述参考句子;计算单元,用于根据所述匹配结果,计算待评价文本的评分。进一步的,本申请实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述实施例所述的基于孪生神经网络的文本自动评分方法。进一步的,本申请实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,该程序被处理器执行时实现如上述实施例所述的基于孪生神经网络的文本自动评分方法。相比于现有技术,上述实施例通过分别待评价文本和参考文本的句子进行预处理后确定句子的词向量集合,通过孪生神经网络确定每个待评价文本的句子和每个参考文本的句子之间的相似度,根据句子之间的相似度,为参考文本的句子匹配相对应的待评价文本的句子,根据匹配结果计算评分。本方法将短文本的主观题从句子词义层面进行比较,再将句子进行匹配以从段落完整度上进行比较,有效地提高了主观题自动阅卷的准确度。附图说明下面结合附图和实施例对本申请进一步地说明;图1为本专利技术实施例提供的一种基于孪生神经网络的文本自动评分方法的步骤流程图;图2为本专利技术实施例提供的一种基于孪生神经网络的文本自动评分装置的结构示意图。具体实施方式本部分将详细描述本申请的具体实施例,本申请之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本申请的每个技术特征和整体技术方案,但其不能理解为对本申请保护范围的限制。本专利技术实施例提供了一种基于孪生神经网络的文本自动评分方法,如图1所示,该方法包括:S101、分别对待评价文本和参考文本进行切分,得到待评价句子集合和参考句子集合;其中,对待评价文本进行句子切分后得到待评价句子集合,对参考文本句子进行切分后得到参考句子集合。待评价文本可以是学生的答卷文本,参考文本可以是答案文本。S102、将所述待评价句子集合和所述参考句子集合分别进行预处理,得到每个句子的词汇集合,并确定每个所述词汇集合的词向量集合;具体地,预处理包括分词处理、去除标点符号、去除空白字符和去除本文档来自技高网...

【技术保护点】
1.一种基于孪生神经网络的文本自动评分方法,其特征在于,包括:/n分别对待评价文本和参考文本进行切分,得到待评价句子集合和参考句子集合;/n将所述待评价句子集合和所述参考句子集合分别进行预处理,得到每个句子的词汇集合,并确定每个所述词汇集合的词向量集合;/n将所述待评价句子集合中每个待评价句子和所述参考句子集合中每个参考句子组成句子对,并分别输入所述句子对的两个所述词向量集合至孪生神经网络子网络,训练得到两个长度一致的句向量;/n根据曼哈顿距离确定两个所述句向量的向量差,并将所述向量差转换为所述句子对的相似度;/n根据所述相似度,确定与所述参考句子相匹配的所述待评价句子,记录匹配结果,所述匹配结果包括匹配成功的句子之间的相似度,以及未匹配成功的所述参考句子;/n根据所述匹配结果,计算待评价文本的评分。/n

【技术特征摘要】
1.一种基于孪生神经网络的文本自动评分方法,其特征在于,包括:
分别对待评价文本和参考文本进行切分,得到待评价句子集合和参考句子集合;
将所述待评价句子集合和所述参考句子集合分别进行预处理,得到每个句子的词汇集合,并确定每个所述词汇集合的词向量集合;
将所述待评价句子集合中每个待评价句子和所述参考句子集合中每个参考句子组成句子对,并分别输入所述句子对的两个所述词向量集合至孪生神经网络子网络,训练得到两个长度一致的句向量;
根据曼哈顿距离确定两个所述句向量的向量差,并将所述向量差转换为所述句子对的相似度;
根据所述相似度,确定与所述参考句子相匹配的所述待评价句子,记录匹配结果,所述匹配结果包括匹配成功的句子之间的相似度,以及未匹配成功的所述参考句子;
根据所述匹配结果,计算待评价文本的评分。


2.如权利要求1所述的基于孪生神经网络的文本自动评分方法,其特征在于,根据所述相似度,确定与所述参考句子相匹配的所述待评价句子,包括:
将所述相似度按照大小进行排列;
将所述相似度最大的句子对所对应的两个句子作为所述匹配成功的句子,并记录所述相似度最大的句子对的相似度;
将未匹配成功的句子组成的句子对作为待匹配的句子对,再次按照待匹配的句子的相似度大小进行排列,匹配并记录,直至不存在句子对为止;
记录所述参考句子集合中未匹配成功的所述参考句子的信息。


3.如权利要求1所述的基于孪生神经网络的文本自动评分方法,其特征在于,所述预处理包括:
分词处理、去除标点符号、去除空白字符和去除停用词。


4.如权利要求3所述的基于孪生神经网络的文本自动评分方法,其特征在于,还包括:
对所述待评价句子集合和所述参考句子集合进行所述分词处理,并去除标点符号和空白字符,得到每个句子的第一词汇集合,提取所述第一词汇集合的第一词法特征,所述第一特征为词汇字数总和和错别字字数;
去除所述第一词汇集合中的停用词,得到第二词汇集合,提取所述第二词汇集合的第二词法特征,所述第二特征为去除停用词后的词汇字数总和;
根据所述匹配结果、所述第一词法特征和所述第二词法特征,计算待评价文本的评分。


5.如权利要求1所述的基于孪生神经网络的文本自动评分方法,其特征在于,将所述向量差转换为所述句子对之间的相似度,包括:
判断所述向量差是否满足预设阈值,若所述向量差大于所述预设阈值,则所述句子相似度为0;若所述向量差小...

【专利技术属性】
技术研发人员:李添财
申请(专利权)人:广州汇才创智科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1