一种阅读理解模型的评估方法及装置制造方法及图纸

技术编号:31155448 阅读:44 留言:0更新日期:2021-12-04 09:48
本申请提供一种阅读理解模型的评估方法及装置,其中所述方法包括:将至少一个问题和段落输入至训练好的阅读理解模型,得到每个所述问题对应的预测答案;基于每个问题对应的预测答案和参考答案,得到对应的距离值和多个评价值;基于每个问题对应的预测答案和参考答案的距离值和多个评价值,得到每个问题对应的模型评估值;基于至少一个所述问题对应的模型评估值,得到所述阅读理解模型的最终评估值,更能反应预测答案和参考答案之间的差异,有利于客观判断阅读理解模型的预测答案的真实性,且有利于对模型后续步骤的改进和阅读理解效果的提高。的提高。的提高。

【技术实现步骤摘要】
一种阅读理解模型的评估方法及装置


[0001]本申请涉及神经网络
,特别涉及一种阅读理解模型的评估方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]对于神经网络模型,为了验证模型输出结果的好坏,使用指定的评价指标对模型的输出结果进行评估,进而有一个直观的量化标准。
[0003]以阅读理解任务为例,阅读理解任务指的是将问题和段落输入至阅读理解模型中,并得到阅读理解模型的输出答案,其中输出答案包括位于段落中的起始位置和终止位置之间的词单元。在阅读理解模型训练完毕后,还需要使用测试集对阅读理解模型对模型进行评估。
[0004]现有技术中,对于阅读理解模型的评估结果,是基于模型的输出答案和参考答案的词单元之间直接匹配来得出评估结果。这种方式没有考虑到预测结果之间的语义相似性,有时候会导致得出的评估结果不可信,影响模型的使用和训练改进等。例如句子一是“小明今天去上学,他很开心!”,句子二是“小明今天不去上学,他很开心!”。前者是肯定语句,后者是否定语句。两个句子之间的相似度非常接近,仅仅相差一个字“不”。如果采用传统的评价指标来评估,就不能准确的反应预测结果的真实性。这时就需要从语义层面来辅助判断两句话之间的相似度。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种阅读理解模型的评估方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0006]本申请实施例提供了一种阅读理解模型的评估方法,包括:
[0007]将至少一个问题和段落输入至训练好的阅读理解模型,得到每个所述问题对应的预测答案;
[0008]基于每个问题对应的预测答案和参考答案,得到对应的距离值和多个评价值;
[0009]基于每个问题对应的预测答案和参考答案的距离值和多个评价值,得到每个问题对应的模型评估值;
[0010]基于至少一个所述问题对应的模型评估值,得到所述阅读理解模型的最终评估值。
[0011]可选地,将至少一个问题和段落输入至训练好的阅读理解模型之前,所述方法还包括:
[0012]获取测试集,所述测试集包括多条测试数据,每条测试数据包括问题、段落和所述问题对应的参考答案。
[0013]可选地,基于每个问题对应的预测答案和参考答案,得到对应的距离值,包括:
[0014]基于每个问题对应的预测答案得到对应的第一编码向量,基于所述参考答案得到
对应的第二编码向量;
[0015]基于所述第一编码向量和所述第二编码向量得到对应的距离值。
[0016]可选地,基于每个问题对应的预测答案和参考答案的距离值和多个评价值,得到每个问题对应的模型评估值,包括:
[0017]将多个所述评价值进行标准化处理和平均化处理,得到第一评估值;
[0018]将所述距离值进行标准化处理,得到所述距离值对应的第二评估值;
[0019]基于所述第一评估值和所述第二评估值,得到每个问题对应的模型评估值。
[0020]可选地,基于所述第一评估值和所述第二评估值,得到每个问题对应的模型评估值,包括:
[0021]将所述第一评估值和所述第二评估值进行平均化处理,得到每个问题对应的模型评估值。
[0022]可选地,基于至少一个所述问题对应的模型评估值,得到所述阅读理解模型的最终评估值,包括:
[0023]将至少一个所述问题对应的模型评估值进行平均化处理,得到所述阅读理解模型的最终评估值。
[0024]可选地,在基于同一测试集得到多个阅读理解模型的最终评估值的情况下,所述方法还包括:
[0025]将所述最终评估值按照顺序排列,将排名为前n位的阅读理解模型确定为推荐阅读理解模型。
[0026]本申请实施例公开了一种阅读理解模型的评估装置,所述装置包括:
[0027]预测模块,被配置为将至少一个问题和段落输入至训练好的阅读理解模型,得到每个所述问题对应的预测答案;
[0028]距离评价模块,被配置为基于每个问题对应的预测答案和参考答案,得到对应的距离值和多个评价值;
[0029]初级评估模块,被配置为基于每个问题对应的预测答案和参考答案的距离值和多个评价值,得到每个问题对应的模型评估值;
[0030]最终评估模块,被配置为基于至少一个所述问题对应的模型评估值,得到所述阅读理解模型的最终评估值。
[0031]本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述的阅读理解模型的评估方法的步骤。
[0032]本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述的阅读理解模型的评估方法的步骤。
[0033]本申请提供的阅读理解模型的评估方法及装置,通过将至少一个问题和段落输入至训练好的阅读理解模型,得到每个问题对应的预测答案;基于每个问题对应的预测答案和参考答案,不仅得到对应的距离值,以表征预测答案和参考答案的语义相似度,而且还得到对应的多个评价值,以表征词单元直接匹配的程度,从而实现基于距离值和多个评价值得到每个问题对应的模型评估值,进而得到阅读理解模型的最终评估值,更能反应预测答案和参考答案之间的差异,有利于客观判断阅读理解模型的预测答案的真实性,且有利于
对模型后续步骤的改进和阅读理解效果的提高。
附图说明
[0034]图1是本申请实施例的计算设备的结构示意图;
[0035]图2是本申请一实施例的阅读理解模型的评估方法的流程示意图;
[0036]图3是本申请实施例的阅读理解模型的结构示意图一;
[0037]图4是本申请实施例的阅读理解模型的结构示意图二;
[0038]图5是本申请另一实施例的阅读理解模型的评估方法的流程示意图;
[0039]图6是本申请实施例的阅读理解模型的评估装置的结构示意图。
具体实施方式
[0040]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0041]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0042]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种阅读理解模型的评估方法,其特征在于,包括:将至少一个问题和段落输入至训练好的阅读理解模型,得到每个所述问题对应的预测答案;基于每个问题对应的预测答案和参考答案,得到对应的距离值和多个评价值;基于每个问题对应的预测答案和参考答案的距离值和多个评价值,得到每个问题对应的模型评估值;基于至少一个所述问题对应的模型评估值,得到所述阅读理解模型的最终评估值。2.如权利要求1所述的方法,其特征在于,将至少一个问题和段落输入至训练好的阅读理解模型之前,所述方法还包括:获取测试集,所述测试集包括多条测试数据,每条测试数据包括问题、段落和所述问题对应的参考答案。3.如权利要求1所述的方法,其特征在于,基于每个问题对应的预测答案和参考答案,得到对应的距离值,包括:基于每个问题对应的预测答案得到对应的第一编码向量,基于所述参考答案得到对应的第二编码向量;基于所述第一编码向量和所述第二编码向量得到对应的距离值。4.如权利要求1所述的方法,其特征在于,基于每个问题对应的预测答案和参考答案的距离值和多个评价值,得到每个问题对应的模型评估值,包括:将多个所述评价值进行标准化处理和平均化处理,得到第一评估值;将所述距离值进行标准化处理,得到所述距离值对应的第二评估值;基于所述第一评估值和所述第二评估值,得到每个问题对应的模型评估值。5.如权利要求4所述的方法,其特征在于,基于所述第一评估值和所述第二评估值,得到每个问题对应的模型评估值,包括:...

【专利技术属性】
技术研发人员:李长亮王勇博唐剑波
申请(专利权)人:北京金山软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1