System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于标签平滑的多跳回答问题框架,属于自然语言理解。
技术介绍
1、现代社会正在进入ai时代,各大互联网公司开发了大型与训练模型希望机器能理解自然语言,其中一个重要的应用场景就是考察机器的阅读理解能力,要求机器检索出相关文档来回答相应问题。
2、多跳问答任务不同于简单问答任务,在回答问题的逻辑链条中存在多个“跳点”,每一个“跳点”都对模型能得出正确的答案有重要的影响。
3、现有的多跳回答问题的方法,一般分为两个阶段,第一阶段利用检索模型从几篇候选文章中选取出与问题有关的文章;第二阶段利用机器阅读理解模型从抽取出的两篇文章中推理得到最后的答案。在第一阶段,现有方法通常会考虑不同候选文章的相互作用关系。在第二阶段,现有方法利用了图神经网络,也有的方法利用了预训练模型的强大能力,同时,这些方法都没有考虑到模型的校正问题,在神经网络中,模型会倾向过过分自信它的判断结果,导致更高的错误率,更高的错误率对这类二阶段模型会有错误累积问题,使第二阶段的错误率更高,并且,在第二阶段的答案抽取中,由于答案的边界通常不清晰,比如“35”与“35人”均可以作为“有多少人”这个问题的回答,但是这一现象并没有显式地让模型进行学习。
技术实现思路
1、本专利技术是为了解决上述问题而进行的,目的在于提供一种基于标签平滑的多跳回答问题框架,用于缓解模型的过分自信以及答案边界的不确定问题。为此,本专利技术提供以下技术方案:
2、本专利技术提供了一种基于标签平滑的多跳
3、在本专利技术提供的一种基于标签平滑的多跳回答问题框架中,还可以具有这样的特征:其中,所述步骤s1中的经验风险损失的函数为:
4、
5、式中,e表示对所有样本取期望,m表示单个样本对应的候选文章数量,li表示第i个候选文章是否筛选的损失函数,具体表示为:
6、
7、式中,表示第i个文章是否是正确的候选文章之一,如果是,则为1,如果不是则为0,表示模型预测第i个文章是正确的候选文章之一的概率,log表示自然对数,其中,可以通过标签平滑手段对进行平滑化处理,即表示为当第i个文章是正确的候选文章之一时为0.9,若不是,则为0.1。
8、在本专利技术提供的一种基于标签平滑的多跳回答问题框架中,还可以具有这样的特征:其中,步骤s1中的经验风险损失的函数可以重调整系数为如下表示:
9、
10、式中,wi表示对单个样本中第i个候选文章损失函数的权重,如果该文章包含最终的答案,那么为2,剩下的权重为1。
11、在本专利技术提供的一种基于标签平滑的多跳回答问题框架中,还可以具有这样的特征:其中,步骤s2包括以下子步骤:步骤s2-1,构建候选文章配对,将所述步骤s1中选到的概率前三的候选文章两两配对产生3组文章配对;步骤s2-2,将问题与文章配对同时输入模型选出最佳配对,其中,所述步骤s2的经验风险损失的函数为:
12、
13、式中,ci表示为某一样本中的第i组文章配对,表示第i组文章配对是否是最优配对,如果是则为1,不是则为0,表示模型预测第i组文章配对是最优配对的概率。对于通过标签平滑方法进行平滑处理,使其当配对是最优配对时为0.9,否则为0.05。
14、在本专利技术提供的一种基于标签平滑的多跳回答问题框架中,还可以具有这样的特征:其中,所述步骤s1与所述步骤s2同时训练优化,最终目标为:
15、lretrieval=φ1lcoarse+φ2lfine
16、式中,φ1与φ2均为固定的系数,φ1为2,φ2为1。
17、在本专利技术提供的一种基于标签平滑的多跳回答问题框架中,还可以具有这样的特征:其中,步骤3包括以下子步骤:步骤s3-1,将输入的两篇文章拼接后进行序列化;步骤s3-2,将处理好的序列输入预训练模型进行特征提取;步骤s3-3,采用阅读理解模型提取答案的开始位置和结束位置;步骤s3-4,根据获取到的开始位置和结束位置,根据原始文本还原成答案进行输出,
18、其中,所述步骤s3训练时采用的经验风险损失的函数为:
19、
20、
21、
22、式中,表示开始位置模型预测的概率分布,表示结束位置模型预测的概率分布,表示正确的开始位置的分布,即只有正确的开始位置为1,其余位置为0,表示正确的结束位置的分布,即只有正确的结束位置为1,其余位置为0。
23、在本专利技术提供的一种基于标签平滑的多跳回答问题框架中,还可以具有这样的特征:其中,步骤s3中,为更好的避免模型过分自信的问题,我们采用f1 smoothing的方式修正和修正公式为:
24、
25、
26、式中,qs(i)表示修正后的开始位置概率分布,qe(i)表示修正后的结束位置概率分布,f1表示f1分数,agold表示正确的答案。
27、专利技术的作用与效果
28、根据本专利技术所涉及的基于标签平滑的多跳回答问题框架,根据本专利技术的基于标签平滑的多跳回答问题框架,首先根据输入问题和候选文章列表粗筛得到3篇待选文章,之后通过对3篇待选文章两两分组的方式组成3个配对,再一次通过细筛的方式选择最优配对,通过粗筛到精挑的方式大幅提高了模型的检索的准确率。最后将选出的最优的两篇文章以及问题一起输入模型,通过预训练语言模型回答问题。
29、本专利技术的基于标签平滑的多跳回答问题框架在著名阅读理解数据集上取得了优异的性能,设计简单且具备广泛的应用场景,解决了现有多跳问答框架性能有待提高的问题。
本文档来自技高网...【技术保护点】
1.一种基于标签平滑的多跳回答问题框架,用于缓解模型的过分自信以及答案边界不确定的问题,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于标签平滑的多跳回答问题框架,其特征在于:
3.根据权利要求1所述的基于标签平滑的多跳回答问题框架,其特征在于:
4.根据权利要求1所述的基于标签平滑的多跳回答问题框架,其特征在于:
5.根据权利要求4所述的基于标签平滑的多跳回答问题框架,其特征在于:
6.根据权利要求1所述的基于标签平滑的多跳回答问题框架,其特征在于:
7.根据权利要求5所述的基于标签平滑的多跳回答问题框架,其特征在于:
【技术特征摘要】
1.一种基于标签平滑的多跳回答问题框架,用于缓解模型的过分自信以及答案边界不确定的问题,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于标签平滑的多跳回答问题框架,其特征在于:
3.根据权利要求1所述的基于标签平滑的多跳回答问题框架,其特征在于:
4.根据权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。