智能问答方法、装置、存储介质和设备制造方法及图纸

技术编号:38159072 阅读:9 留言:0更新日期:2023-07-13 09:29
本发明专利技术实施例提供一种智能问答方法、装置、存储介质和设备,该方法包括:对多个文档数据进行预处理,获得无标注训练数据、文档段落集和文档片段集,利用无标注训练数据对预训练模型进行继续训练,针对待回答问题,使用召回算法对文档段落集和文档片段集进行粗召回,获得候选段落和候选片段,并对候选片段进行后处理,将待回答问题依次与每一条候选段落和后处理后的候选片段进行拼接,获得多条待预测数据,将多条待预测数据输入继续训练好的模型中,获取输入文本向量特征,将输入文本向量特征输入答案抽取层获得所述待回答问题对应的答案。本发明专利技术能够提高问答效率和准确率,且能够支持跨段落的待回答问题。够支持跨段落的待回答问题。够支持跨段落的待回答问题。

【技术实现步骤摘要】
智能问答方法、装置、存储介质和设备


[0001]本专利技术涉及数据处理
,尤其涉及一种智能问答方法、装置、存储介质和设备。

技术介绍

[0002]智能问答系统是属于信息检索的一种表现形式。文档智能问答即基于具体的文档,通过理解用户的具体问题,定位并返回满足问题的相关文本。通常,文档智能问答系统包含多种,比如:FAQ检索式问答系统,KBQA图谱问答系统,MRC问答系统等。其中MRC问答系统由于提问方式灵活,无需预订信息等优点被广泛应用。
[0003]现有的MRC问答系统首先文档解析成段落集存入数据库,之后根据用户提出的待回答问题,从数据库中粗召回候选段落,再利用文本匹配模型对候选段落进行精排,将用户待回答问题以及最相关段落文本输入阅读理解模型,返回答案。
[0004]现有的MRC问答系统目前存在以下问题:
[0005]a.目前精排使用的文本匹配算法和获取答案使用的阅读理解模型,均使用预训练模型作文本的向量表示,对于一个问答系统来说,如果计算机资源有限的条件下,一个流程内多次使用预训练模型,会使得系统的推理速度变慢。
[0006]b.目前的MRC阅读理解模型缺少拒识能力,导致模型抽取的无效答案也被返回给用户。
[0007]c.由于需要将文档解析成为段落进行存储,导致召回的段落之间相互孤立,丢失了段落原本的上下文联系,如果待回答问题的答案是跨段落的,而召回的段落又缺少上下文段落,则会导致MRC问答系统无法支持答案跨段落的待回答问题。
[0008]d.基于通用语料训练的预训练模型对垂直领域的文档文本表征能力不强,会影响阅读理解模型的抽取准确度。

技术实现思路

[0009]有鉴于此,本专利技术提供一种智能问答方法、装置、存储介质和设备,能够提高问答效率和准确率,且能够支持跨段落的待回答问题。
[0010]第一方面,本专利技术实施例提供一种智能问答方法,所述方法包括:
[0011]对多个文档数据进行预处理,获得无标注训练数据、文档段落集和文档片段集;
[0012]利用所述无标注训练数据对预训练模型Bert进行继续训练,其中,所述预训练模型Bert在大规模通用语料上训练得到;
[0013]针对待回答问题,使用召回算法对所述文档段落集和所述文档片段集进行粗召回,获得候选段落和候选片段,并对所述候选片段进行后处理;
[0014]将待回答问题依次与每一条后处理后的候选段落和候选片段进行拼接,获得多条待预测数据;
[0015]将所述多条待预测数据输入继续训练好的模型中,获取输入文本向量特征;
[0016]将所述输入文本向量特征输入答案抽取层获得所述待回答问题对应的答案。
[0017]进一步地,每一条所述无标注训练数据为所述文档数据中的一个完整的句子;
[0018]所述文档数据中的一个段落文本为所述文档段落集中一条独立数据,所述文档段落集中忽略各段落文本的顺序信息;
[0019]所述文档片段集中每一个文本片段包含所述文档数据中的若干段落,且包含所述若干段落的顺序信息,和/或所述文档片段集中每一个文本片段包含所述文档数据中的某一段落的部分内容。
[0020]进一步地,针对待回待问题,使用召回算法对所述文档段落集和所述文档片段集进行粗召回,获得候选段落和候选片段包括:
[0021]去掉所述待回答问题中的停用词;
[0022]使用BM25召回算法分别对所述文档段落集和所述文档片段集进行检索;
[0023]对检索结果进行排序后获得排序靠前的预设数目个候选段落和候选片段。
[0024]进一步地,对所述候选片段进行后处理包括:
[0025]使用标点符号将所述候选片段切分为若干子片段;
[0026]计算每一个所述子片段与所述待回答问题之间的编辑距离;
[0027]根据所述编辑距离获得所述待回答问题的最匹配子片段;
[0028]以所述子片段为基准向后进行文本扩充,所述文本扩充以表示句子完整性的标点符号结尾,同时所述最匹配子片段和所述扩充文本的长度限制在预设字数内;
[0029]将所述最匹配子片段及其扩充文本进行合并,获得后处理后的候选片段。
[0030]进一步地,当根据所述编辑距离无法获得与所述待回答问题最匹配的子片段时,比较每一个所述子片段与所述待回答问题的字符特征,根据字符特征获得所述待回答问题的最匹配子片段。
[0031]进一步地,如无法获得满足条件的最匹配子片段,则以所述候选片段为基准向后进行文本扩充,所述文本扩充以表示句子完整性的标点符号结尾,同时所述候选片段和所述扩充文本的长度限制在预设字数内;
[0032]将所述候选片段及其扩充文本进行合并,获得后处理后的候选片段。
[0033]进一步地,每一条所述待预测数据的形式为:[CLS]+query+[SEP]+text+[SEP],其中,所述[CLS]、[SEP]分别为所述继续训练好的模型所需的特殊标识符,query为待回答问题,text为一条候选段落或一条候选片段。
[0034]进一步地,所述答案抽取层包括两个位置概率网络结构、匹配度网络结构和置信度网络结构,将所述输入文本向量特征输入答案抽取层获得所述待回答问题对应的答案包括:
[0035]将所述输入文本向量特征输入所述位置概率网络结构,获得输入文本各位置的答案开始位置概率,以及输入文本各位置的答案结束位置概率;
[0036]将所述输入文本向量特征输入所述匹配度网络结构,获得输入文本与待回答问题的匹配度;
[0037]将所述输入文本向量特征输入所述置信度网络结构,获得所述输入文本的置信度;
[0038]根据所述匹配度对所述多条待预测数据进行排序,选择排序靠前的预设数目个待
预测数据作为答案抽取数据;
[0039]选择所述答案抽取数据对应的答案开始位置概率和答案结束位置概率之和最大的位置索引,同时所述结束位置位于所述开始位置之后;
[0040]当所述位置索引确定的答案抽取数据对应的置信度大于阈值时,从所述答案抽取数据中截取候选片段作为所述待回答问题的答案。
[0041]进一步地,当所述位置索引确定的答案抽取数据对应的置信度小于阈值时,启用拒识,返回空的答案片段。
[0042]进一步地,将所述输入文本向量特征输入所述置信度网络结构,获得所述输入文本的置信度包括:
[0043]将所述输入文本向量特征分别在两个方向上进行复制,获得两个维度均为[L,L,H]的扩展向量,其中,L表述所述输入文本的长度,H表示所述预训练模型Bert的隐层维度;
[0044]将两个所述扩展向量进行拼接,获得维度为[L,L,H*2]的三维向量;
[0045]根据所述三维向量经过线性层获得置信度矩阵,根据所述置信度矩阵获得所述输入文本的置信度。
[0046]第二方面,本专利技术实施例提供一种智能问答装置,所述装置包括:
[0047]预处理模块,用于对多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能问答方法,其特征在于,所述方法包括:对多个文档数据进行预处理,获得无标注训练数据、文档段落集和文档片段集;利用所述无标注训练数据对预训练模型进行继续训练,其中,所述预训练模型在大规模通用语料上训练得到;针对待回答问题,使用召回算法对所述文档段落集和所述文档片段集进行粗召回,获得候选段落和候选片段,并对所述候选片段进行后处理;将待回答问题依次与每一条候选段落和后处理后的候选片段进行拼接,获得多条待预测数据;将所述多条待预测数据输入继续训练好的模型中,获取输入文本向量特征;将所述输入文本向量特征输入答案抽取层获得所述待回答问题对应的答案。2.根据权利要求1所述的方法,其特征在于,每一条所述无标注训练数据为所述文档数据中的一个完整的句子;所述文档数据中的一个段落文本为所述文档段落集中一条独立数据,所述文档段落集中忽略各段落文本的顺序信息;所述文档片段集中每一个文本片段包含所述文档数据中的若干段落,且包含所述若干段落的顺序信息,和/或所述文档片段集中每一个文本片段包含所述文档数据中的某一段落的部分内容。3.根据权利要求1所述的方法,其特征在于,针对待回待问题,使用召回算法对所述文档段落集和所述文档片段集进行粗召回,获得候选段落和候选片段包括:去掉所述待回答问题中的停用词;使用BM25召回算法分别对所述文档段落集和所述文档片段集进行检索;对检索结果进行排序后获得排序靠前的预设数目个候选段落和候选片段。4.根据权利要求1所述的方法,其特征在于,对所述候选片段进行后处理包括:使用标点符号将所述候选片段切分为若干子片段;计算每一个所述子片段与所述待回答问题之间的编辑距离;根据所述编辑距离获得所述待回答问题的最匹配子片段;以所述最匹配子片段为基准向后进行文本扩充,所述文本扩充以表示句子完整性的标点符号结尾,同时所述最匹配子片段和所述扩充文本的长度限制在预设字数内;将所述最匹配子片段及其扩充文本进行合并,获得后处理后的候选片段。5.根据权利要求4所述的方法,其特征在于,当根据所述编辑距离无法获得与所述待回答问题最匹配的子片段时,比较每一个所述子片段与所述待回答问题的字符特征,根据字符特征获得所述待回答问题的最匹配子片段。6.根据权利要求5所述的方法,其特征在于,如无法获得满足条件的最匹配子片段,则以所述候选片段为基准向后进行文本扩充,所述文本扩充以表示句子完整性的标点符号结尾,同时所述候选片段和所述扩充文本的长度限制在预设字数内;将所述候选片段及其扩充文本进行合并,获得后处理后的候选片段。7.根据权利要求1所述的方法,其特征在于,每一条所述待预测数据的形式为:[CLS]+query+[SEP]+text+[SEP],其中,所述[CLS]、[SEP]分别为所述继续训练好的模型所需的特
殊标识符,query为待回答问题,text为一条...

【专利技术属性】
技术研发人员:杨娟翟士丹王博于政王道广鲍红飞
申请(专利权)人:北京海致星图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1