智能问答方法、装置、存储介质和设备制造方法及图纸

技术编号：38159072 阅读：9 留言：0更新日期：2023-07-13 09:29

本发明专利技术实施例提供一种智能问答方法、装置、存储介质和设备，该方法包括：对多个文档数据进行预处理，获得无标注训练数据、文档段落集和文档片段集，利用无标注训练数据对预训练模型进行继续训练，针对待回答问题，使用召回算法对文档段落集和文档片段集进行粗召回，获得候选段落和候选片段，并对候选片段进行后处理，将待回答问题依次与每一条候选段落和后处理后的候选片段进行拼接，获得多条待预测数据，将多条待预测数据输入继续训练好的模型中，获取输入文本向量特征，将输入文本向量特征输入答案抽取层获得所述待回答问题对应的答案。本发明专利技术能够提高问答效率和准确率，且能够支持跨段落的待回答问题。够支持跨段落的待回答问题。够支持跨段落的待回答问题。

全部详细技术资料下载

【技术实现步骤摘要】
智能问答方法、装置、存储介质和设备

[0001]本专利技术涉及数据处理
，尤其涉及一种智能问答方法、装置、存储介质和设备。

技术介绍

[0002]智能问答系统是属于信息检索的一种表现形式。文档智能问答即基于具体的文档，通过理解用户的具体问题，定位并返回满足问题的相关文本。通常，文档智能问答系统包含多种，比如：FAQ检索式问答系统，KBQA图谱问答系统，MRC问答系统等。其中MRC问答系统由于提问方式灵活，无需预订信息等优点被广泛应用。
[0003]现有的MRC问答系统首先文档解析成段落集存入数据库，之后根据用户提出的待回答问题，从数据库中粗召回候选段落，再利用文本匹配模型对候选段落进行精排，将用户待回答问题以及最相关段落文本输入阅读理解模型，返回答案。
[0004]现有的MRC问答系统目前存在以下问题：
[0005]a.目前精排使用的文本匹配算法和获取答案使用的阅读理解模型，均使用预训练模型作文本的向量表示，对于一个问答系统来说，如果计算机资源有限的条件下，一个流程内多次使用预训练模型，会使得系统的推理速度变慢。
[0006]b.目前的MRC阅读理解模型缺少拒识能力，导致模型抽取的无效答案也被返回给用户。
[0007]c.由于需要将文档解析成为段落进行存储，导致召回的段落之间相互孤立，丢失了段落原本的上下文联系，如果待回答问题的答案是跨段落的，而召回的段落又缺少上下文段落，则会导致MRC问答系统无法支持答案跨段落的待回答问题。
[0008]d.基于通用语料训练的预...

【技术保护点】

【技术特征摘要】
1.一种智能问答方法，其特征在于，所述方法包括：对多个文档数据进行预处理，获得无标注训练数据、文档段落集和文档片段集；利用所述无标注训练数据对预训练模型进行继续训练，其中，所述预训练模型在大规模通用语料上训练得到；针对待回答问题，使用召回算法对所述文档段落集和所述文档片段集进行粗召回，获得候选段落和候选片段，并对所述候选片段进行后处理；将待回答问题依次与每一条候选段落和后处理后的候选片段进行拼接，获得多条待预测数据；将所述多条待预测数据输入继续训练好的模型中，获取输入文本向量特征；将所述输入文本向量特征输入答案抽取层获得所述待回答问题对应的答案。2.根据权利要求1所述的方法，其特征在于，每一条所述无标注训练数据为所述文档数据中的一个完整的句子；所述文档数据中的一个段落文本为所述文档段落集中一条独立数据，所述文档段落集中忽略各段落文本的顺序信息；所述文档片段集中每一个文本片段包含所述文档数据中的若干段落，且包含所述若干段落的顺序信息，和/或所述文档片段集中每一个文本片段包含所述文档数据中的某一段落的部分内容。3.根据权利要求1所述的方法，其特征在于，针对待回待问题，使用召回算法对所述文档段落集和所述文档片段集进行粗召回，获得候选段落和候选片段包括：去掉所述待回答问题中的停用词；使用BM25召回算法分别对所述文档段落集和所述文档片段集进行检索；对检索结果进行排序后获得排序靠前的预设数目个候选段落和候选片段。4.根据权利要求1所述的方法，其特征在于，对所述候选片段进行后处理包括：使用标点符号将所述候选片段切分为若干子片段；计算每一个所述子片段与所述待回答问题之间的编辑距离；根据所述编辑距离获得所述待回答问题的最匹配子片段；以所述最匹配子片段为基准向后进行文本扩充，所述文本扩充以表示句子完整性的标点符号结尾，同时所述最匹配子片段和所述扩充文本的长度限制在预设字数内；将所述最匹配子片段及其扩充文本进行合并，获得后处理后的候选片段。5.根据权利要求4所述的方法，其特征在于，当根据所述编辑距离无法获得与所述待回答问题最匹配的子片段时，比较每一个所述子片段与所述待回答问题的字符特征，根据字符特征获得所述待回答问题的最匹配子片段。6.根据权利要求5所述的方法，其特征在于，如无法获得满足条件的最匹配子片段，则以所述候选片段为基准向后进行文本扩充，所述文本扩充以表示句子完整性的标点符号结尾，同时所述候选片段和所述扩充文本的长度限制在预设字数内；将所述候选片段及其扩充文本进行合并，获得后处理后的候选片段。7.根据权利要求1所述的方法，其特征在于，每一条所述待预测数据的形式为：[CLS]+query+[SEP]+text+[SEP]，其中，所述[CLS]、[SEP]分别为所述继续训练好的模型所需的特
殊标识符，query为待回答问题，text为一条...

【专利技术属性】
技术研发人员：杨娟，翟士丹，王博，于政，王道广，鲍红飞，
申请(专利权)人：北京海致星图科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人