问答匹配方法、文本匹配模型的训练方法和相关设备组成比例

技术编号：29938232 阅读：17 留言：0更新日期：2021-09-04 19:18

本申请实施例提供一种问答匹配方法、文本匹配模型的训练方法和相关设备，该方法包括：在问答知识库中确定与待回答问题匹配的N个候选问题，所述N为大于1的整数；分别将N组数据输入文本匹配模型，输出N个语义相似度，每组数据均包括所述待回答问题和一个所述候选问题，所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度；根据所述N个语义相似度，确定所述N个候选问题中的目标问题，所述目标问题与所述待回答问题的接近度大于或等于第一阈值；根据所述目标问题确定所述待回答问题的答案。采用本申请实施例提供的方法能够待回答问题的答案的准确性。够待回答问题的答案的准确性。够待回答问题的答案的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
问答匹配方法、文本匹配模型的训练方法和相关设备

[0001]本申请实施例涉及自然语言处理
，尤其涉及一种问答匹配方法、文本匹配模型的训练方法和相关设备。

技术介绍

[0002]随着计算机科学与人工智能技术的快速发展，越来越多的人工智能产品应用到日常生活中，为人们提供各种便利服务。其中，基于常见问题(Frequently Asked Questions，FAQ)的智能问答系统就是一项典型的应用产品，且在实际生活中应用非常广泛。比如，它能够应用到智能客服、网络搜索等各种领域，当用户找客服咨询问题或使用搜索引擎搜索问题时，智能问答系统能够在大量资源中找到与用户问题相匹配的答案。
[0003]相关技术中，基于FAQ的智能问答系统中的常见问题和答案通常都是预先搜集整理出来的，一个问题对应一个答案，当为用户问题匹配答案时，先计算用户问题与智能问答系统中每个常见问题之间的句子相似度，将句子相似度最大的常见问题对应的答案作为用户问题匹配的答案。其中，句子相似度的计算方式通常采用词嵌入方式，即对用户问题和常见问题中的每一个词计算一个静态的词向量，通过余弦相似度计算用户问题与常见问题之间的词相似度，然后通过词相似度计算得到用户问题与每个常见问题之间的句子相似度，或者，将一句话中所有词向量采用累加等方法形成一个句子向量，分别得到用户问题对应的句子向量和每个常见问题对应的句子向量，再分别计算用户问题对应的句子向量与和每个常见问题对应的句子向量之间的余弦相似度。
[0004]但是，由于同一个问题可能有多种不同的文字表达，...

【技术保护点】

【技术特征摘要】
1.一种问答匹配方法，其特征在于，包括：在问答知识库中，确定与待回答问题匹配的N个候选问题，所述N为大于1的整数；分别将N组数据输入文本匹配模型，输出N个语义相似度，每组数据均包括所述待回答问题和一个所述候选问题，所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度；根据所述N个语义相似度，确定所述N个候选问题中的目标问题，所述目标问题与所述待回答问题的接近度大于或等于第一阈值；根据所述目标问题确定所述待回答问题的答案。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：分别确定每个所述候选问题与所述待回答问题之间的文本相似度特征，得到N个文本相似度特征；所述根据所述N个语义相似度，确定所述N个候选问题中的目标问题，包括：根据所述N个语义相似度和所述N个文本相似度特征，确定N个接近度，所述接近度用于表示所述待回答问题与所述候选问题的接近程度；将目标候选问题确定为所述目标问题，得到M个目标问题，所述目标候选问题对应的接近度大于或等于所述第一阈值。3.根据权利要求2所述的方法，其特征在于，在所述问答知识库中，每个问题对应至少一个答案；所述根据所述目标问题确定所述待回答问题的答案，包括：若所述M个目标问题对应的M个接近度中的最大接近度大于或等于第二阈值，则将第一目标问题对应的答案确定为所述待回答问题的答案，所述第一目标问题与所述最大接近度对应；若所述最大接近度小于所述第二阈值，则将K个第二目标问题对应的答案作为所述待回答问题的答案，所述M个目标问题包括所述K个第二目标问题，所述K小于或等于所述M。4.根据权利要求2所述的方法，其特征在于，所述文本相似度特征包括编辑距离和字相似度；所述根据所述N个语义相似度和所述N个文本相似度特征，确定N个接近度，包括：根据所述N个语义相似度、N个编辑距离和N个字相似度，确定每个所述候选问题与所述待回答问题的最大接近度和最小接近度，得到N个最大接近度和N个最小接近度；根据所述N个最小接近度和所述N个最大接近度，确定每个所述候选问题与所述待回答问题之间的接近度，得到所述N个接近度。5.根据权利要求4所述的方法，其特征在于，所述根据所述N个语义相似度、N个编辑距离和N个字相似度，确定每个所述候选问题与所述待回答问题的最大接近度和最小接近度，包括：根据每个所述候选问题与所述待回答问题之间的语义相似度、编辑距离、字相似度，以及所述N个语义相似度中的最大语义相似度、所述N个编辑距离中的最大编辑距离、所述N个字相似度中的最大字相似度，确定每个所述候选问题与所述待回答问题的最大接近度；根据每个所述候选问题与所述待回答问题之间的语义相似度、编辑距离、字相似度，以及所述N个语义相似度中的最小语义相似度、所述N个编辑距离中的最小编辑距离、所述N个字相似度中的最小字相似度，确定每个所述候选问题与所述待回答问题的最小接近度。6.根据权利要求1
‑
5任一项所述的方法，其特征在于，所述在问答知识库中，确定与待回答问题匹配的N个候选问题，包括：
分别计算所述问答知识库中的每一个问题与所述待回答问题之间的关键词相似度；将目标关键词相似度对应的问题确定为候选问题，得到所述N个候选问题，所述目标关键词相似度大于或等于第三阈值。7.根据权利要求1
‑
5任一项所述的方法，其特征在于，若所述问答知识库中一个问题对应一个答案，则所述文本匹配模型为通用的文本匹配模型；若所述问答知识库中多个相似问题对应一个答案，则所述文本匹配模型为专用的文本匹配模型，且所述专用的文本匹配模型是根据所述问答知识库中的问题与答案对所述通用的文本匹配模型进行训练得到的。8.一种文本匹配模型的训练方法，其特征在于，所述方法包括：在自然语言语料库中获取第一目标数据集和第二目标数据集；根据所述第一目标数据集和第二目标数据集，确...

【专利技术属性】
技术研发人员：罗通，吴海英，蒋宁，王洪斌，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人