问答匹配方法、文本匹配模型的训练方法和相关设备组成比例

技术编号:29938232 阅读:17 留言:0更新日期:2021-09-04 19:18
本申请实施例提供一种问答匹配方法、文本匹配模型的训练方法和相关设备,该方法包括:在问答知识库中确定与待回答问题匹配的N个候选问题,所述N为大于1的整数;分别将N组数据输入文本匹配模型,输出N个语义相似度,每组数据均包括所述待回答问题和一个所述候选问题,所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度;根据所述N个语义相似度,确定所述N个候选问题中的目标问题,所述目标问题与所述待回答问题的接近度大于或等于第一阈值;根据所述目标问题确定所述待回答问题的答案。采用本申请实施例提供的方法能够待回答问题的答案的准确性。够待回答问题的答案的准确性。够待回答问题的答案的准确性。

【技术实现步骤摘要】
问答匹配方法、文本匹配模型的训练方法和相关设备


[0001]本申请实施例涉及自然语言处理
,尤其涉及一种问答匹配方法、文本匹配模型的训练方法和相关设备。

技术介绍

[0002]随着计算机科学与人工智能技术的快速发展,越来越多的人工智能产品应用到日常生活中,为人们提供各种便利服务。其中,基于常见问题(Frequently Asked Questions,FAQ)的智能问答系统就是一项典型的应用产品,且在实际生活中应用非常广泛。比如,它能够应用到智能客服、网络搜索等各种领域,当用户找客服咨询问题或使用搜索引擎搜索问题时,智能问答系统能够在大量资源中找到与用户问题相匹配的答案。
[0003]相关技术中,基于FAQ的智能问答系统中的常见问题和答案通常都是预先搜集整理出来的,一个问题对应一个答案,当为用户问题匹配答案时,先计算用户问题与智能问答系统中每个常见问题之间的句子相似度,将句子相似度最大的常见问题对应的答案作为用户问题匹配的答案。其中,句子相似度的计算方式通常采用词嵌入方式,即对用户问题和常见问题中的每一个词计算一个静态的词向量,通过余弦相似度计算用户问题与常见问题之间的词相似度,然后通过词相似度计算得到用户问题与每个常见问题之间的句子相似度,或者,将一句话中所有词向量采用累加等方法形成一个句子向量,分别得到用户问题对应的句子向量和每个常见问题对应的句子向量,再分别计算用户问题对应的句子向量与和每个常见问题对应的句子向量之间的余弦相似度。
[0004]但是,由于同一个问题可能有多种不同的文字表达,而基于词嵌入的方式计算句子相似度无法准确理解句子之间的语义关联性,可能会使得语义相同的两句话因表达文字不同而造成文字对应的词向量完全不同,进而导致两句话之间的句子相似度非常低,最终导致为用户问题匹配的答案准确率低。

技术实现思路

[0005]本申请实施例提供一种问答匹配方法、文本匹配模型的训练方法和相关设备,用于提高待回答问题的答案的准确性。
[0006]第一方面,本申请实施例提供一种问答匹配方法,包括:
[0007]在问答知识库中,确定与待回答问题匹配的N个候选问题,所述N为大于1的整数;
[0008]分别将N组数据输入文本匹配模型,输出N个语义相似度,每组数据均包括所述待回答问题和一个所述候选问题,所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度;
[0009]根据所述N个语义相似度,确定所述N个候选问题中的目标问题,所述目标问题与所述待回答问题的接近度大于或等于第一阈值;
[0010]根据所述目标问题确定所述待回答问题的答案。
[0011]可以看出,本申请实施例中,通过文本匹配模型能在深度语义方面更加准确的理
解待回答问题和候选答案之间的语义相似度,进而提高根据N个语义相似度确定得到的目标问题的准确性,最终提高根据目标问题确定待回答问题的答案的准确性。
[0012]第二方面,本申请实施例提供一种文本匹配模型的训练方法,包括:
[0013]在自然语言语料库中获取第一目标数据集和第二目标数据集;
[0014]根据所述第一目标数据集和第二目标数据集,确定文本匹配训练集,所述文本匹配训练集包括至少一个训练样本,所述训练样本包括两个问题以及两个问题之间的语义相似度;
[0015]将所述文本匹配训练集输入至预先建立的深度神经网络中进行训练,得到文本匹配模型。
[0016]可以看出,本申请实施例中,用于训练文本匹配模型所使用的训练集是在自然语言语料库中获取数据确定的,且训练集中的每一个训练样本均包括两个问题与两个问题之间的语义相似度,这样使得训练后的文本匹配模型能够在语义角度理解待回答问题,进而使得在实际应用中,能够在语义角度找出与待回答问题匹配的答案,提升待回答问题的答案的准确性。
[0017]第三方面,本申请实施例提供一种问答匹配装置,包括:
[0018]提取模块,用于在问答知识库中,确定与待回答问题匹配的N个候选问题,所述N为大于1的整数;
[0019]匹配模块,用于分别将N组数据输入文本匹配模型,输出N个语义相似度,每组数据均包括所述待回答问题和一个所述候选问题,所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度;
[0020]第一确定模块,用于根据所述N个语义相似度,确定所述N个候选问题中的目标问题,所述目标问题与所述待回答问题的接近度大于或等于第一阈值;
[0021]所述第一确定模块还用于根据所述目标问题确定所述待回答问题的答案。
[0022]第四方面,本申请实施例提供一种文本匹配模型的训练装置,包括:
[0023]获取模块,用于在自然语言语料库中获取第一目标数据集和第二目标数据集;
[0024]第二确定模块,用于根据所述第一目标数据集和第二目标数据集,确定文本匹配训练集,所述文本匹配训练集包括至少一个训练样本,所述训练样本包括两个问题以及两个问题之间的语义相似度;
[0025]训练模块,用于将所述文本匹配训练集输入至预先建立的深度神经网络中进行训练,得到文本匹配模型。
[0026]第五方面,本申请实施例提供一种计算机设备,包括:至少一个处理器和存储器;
[0027]所述存储器存储计算机执行指令;
[0028]所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行本申请实施例第一方面所述的问答匹配方法或第二方面所述的文本匹配模型的训练方法。
[0029]第六方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现本申请实施例第一方面所述的问答匹配方法或第二方面所述的文本匹配模型的训练方法。
附图说明
[0030]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0031]图1是本申请一示例性实施例示出的问答匹配方法的实施环境示意图;
[0032]图2是本申请一示例性实施例示出的问答匹配方法的流程示意图;
[0033]图3是本申请一示例性实施例示出的问答匹配方法的应用场景图;
[0034]图4是本申请另一示例性实施例示出的问答匹配方法的流程示意图;
[0035]图5是本申请另一示例性实施例示出的问答匹配方法的流程示意图;
[0036]图6是本申请另一示例性实施例示出的问答匹配方法的流程示意图;
[0037]图7a是本申请一示例性实施例示出的问答匹配方法的可视化场景图;
[0038]图7b是本申请另一示例性实施例示出的问答匹配方法的可视化场景图;
[0039]图8是本申请一示例性实施例示出的文本匹配本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答匹配方法,其特征在于,包括:在问答知识库中,确定与待回答问题匹配的N个候选问题,所述N为大于1的整数;分别将N组数据输入文本匹配模型,输出N个语义相似度,每组数据均包括所述待回答问题和一个所述候选问题,所述语义相似度用于表示所述待回答问题与所述候选问题之间的语义相似度;根据所述N个语义相似度,确定所述N个候选问题中的目标问题,所述目标问题与所述待回答问题的接近度大于或等于第一阈值;根据所述目标问题确定所述待回答问题的答案。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:分别确定每个所述候选问题与所述待回答问题之间的文本相似度特征,得到N个文本相似度特征;所述根据所述N个语义相似度,确定所述N个候选问题中的目标问题,包括:根据所述N个语义相似度和所述N个文本相似度特征,确定N个接近度,所述接近度用于表示所述待回答问题与所述候选问题的接近程度;将目标候选问题确定为所述目标问题,得到M个目标问题,所述目标候选问题对应的接近度大于或等于所述第一阈值。3.根据权利要求2所述的方法,其特征在于,在所述问答知识库中,每个问题对应至少一个答案;所述根据所述目标问题确定所述待回答问题的答案,包括:若所述M个目标问题对应的M个接近度中的最大接近度大于或等于第二阈值,则将第一目标问题对应的答案确定为所述待回答问题的答案,所述第一目标问题与所述最大接近度对应;若所述最大接近度小于所述第二阈值,则将K个第二目标问题对应的答案作为所述待回答问题的答案,所述M个目标问题包括所述K个第二目标问题,所述K小于或等于所述M。4.根据权利要求2所述的方法,其特征在于,所述文本相似度特征包括编辑距离和字相似度;所述根据所述N个语义相似度和所述N个文本相似度特征,确定N个接近度,包括:根据所述N个语义相似度、N个编辑距离和N个字相似度,确定每个所述候选问题与所述待回答问题的最大接近度和最小接近度,得到N个最大接近度和N个最小接近度;根据所述N个最小接近度和所述N个最大接近度,确定每个所述候选问题与所述待回答问题之间的接近度,得到所述N个接近度。5.根据权利要求4所述的方法,其特征在于,所述根据所述N个语义相似度、N个编辑距离和N个字相似度,确定每个所述候选问题与所述待回答问题的最大接近度和最小接近度,包括:根据每个所述候选问题与所述待回答问题之间的语义相似度、编辑距离、字相似度,以及所述N个语义相似度中的最大语义相似度、所述N个编辑距离中的最大编辑距离、所述N个字相似度中的最大字相似度,确定每个所述候选问题与所述待回答问题的最大接近度;根据每个所述候选问题与所述待回答问题之间的语义相似度、编辑距离、字相似度,以及所述N个语义相似度中的最小语义相似度、所述N个编辑距离中的最小编辑距离、所述N个字相似度中的最小字相似度,确定每个所述候选问题与所述待回答问题的最小接近度。6.根据权利要求1

5任一项所述的方法,其特征在于,所述在问答知识库中,确定与待回答问题匹配的N个候选问题,包括:
分别计算所述问答知识库中的每一个问题与所述待回答问题之间的关键词相似度;将目标关键词相似度对应的问题确定为候选问题,得到所述N个候选问题,所述目标关键词相似度大于或等于第三阈值。7.根据权利要求1

5任一项所述的方法,其特征在于,若所述问答知识库中一个问题对应一个答案,则所述文本匹配模型为通用的文本匹配模型;若所述问答知识库中多个相似问题对应一个答案,则所述文本匹配模型为专用的文本匹配模型,且所述专用的文本匹配模型是根据所述问答知识库中的问题与答案对所述通用的文本匹配模型进行训练得到的。8.一种文本匹配模型的训练方法,其特征在于,所述方法包括:在自然语言语料库中获取第一目标数据集和第二目标数据集;根据所述第一目标数据集和第二目标数据集,确...

【专利技术属性】
技术研发人员:罗通吴海英蒋宁王洪斌
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1