System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本匹配方法、装置、设备及存储介质制造方法及图纸_技高网

文本匹配方法、装置、设备及存储介质制造方法及图纸

技术编号:43879424 阅读:5 留言:0更新日期:2024-12-31 19:02
本公开提供一种文本匹配方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取待匹配文本的待匹配词序列;获取待匹配文本的候选匹配结果词序列;基于自注意力机制分别获得待匹配词序列的词嵌入向量和候选匹配结果词序列的词嵌入向量;对待匹配词序列的词嵌入向量和候选匹配结果词序列的词嵌入向量分别进行特征提取处理,获得待匹配词序列的特征序列和候选匹配结果词序列的特征序列;根据待匹配词序列的特征序列和候选匹配结果词序列的特征序列获得包含待匹配文本与候选匹配结果之间的相似性比较信息的相似性特征向量;基于相似性特征向量获得待匹配文本与候选匹配结果之间的匹配结果。该方法可提高文本匹配的准确率。

【技术实现步骤摘要】

本公开涉及计算机,具体而言,涉及一种文本匹配方法、装置、电子设备及可读存储介质。


技术介绍

1、随着计算机技术的发展,越来越多的系统利用人工智能技术回答用户提出的问题。相关技术中的问答系统中采用关键词匹配的方法将用户提出的问题与问答库中的问题进行匹配,获取与匹配成功的问句对应的回答来回复客户。由于中文含义的丰富性,直接根据关键字匹配来衡量句子之间的语义相似度,在一些情况下,尤其是复杂的语句环境下,问句匹配准确率较低,从而导致问答准确率较低。

2、如上所述,如何提高文本匹配的准确率成为亟待解决的问题。

3、在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本公开的目的在于提供一种文本匹配方法、装置、电子设备及可读存储介质,至少在一定程度上提高文本匹配的准确率。

2、本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

3、根据本公开的一方面,提供一种文本匹配方法,包括:获取待匹配文本的待匹配词序列;获取待匹配文本的候选匹配结果词序列;基于自注意力机制分别获得待匹配词序列的词嵌入向量和候选匹配结果词序列的词嵌入向量;对所述待匹配词序列的词嵌入向量和所述候选匹配结果词序列的词嵌入向量分别进行特征提取处理,获得待匹配词序列的特征序列和候选匹配结果词序列的特征序列;根据所述待匹配词序列的特征序列和所述候选匹配结果词序列的特征序列获得相似性特征向量,所述相似性特征向量包含待匹配文本与候选匹配结果之间的相似性比较信息;基于所述相似性特征向量获得待匹配文本与候选匹配结果之间的匹配结果。

4、根据本公开的一实施例,对所述待匹配词序列的词嵌入向量和所述候选匹配结果词序列的词嵌入向量分别进行特征提取处理,获得待匹配词序列的特征序列和候选匹配结果词序列的特征序列,包括:基于多头注意力机制对所述待匹配词序列的词嵌入向量进行特征提取处理,获得所述待匹配词序列的特征序列;基于多头注意力机制对所述候选匹配结果词序列的词嵌入向量进行特征提取处理,获得所述候选匹配结果词序列的特征序列。

5、根据本公开的一实施例,所述相似性特征向量包括待匹配词序列的合成推理特征向量和候选匹配结果词序列的合成推理特征向量;根据所述待匹配词序列的特征序列和所述候选匹配结果词序列的特征序列获得相似性特征向量,包括:对所述待匹配词序列的特征序列和所述候选匹配结果词序列的特征序列进行差异性计算,获得待匹配词序列的差异性特征序列和候选匹配结果词序列的差异性特征序列;对所述待匹配词序列的差异性特征序列和所述候选匹配结果词序列的差异性特征序列分别进行特征提取处理,获得所述待匹配词序列的合成推理特征向量和所述候选匹配结果词序列的合成推理特征向量。

6、根据本公开的一实施例,对所述待匹配词序列的差异性特征序列和所述候选匹配结果词序列的差异性特征序列分别进行特征提取处理,获得所述待匹配词序列的合成推理特征向量和所述候选匹配结果词序列的合成推理特征向量,包括:基于多头注意力机制对所述待匹配词序列的差异性特征序列进行特征提取处理,获得所述待匹配词序列的合成推理特征向量;基于多头注意力机制对所述候选匹配结果词序列的差异性特征序列进行特征提取处理,获得所述候选匹配结果词序列的合成推理特征向量。

7、根据本公开的一实施例,对所述待匹配词序列的特征序列和所述候选匹配结果词序列的特征序列进行差异性计算,获得待匹配词序列的差异性特征序列和候选匹配结果词序列的差异性特征序列,包括:计算所述待匹配词序列的特征序列和所述候选匹配结果词序列的特征序列之间的注意力权重;根据所述注意力权重获得待匹配词序列的特征序列的加权序列和候选匹配结果词序列的特征序列的加权序列;根据待匹配词序列的特征序列及其加权序列获得所述待匹配词序列的差异性特征序列;根据候选匹配结果词序列的特征序列及其加权序列获得所述候选匹配结果词序列的差异性特征序列。

8、根据本公开的一实施例,获取待匹配文本的候选匹配结果词序列,包括:从问答数据库中获得待匹配文本的候选匹配结果;对所述待匹配文本的候选匹配结果进行分词,获得所述待匹配文本的候选匹配结果词序列;所述方法还包括:根据所述待匹配文本与候选匹配结果之间的匹配结果更新所述问答数据库。

9、根据本公开的一实施例,获取待匹配文本的候选匹配结果词序列,包括:获取问答数据库中的多个问句;分别计算所述待匹配文本的待匹配词序列与各个问句的相似度得分;从所述多个问句选取与所述待匹配文本的待匹配词序列的相似度得分最高的预设数量个问句,获得待匹配文本的候选匹配结果;对所述待匹配文本的候选匹配结果中的各个问句进行分词,获得所述待匹配文本的候选匹配结果词序列。

10、根据本公开的一实施例,所述相似性特征向量包括待匹配词序列的合成推理特征向量和候选匹配结果词序列的合成推理特征向量;基于所述相似性特征向量获得待匹配文本与候选匹配结果之间的匹配结果,包括:对所述待匹配词序列的合成推理特征向量进行平均池化和最大池化处理,获得待匹配词序列的平均池化特征值和最大池化特征值;对所述候选匹配结果词序列的合成推理特征向量进行平均池化和最大池化处理,获得候选匹配结果词序列的平均池化特征值和最大池化特征值;将所述待匹配词序列的平均池化特征值和最大池化特征值、所述候选匹配结果词序列的平均池化特征值和最大池化特征值排列为全连接输入向量;将所述全连接输入向量进行加权与偏置处理,获得分类器输入向量;将所述分类器输入向量通过软最大分类器进行分类,获得所述待匹配文本与候选匹配结果之间的匹配结果。

11、根据本公开的一实施例,获取待匹配文本的待匹配词序列,包括:对待匹配文本进行分词处理,获得待匹配文本的分词结果;将所述待匹配文本的分词结果与预设停用词表进行比对,去除所述待匹配文本的分词结果中的停用词,获得所述待匹配词序列。

12、根据本公开的再一方面,提供一种文本匹配装置,包括:第一获取模块,用于获取待匹配文本的待匹配词序列;第二获取模块,用于获取待匹配文本的候选匹配结果词序列;词嵌入模块,用于基于自注意力机制分别获得待匹配词序列的词嵌入向量和候选匹配结果词序列的词嵌入向量;特征提取模块,用于对所述待匹配词序列的词嵌入向量和所述候选匹配结果词序列的词嵌入向量分别进行特征提取处理,获得待匹配词序列的特征序列和候选匹配结果词序列的特征序列;相似性计算模块,用于根据所述待匹配词序列的特征序列和所述候选匹配结果词序列的特征序列获得相似性特征向量,所述相似性特征向量包含待匹配文本与候选匹配结果之间的相似性比较信息;分类模块,用于基于所述相似性特征向量获得待匹配文本与候选匹配结果之间的匹配结果。

13、根据本公开的再一方面,提供一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种方法。

本文档来自技高网...

【技术保护点】

1.一种文本匹配方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述待匹配词序列的词嵌入向量和所述候选匹配结果词序列的词嵌入向量分别进行特征提取处理,获得待匹配词序列的特征序列和候选匹配结果词序列的特征序列,包括:

3.根据权利要求1所述的方法,其特征在于,所述相似性特征向量包括待匹配词序列的合成推理特征向量和候选匹配结果词序列的合成推理特征向量;

4.根据权利要求3所述的方法,其特征在于,对所述待匹配词序列的差异性特征序列和所述候选匹配结果词序列的差异性特征序列分别进行特征提取处理,获得所述待匹配词序列的合成推理特征向量和所述候选匹配结果词序列的合成推理特征向量,包括:

5.根据权利要求3所述的方法,其特征在于,对所述待匹配词序列的特征序列和所述候选匹配结果词序列的特征序列进行差异性计算,获得待匹配词序列的差异性特征序列和候选匹配结果词序列的差异性特征序列,包括:

6.根据权利要求1所述的方法,其特征在于,获取待匹配文本的候选匹配结果词序列,包括:

7.根据权利要求1中所述的方法,其特征在于,获取待匹配文本的候选匹配结果词序列,包括:

8.根据权利要求1中所述的方法,其特征在于,所述相似性特征向量包括待匹配词序列的合成推理特征向量和候选匹配结果词序列的合成推理特征向量;

9.根据权利要求1中所述的方法,其特征在于,获取待匹配文本的待匹配词序列,包括:

10.一种文本匹配装置,其特征在于,包括:

11.一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1-9任一项所述的方法。

...

【技术特征摘要】

1.一种文本匹配方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述待匹配词序列的词嵌入向量和所述候选匹配结果词序列的词嵌入向量分别进行特征提取处理,获得待匹配词序列的特征序列和候选匹配结果词序列的特征序列,包括:

3.根据权利要求1所述的方法,其特征在于,所述相似性特征向量包括待匹配词序列的合成推理特征向量和候选匹配结果词序列的合成推理特征向量;

4.根据权利要求3所述的方法,其特征在于,对所述待匹配词序列的差异性特征序列和所述候选匹配结果词序列的差异性特征序列分别进行特征提取处理,获得所述待匹配词序列的合成推理特征向量和所述候选匹配结果词序列的合成推理特征向量,包括:

5.根据权利要求3所述的方法,其特征在于,对所述待匹配词序列的特征序列和所述候选匹配结果词序列的特征序列进行差异性计算,获得待匹配词序列的差异性特征序列和候选匹配结果词序列的差异性特征序列,包...

【专利技术属性】
技术研发人员:王新宇
申请(专利权)人:北京京东振世信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1