一种确定文本匹配方法及装置制造方法及图纸

技术编号:34700507 阅读:11 留言:0更新日期:2022-08-27 16:36
本申请提供一种确定文本匹配方法及装置,应用于深度学习的技术领域。该方法包括:获取第一文本和第二文本,从所述第一文本中提取第一关键词,构建第一特征图,从所述第二文本中提取第二关键词,构建第二特征图。将第一特征图输入预设神经网络模型训练,获得第一向量,将第二特征图输入预设神经网络模型训练,获得第二向量,基于处理长度不同且粒度相同的匹配任务的多任务学习模型,根据第一向量、第二向量的乘积确定第一匹配概率。响应于所述第一匹配概率大于第一阈值,确定第一文本和第二文本匹配。本申请中通过训练好的多任务学习模型确定文本匹配概率,可以处理长度不同且粒度相同的多种匹配任务,提高确定文本匹配效率。提高确定文本匹配效率。提高确定文本匹配效率。

【技术实现步骤摘要】
一种确定文本匹配方法及装置


[0001]本申请涉及深度学习的
,特别是涉及一种确定文本匹配方法。

技术介绍

[0002]近年来,随着互联网的高速发展,网络平台上时常会出现一些相似或者冗余的文本,由于文本中大多存在大量文字内容,用户难以在短时间进行判别两个或者多个文本是否相似。而且运营商也很难为用户推荐表意不同的文本。所以需要对不同文本进行匹配,以筛选出匹配文本。
[0003]目前,通过transformer模型确定两个文本是否匹配,由于transformer模型只能解决一类特定的匹配任务,例如,长长文本匹配、长短文本匹配等原因,导致其有确定文本匹配效率低缺点。
[0004]因此,如何处理所有类型的匹配任务,提高确定文本匹配效率,是本领域技术人员急需解决的技术问题。

技术实现思路

[0005]基于上述问题,本申请提供了一种确定文本匹配方法及装置,以能够处理所有类型的匹配任务,提高确定文本匹配效率。本申请实施例公开了如下技术方案。
[0006]第一方面,本申请提的一种确定文本匹配方法,包括:获取第一文本和第二文本;从所述第一文本中提取第一关键词,构建第一特征图,从所述第二文本中提取第二关键词,构建第二特征图;将所述第一特征图输入预设神经网络模型训练,获得第一向量,将所述第二特征图输入所述预设神经网络模型训练,获得第二向量;基于多任务学习模型,根据所述第一向量和所述第二向量的乘积确定第一匹配概率,所述多任务学习模型用于处理长度不同且粒度相同的匹配任务;响应于所述第一匹配概率大于第一阈值,确定所述第一文本和所述第二文本匹配。
[0007]可选的,所述从所述第一文本中提取第一关键词,构建第一特征图,包括:从所述第一文本中提取第一关键词,获得第一节点集合;从所述第一节点集合中确定多个第二节点,通过所述多个第二节点构建所述第一特征图,第二节点为所述第一节点集合中处于同一句话的节点。
[0008]可选的,在所述构建所述第一特征图之前,所述方法还包括:计算第一相关性,所述第一相关性为所述多个第二节点之间的相关性;响应于所述第一相关性大于第一相关性阈值,连接所述多个第二节点,构建所述第一特征图。
[0009]可选的,所述基于多任务学习模型,根据所述第一向量和所述第二向量的乘积确
定第一匹配概率包括:根据所述第一向量和所述第二向量的乘积确定第一训练参数;将所述第一训练参数、事件粒度常数和话题粒度常数输入多任务学习模型;根据所述第一训练参数、所述事件粒度常数和所述话题粒度常数的乘积确定所述第一匹配概率,所述事件粒度常数用于指示文本匹配中事件匹配的重要程度,所述话题粒度常数用于指示文本匹配中话题匹配的重要程度。
[0010]可选的,在确定所述第一文本和所述第二文本匹配之后,所述方法还包括:基于所述第一匹配概率,训练第一模型,所述第一模型用于判断第三文本和第四文本是否匹配。
[0011]第二方面,本申请提供一种确定文本匹配装置,包括:获取单元,用于获取第一文本和第二文本;提取单元,用于从所述第一文本中提取第一关键词,构建第一特征图,从所述第二文本中提取第二关键词,构建第二特征图;输入单元,用于将所述第一特征图输入预设神经网络模型训练,获得第一向量,将所述第二特征图输入所述预设神经网络模型训练,获得第二向量;第一确定单元,用于基于多任务学习模型,根据所述第一向量和所述第二向量的乘积确定第一匹配概率,所述多任务学习模型用于处理长度不同且粒度相同的匹配任务;第二确定单元,用于响应于所述第一匹配概率大于第一阈值,确定所述第一文本和所述第二文本匹配。
[0012]可选的,所述提取单元具体用于,从所述第一文本中提取第一关键词,获得第一节点集合;从所述第一节点集合中确定多个第二节点,通过所述多个第二节点构建所述第一特征图,第二节点为所述第一节点集合中处于同一句话的节点。
[0013]可选的,所述装置还包括:计算单元,用于计算第一相关性,所述第一相关性为所述多个第二节点之间的相关性;响应单元,用于响应于所述第一相关性大于第一相关性阈值,连接所述多个第二节点,构建所述第一特征图。
[0014]可选的,所述第一确定单元具体用于:根据所述第一向量和所述第二向量的乘积确定第一训练参数;将所述第一训练参数、事件粒度常数和话题粒度常数输入多任务学习模型;根据所述第一训练参数、所述事件粒度常数和所述话题粒度常数的乘积确定所述第一匹配概率,所述事件粒度常数用于指示文本匹配中事件匹配的重要程度,所述话题粒度常数用于指示文本匹配中话题匹配的重要程度。
[0015]可选的,所述装置还包括:训练单元,用于基于所述第一匹配概率,训练第一模型,所述第一模型用于判断第三文本和第四文本是否匹配。
[0016]第三方面,本申请实施例提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述
第一方面任一项所述的方法。
[0017]第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述的方法。
[0018]相较于现有技术,本申请具有以下有益效果:本申请中获取第一文本和第二文本,从所述第一文本中提取第一关键词,构建第一特征图,从所述第二文本中提取第二关键词,构建第二特征图。将第一特征图输入预设神经网络模型训练,获得第一向量,将第二特征图输入预设神经网络模型训练,获得第二向量,基于用于处理长度不同且粒度相同的匹配任务的多任务学习模型,根据第一向量、第二向量的乘积确定第一匹配概率。响应于所述第一匹配概率大于第一阈值,确定第一文本和第二文本匹配。本申请中通过训练好的多任务学习模型确定文本匹配概率,可以处理长度不同且粒度相同的多个匹配任务。这样就克服了现有技术中通过transformer模型确定两个文本是否匹配,由于transformer模型只能解决一类特定的匹配任务,例如,长长文本匹配、长短文本匹配等,导致其存在确定文本匹配效率低的问题。提高确定文本匹配效率。
附图说明
[0019]为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本申请实施例提供的一种确定文本匹配方法流程图;图2为本申请实施例提供的一种确定文本匹配装置一种具体的结构示意图。
具体实施方式
[0021]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
[0022]需要说明的是,本申请提供的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定文本匹配方法,其特征在于,包括:获取第一文本和第二文本;从所述第一文本中提取第一关键词,构建第一特征图,从所述第二文本中提取第二关键词,构建第二特征图;将所述第一特征图输入预设神经网络模型训练,获得第一向量,将所述第二特征图输入所述预设神经网络模型训练,获得第二向量;基于多任务学习模型,根据所述第一向量和所述第二向量的乘积确定第一匹配概率,所述多任务学习模型用于处理长度不同且粒度相同的匹配任务;响应于所述第一匹配概率大于第一阈值,确定所述第一文本和所述第二文本匹配。2.根据权利要求1中所述的方法,其特征在于,所述从所述第一文本中提取第一关键词,构建第一特征图,包括:从所述第一文本中提取第一关键词,获得第一节点集合;从所述第一节点集合中确定多个第二节点,通过所述多个第二节点构建所述第一特征图,第二节点为所述第一节点集合中处于同一句话的节点。3.根据权利要求2中所述的方法,其特征在于,在所述构建所述第一特征图之前,所述方法还包括:计算第一相关性,所述第一相关性为所述多个第二节点之间的相关性;响应于所述第一相关性大于第一相关性阈值,连接所述多个第二节点,构建所述第一特征图。4.根据权利要求1中所述的方法,其特征在于,所述基于多任务学习模型,根据所述第一向量和所述第二向量的乘积确定第一匹配概率包括:根据所述第一向量和所述第二向量的乘积确定第一训练参数;将所述第一训练参数、事件粒度常数和话题粒度常数输入多任务学习模型;根据所述第一训练参数、所述事件粒度常数和所述话题粒度常数的乘积确定所述第一匹配概率,所述事件粒度常数用于指示文本匹配中事件匹配的重要程度,所述话题粒度常数用于指示文本匹配中话题匹配的重要程度。5.根据权利要求1中所述的方法,其特征在于,在确定所述第一文本和所述第二文本匹配之后,所述方法还包括:基于所述第一匹配概率,训练第一模型,所述第一模型用于判断第三文本和第四文本是...

【专利技术属性】
技术研发人员:王卿云亓克娜朱凯泉
申请(专利权)人:北京搜狐新媒体信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1