文本匹配方法、装置、设备、介质及计算机程序产品制造方法及图纸

技术编号:32896697 阅读:15 留言:0更新日期:2022-04-07 11:45
本申请公开了一种文本匹配方法、装置、设备、介质及计算机程序产品,涉及计算机技术领域。该方法包括:获取训练样本数据,训练样本数据标注有样本标签,其中,训练样本数据包括第一样本数据和第二样本数据;通过文本匹配模型对所述训练样本数据进行文本匹配,得到预测匹配结果;基于第一样本数据与第二样本数据之间的差异确定距离损失值;基于样本标签与预测匹配结果之间的差异确定匹配损失值;基于匹配损失值和距离损失值对文本匹配模型进行训练,得到目标匹配模型,目标匹配模型用于对目标文本内容进行匹配,得到匹配结果。通过在模型的训练过程中引入距离损失值,以提升训练得到的模型的精准度。型的精准度。型的精准度。

【技术实现步骤摘要】
文本匹配方法、装置、设备、介质及计算机程序产品


[0001]本申请涉及计算机
,特别涉及一种文本匹配方法、装置、设备、介质及计算机程序产品。

技术介绍

[0002]文本匹配是自然语言处理中一个重要的基础问题,可以应用于大量的自然语言处理(Nature Language Processing,NLP)任务中,例如在医疗场景中的医学术语标准化任务、知识图谱对齐任务、医疗问答匹配任务等任务中,均涉及文本匹配。通过根据任务建立对应的文本匹配模型,使用训练数据对文本匹配模型的参数进行训练,以获取能够完成对应任务的目标模型。
[0003]在模型训练过程中,由于训练数据存在大量的噪音或者复杂随意的表达,例如,对于医学术语标准化任务,大量输入不应该进行归一而应该拒识而不给出结果,即,存在“匹配悬垂”问题。在相关技术中,在应对“匹配悬垂”问题时,一般通过预先构建分类模型来起到拒识的作用,即在文本匹配模型之前前置一个分类模型,该分类模型可以是通过多次训练得到的支持向量机。
[0004]然而,以上述前置分类模型的方式来解决“匹配悬垂”问题时,构建其训练数据比较困难;且前置分类模型的性能会极大地影响整体任务的综合表现,一旦分类模型出现分类错误的情况,后续的文本匹配模型则会运行出完全错误的结果,从而降低其任务表现,导致最终模型的精准度较低。

技术实现思路

[0005]本申请实施例提供了一种文本匹配方法、装置、设备、介质及计算机程序产品,可以提升文本匹配模型的精准度。所述技术方案如下:
[0006]一方面,提供了一种文本匹配方法,所述方法包括:
[0007]获取训练样本数据,所述训练样本数据标注有样本标签,其中,所述训练样本数据包括第一样本数据和第二样本数据,所述第一样本数据对应空匹配关系,所述第二样本数据对应参考匹配关系;
[0008]通过文本匹配模型对所述训练样本数据进行文本匹配,得到预测匹配结果;
[0009]基于所述第一样本数据与所述第二样本数据之间的差异确定距离损失值;
[0010]基于所述样本标签与所述预测匹配结果之间的差异确定匹配损失值;
[0011]基于所述匹配损失值和所述距离损失值对所述文本匹配模型进行训练,得到目标匹配模型,所述目标匹配模型用于对目标文本内容进行匹配,得到匹配结果。
[0012]另一方面,提供了一种文本匹配装置,所述装置包括:
[0013]获取模块,用于获取训练样本数据,所述训练样本数据标注有样本标签,其中,所述训练样本数据包括第一样本数据和第二样本数据,所述第一样本数据对应空匹配关系,所述第二样本数据对应参考匹配关系;
[0014]预测模块,用于通过文本匹配模型对所述训练样本数据进行文本匹配,得到预测匹配结果;
[0015]确定模块,用于基于所述第一样本数据与所述第二样本数据之间的差异确定距离损失值;
[0016]所述确定模块,还用于基于所述样本标签与所述预测匹配结果之间的差异确定匹配损失值;
[0017]训练模块,用于基于所述匹配损失值和所述距离损失值对所述文本匹配模型进行训练,得到目标匹配模型,所述目标匹配模型用于对目标文本内容进行匹配,得到匹配结果。
[0018]另一方面,提供了一种计算机设备,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例中任一所述的文本匹配方法。
[0019]另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现本申请实施例中任一所述的文本匹配方法。
[0020]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的文本匹配方法。
[0021]本申请的提供的技术方案至少包括以下有益效果:
[0022]为解决文本匹配任务中具有空匹配关系的数据所存在的匹配悬垂问题,在对文本匹配模型通过损失函数进行训练时,获取能够指示第一样本数据与第二样本数据之间的差异的距离损失值,以及能够指示样本标签与预测匹配结果之间的差异的匹配损失值,其中,第一样本数据即存在空匹配关系的样本数据,同时根据匹配损失值和距离损失值对文本匹配模型的模型参数进行训练,以获取能够完成文本匹配任务的目标匹配模型。通过在模型的训练过程中增加匹配损失值的训练基准,能够提高获取的目标匹配模型的精准度,同时,上述方法可以应用于多种文本匹配任务中,实现统一地降低“匹配悬垂”问题对文本匹配模型的影响,以提升文本匹配模型的性能。
附图说明
[0023]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本申请一个示例性实施例提供的实施环境示意图;
[0025]图2是本申请一个示例性实施例提供的文本匹配方法流程图;
[0026]图3是本申请一个示例性实施例提供的距离损失值获取方法流程图;
[0027]图4是本申请另一个示例性实施例提供的文本匹配方法流程图;
[0028]图5是本申请一个示例性实施例提供的孪生网络的架构示意图;
[0029]图6是本申请一个示例性实施例提供的文本匹配装置结构框图;
[0030]图7是本申请另一个示例性实施例提供的文本匹配装置结构框图;
[0031]图8是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
[0032]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0033]首先,对本申请实施例中涉及的名词进行简要介绍:
[0034]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0035]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,所述方法包括:获取训练样本数据,所述训练样本数据标注有样本标签,其中,所述训练样本数据包括第一样本数据和第二样本数据,所述第一样本数据对应空匹配关系,所述第二样本数据对应参考匹配关系;通过文本匹配模型对所述训练样本数据进行文本匹配,得到预测匹配结果;基于所述第一样本数据与所述第二样本数据之间的差异确定距离损失值;基于所述样本标签与所述预测匹配结果之间的差异确定匹配损失值;基于所述匹配损失值和所述距离损失值对所述文本匹配模型进行训练,得到目标匹配模型,所述目标匹配模型用于对目标文本内容进行匹配,得到匹配结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本数据与所述第二样本数据之间的差异确定距离损失值,包括:获取与所述第一样本数据对应的预设向量距离;获取所述第一样本数据与所述第二样本数据之间的差异数据;基于所述差异数据和所述预设向量距离确定所述距离损失值。3.根据权利要求2所述的方法,其特征在于,所述获取与所述第一样本数据对应的预设向量距离,包括:基于所述第一样本数据对所述第二样本数据进行随机采样,得到样本集合;确定所述样本集合中的第二样本数据与所述第一样本数据之间的向量距离;将所述样本集合中所有第二样本数据与所述第一样本数据之间的向量距离的均值确定为所述预设向量距离。4.根据权利要求3所述的方法,其特征在于,所述获取所述第一样本数据与所述第二样本数据之间的差异数据,包括:将所述第一样本数据与所述样本集合中所述第二样本数据在向量空间中的距离信息确定为所述差异数据。5.根据权利要求4所述的方法,其特征在于,所述将所述第一样本数据与所述样本集合中所述第二样本数据在向量空间中的距离信息确定为所述差异数据,包括:确定所述第一样本数据在所述向量空间内的第一欧式距离;确定向量空间内所述第一样本数据到所述样本集合中第二样本数据的非线性映射;确定所述非线性映射在所述向量空间内的第二欧式距离;根据所述第一欧式距离和所述第二欧式距离确定所述差异数据。6.根据权利要求5所述的方法,其特征在于,所述样本集合中包括目标数量的第二样本数据;所述基于所述差异数据和所述预设向量距离确定所述距离损失值,包括:确定所述预设向量距离与所述第二欧式距离之间差值的绝对值;将所述第一欧式距离和所述样本集合中目标数量的绝对值进行累加,得到所述距离损失值。7.根据权利要求1至6任一所述的方法,其特征在于,所述获取训练样本数据,包括:获取初始样本数据;响应于所述初始样本数据在目标任务中的匹配关系为所述空匹配关系,为所述初始样
本数据进行悬垂标签的标注,得到所述第一样本数据;或,响应于所述初始样本数据在所述目标任务中的匹配关系为所述参考匹配关系,为所述初始样本数据进行参考标签的标注,得到所述第二样本数据;其中,所述目标任务用于指示所述目标匹配模型需要完成的文本匹配任务;基于所述第一样本数据和所述第二样本数据,得到所述训练样本数据。8.根据权利要求7所述的方法,其特征在于,所述目标任务包括术语标准化任务、知识图谱对齐任务、问答匹配任务、知识库检索任务、同义词挖掘任务、知识图谱实体链指任务中的至少一种;其中,所述术语标准化任务用于指...

【专利技术属性】
技术研发人员:张子恒
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1