【技术实现步骤摘要】
文本匹配方法、装置、设备、介质及计算机程序产品
[0001]本申请涉及计算机
,特别涉及一种文本匹配方法、装置、设备、介质及计算机程序产品。
技术介绍
[0002]文本匹配是自然语言处理中一个重要的基础问题,可以应用于大量的自然语言处理(Nature Language Processing,NLP)任务中,例如在医疗场景中的医学术语标准化任务、知识图谱对齐任务、医疗问答匹配任务等任务中,均涉及文本匹配。通过根据任务建立对应的文本匹配模型,使用训练数据对文本匹配模型的参数进行训练,以获取能够完成对应任务的目标模型。
[0003]在模型训练过程中,由于训练数据存在大量的噪音或者复杂随意的表达,例如,对于医学术语标准化任务,大量输入不应该进行归一而应该拒识而不给出结果,即,存在“匹配悬垂”问题。在相关技术中,在应对“匹配悬垂”问题时,一般通过预先构建分类模型来起到拒识的作用,即在文本匹配模型之前前置一个分类模型,该分类模型可以是通过多次训练得到的支持向量机。
[0004]然而,以上述前置分类模型的方式来解决“匹配悬垂”问题时,构建其训练数据比较困难;且前置分类模型的性能会极大地影响整体任务的综合表现,一旦分类模型出现分类错误的情况,后续的文本匹配模型则会运行出完全错误的结果,从而降低其任务表现,导致最终模型的精准度较低。
技术实现思路
[0005]本申请实施例提供了一种文本匹配方法、装置、设备、介质及计算机程序产品,可以提升文本匹配模型的精准度。所述技术方案如下:
[0006] ...
【技术保护点】
【技术特征摘要】
1.一种文本匹配方法,其特征在于,所述方法包括:获取训练样本数据,所述训练样本数据标注有样本标签,其中,所述训练样本数据包括第一样本数据和第二样本数据,所述第一样本数据对应空匹配关系,所述第二样本数据对应参考匹配关系;通过文本匹配模型对所述训练样本数据进行文本匹配,得到预测匹配结果;基于所述第一样本数据与所述第二样本数据之间的差异确定距离损失值;基于所述样本标签与所述预测匹配结果之间的差异确定匹配损失值;基于所述匹配损失值和所述距离损失值对所述文本匹配模型进行训练,得到目标匹配模型,所述目标匹配模型用于对目标文本内容进行匹配,得到匹配结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本数据与所述第二样本数据之间的差异确定距离损失值,包括:获取与所述第一样本数据对应的预设向量距离;获取所述第一样本数据与所述第二样本数据之间的差异数据;基于所述差异数据和所述预设向量距离确定所述距离损失值。3.根据权利要求2所述的方法,其特征在于,所述获取与所述第一样本数据对应的预设向量距离,包括:基于所述第一样本数据对所述第二样本数据进行随机采样,得到样本集合;确定所述样本集合中的第二样本数据与所述第一样本数据之间的向量距离;将所述样本集合中所有第二样本数据与所述第一样本数据之间的向量距离的均值确定为所述预设向量距离。4.根据权利要求3所述的方法,其特征在于,所述获取所述第一样本数据与所述第二样本数据之间的差异数据,包括:将所述第一样本数据与所述样本集合中所述第二样本数据在向量空间中的距离信息确定为所述差异数据。5.根据权利要求4所述的方法,其特征在于,所述将所述第一样本数据与所述样本集合中所述第二样本数据在向量空间中的距离信息确定为所述差异数据,包括:确定所述第一样本数据在所述向量空间内的第一欧式距离;确定向量空间内所述第一样本数据到所述样本集合中第二样本数据的非线性映射;确定所述非线性映射在所述向量空间内的第二欧式距离;根据所述第一欧式距离和所述第二欧式距离确定所述差异数据。6.根据权利要求5所述的方法,其特征在于,所述样本集合中包括目标数量的第二样本数据;所述基于所述差异数据和所述预设向量距离确定所述距离损失值,包括:确定所述预设向量距离与所述第二欧式距离之间差值的绝对值;将所述第一欧式距离和所述样本集合中目标数量的绝对值进行累加,得到所述距离损失值。7.根据权利要求1至6任一所述的方法,其特征在于,所述获取训练样本数据,包括:获取初始样本数据;响应于所述初始样本数据在目标任务中的匹配关系为所述空匹配关系,为所述初始样
本数据进行悬垂标签的标注,得到所述第一样本数据;或,响应于所述初始样本数据在所述目标任务中的匹配关系为所述参考匹配关系,为所述初始样本数据进行参考标签的标注,得到所述第二样本数据;其中,所述目标任务用于指示所述目标匹配模型需要完成的文本匹配任务;基于所述第一样本数据和所述第二样本数据,得到所述训练样本数据。8.根据权利要求7所述的方法,其特征在于,所述目标任务包括术语标准化任务、知识图谱对齐任务、问答匹配任务、知识库检索任务、同义词挖掘任务、知识图谱实体链指任务中的至少一种;其中,所述术语标准化任务用于指...
【专利技术属性】
技术研发人员:张子恒,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。