当前位置: 首页 > 专利查询>之江实验室专利>正文

一种文本匹配方法、装置、存储介质及设备制造方法及图纸

技术编号:37645180 阅读:13 留言:0更新日期:2023-05-25 10:11
本说明书公开了一种文本匹配方法、装置、存储介质及设备,根据匹配的文本对中各原始文本的表征向量的第一相似度、该文本对中各原始文本与各自变形文本的表征向量间的第二相似度及各原始文本与其他原始文本的表征向量的第三相似度,确定该文本对的损失。该第一相似度与第二相似度皆与该文本对的损失负相关,第三相似度与该文本对的损失正相关。在根据各文本对的损失确定总损失,并以总损失最小为目标训练得到训练后的表征模型后,则可响应于匹配请求,通过训练后的表征模型确定待匹配文本对的表征向量,以根据得到的表征向量确定待匹配文本对的匹配结果。可训练得到可输出准确表征向量的表征模型,提升基于表征模型进行文本匹配的匹配准确度。配的匹配准确度。配的匹配准确度。

【技术实现步骤摘要】
一种文本匹配方法、装置、存储介质及设备


[0001]本说明书涉及自然语言处理
,尤其涉及一种文本匹配方法、装置、存储介质及设备。

技术介绍

[0002]目前,文本匹配在众多场景得到应用,例如问答系统、文本去重、信息检索等场景。
[0003]进行文本匹配时通常需要确定文本的表征向量,以基于文本的表征向量确定文本匹配结果。因此,文本匹配效果与文本表征向量的质量息息相关。
[0004]为了通过提升文本表征向量的质量以提升文本匹配效果,本说明书提供一种文本匹配方法。

技术实现思路

[0005]本说明书提供一种文本匹配方法、装置、存储介质及设备,以至少部分解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:本说明书提供了一种文本匹配方法,包括:获取文本集合,并确定所述文本集合中各原始文本的变形文本,其中,所述文本集合中包含具有匹配关系的原始文本组成的文本对;通过待训练的表征模型,分别得到各原始文本及其变形文本的表征向量;针对所述文本集合中的每个文本对,确定该文本对中两个原始文本的表征向量间的相似度,作为第一相似度;针对该文本对中的每个原始文本,确定该原始文本与该原始文本的变形文本的表征向量间的相似度,作为第二相似度,以及确定该原始文本分别与各其他原始文本的表征向量间的相似度,作为各第三相似度;其中,其他原始文本为所述文本集合中除该文本对以外的原始文本;根据所述第一相似度、该文本对对应的各第二相似度以及该文本对对应的各第三相似度,确定该文本对的损失,所述第一相似度与所述各第二相似度皆与所述损失负相关,所述各第三相似度与该文本对的损失正相关;根据确定出的各文本对的损失,确定总损失,并以所述总损失最小为优化目标对所述表征模型进行训练,得到训练后的所述表征模型;响应于携带待匹配文本对的匹配请求,将所述待匹配文本对输入训练后的所述表征模型,根据所述表征模型输出的表征向量,确定所述待匹配文本对的匹配结果。
[0007]可选地,确定所述文本集合中各原始文本的变形文本,具体包括:针对所述文本集合中每个原始文本,通过预设的数据增强方式,得到该原始文本的变形文本。
[0008]可选地,所述数据增强方式为位置变换;
通过预设的数据增强方式,得到该原始文本的变形文本,具体包括:确定该原始文本的各词元;通过对该原始文本的至少部分词元进行位置变换,得到该原始文本的变形文本。
[0009]可选地,所述数据增强方式为随机置零;通过预设的数据增强方式,得到该原始文本的变形文本,具体包括:确定该原始文本的各词元;根据预设的第一概率对该原始文本的部分词元随机置零,得到该原始文本的变形文本。
[0010]可选地,确定所述文本集合中各原始文本的变形文本,具体包括:从所述文本集合的各原始文本中,确定与其他原始文本具有匹配关系的原始文本,作为匹配文本;分别确定各匹配文本的变形文本。
[0011]可选地,通过待训练的表征模型,分别得到各原始文本及其变形文本的表征向量,具体包括:通过待训练的表征模型,分别得到各匹配文本及其变形文本对应的表征向量。
[0012]可选地,所述方法还包括:针对所述文本集合中的每个文本对的每个原始文本,确定该原始文本的变形文本与该文本对中另一原始文本的表征向量间的相似度,作为第四相似度。
[0013]可选地,根据所述第一相似度、该文本对对应的各第二相似度以及该文本对对应的各第三相似度,确定该文本对的损失,具体包括:根据所述第一相似度、该文本对对应的各第二相似度、该文本对对应的各第三相似度以及该文本对对应的各第四相似度,确定该文本对的损失;其中,所述第四相似度与该文本对的损失负相关。
[0014]可选地,所述表征模型由预训练的特征模型与弱编码器构成;通过待训练的表征模型,分别得到各原始文本及其变形文本的表征向量,具体包括:针对各原始文本与各变形文本中的每个文本,将该文本输入所述特征模型,得到该文本的编码特征;将该文本的编码特征输入所述弱编码器,得到该文本的表征向量。
[0015]可选地,所述特征模型包含若干编码器;将该文本输入所述特征模型,得到该文本的编码特征,具体包括:对所述特征模型的编码器的参数,按照预设的第二概率随机置零;将该文本输入随机置零后的所述特征模型,得到该文本的编码特征。
[0016]可选地,根据所述表征模型输出的表征向量,确定所述待匹配文本对的匹配结果,具体包括:根据所述表征模型输出的表征向量,确定所述待匹配文本对的相似度;将所述相似度输入预设的激活函数,得到所述待匹配文本对匹配结果。
[0017]可选地,所述匹配结果对应二分类结果或多分类结果;将所述相似度输入预设的激活函数,得到所述待匹配文本对匹配结果,具体包括:
当对所述待匹配文本对的关系进行二分类时,将所述相似度输入预设的第一激活函数,得到所述待匹配文本对为匹配关系的第一分值,当所述第一分值大于预设的阈值时,确定所述待匹配文本对具有匹配关系,作为匹配结果,否则,确定所述待匹配文本对不具有匹配关系作为匹配结果;当对所述待匹配文本对的关系进行多分类时,将所述相似度输入预设的第二激活函数,得到所述待匹配文本对分别与预设的各匹配程度对应的第二分值,将最大的第二分值对应的匹配程度,作为所述待匹配文本对的匹配结果。
[0018]本说明书提供了一种文本匹配装置,包括:获取模块,用于获取文本集合,并确定所述文本集合中各原始文本的变形文本,其中,所述文本集合中包含具有匹配关系的原始文本组成的文本对;表征模块,用于通过待训练的表征模型,分别得到各原始文本及其变形文本的表征向量;第一确定模块,用于针对所述文本集合中的每个文本对,确定该文本对中两个原始文本的表征向量间的相似度,作为第一相似度;第二确定模块,用于针对该文本对中的每个原始文本,确定该原始文本与该原始文本的变形文本的表征向量间的相似度,作为第二相似度,以及确定该原始文本分别与各其他原始文本的表征向量间的相似度,作为各第三相似度;其中,其他原始文本为所述文本集合中除该文本对以外的原始文本;第三确定模块,用于根据所述第一相似度、该文本对对应的各第二相似度以及该文本对对应的各第三相似度,确定该文本对的损失,所述第一相似度与所述各第二相似度皆与所述损失负相关,所述各第三相似度与该文本对的损失正相关;训练模块,用于根据确定出的各文本对的损失,确定总损失,并以所述总损失最小为优化目标对所述表征模型进行训练,得到训练后的所述表征模型;匹配模块,用于响应于携带待匹配文本对的匹配请求,将所述待匹配文本对输入训练后的所述表征模型,根据所述表征模型输出的表征向量,确定所述待匹配文本对的匹配结果。
[0019]本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本匹配方法。
[0020]本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本匹配方法。
[0021]本说明书采本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:获取文本集合,并确定所述文本集合中各原始文本的变形文本,其中,所述文本集合中包含具有匹配关系的原始文本组成的文本对;通过待训练的表征模型,分别得到各原始文本及其变形文本的表征向量;针对所述文本集合中的每个文本对,确定该文本对中两个原始文本的表征向量间的相似度,作为第一相似度;针对该文本对中的每个原始文本,确定该原始文本与该原始文本的变形文本的表征向量间的相似度,作为第二相似度,以及确定该原始文本分别与各其他原始文本的表征向量间的相似度,作为各第三相似度;其中,其他原始文本为所述文本集合中除该文本对以外的原始文本;根据所述第一相似度、该文本对对应的各第二相似度以及该文本对对应的各第三相似度,确定该文本对的损失,所述第一相似度与所述各第二相似度皆与所述损失负相关,所述各第三相似度与该文本对的损失正相关;根据确定出的各文本对的损失,确定总损失,并以所述总损失最小为优化目标对所述表征模型进行训练,得到训练后的所述表征模型;响应于携带待匹配文本对的匹配请求,将所述待匹配文本对输入训练后的所述表征模型,根据所述表征模型输出的表征向量,确定所述待匹配文本对的匹配结果。2.如权利要求1所述的方法,其特征在于,确定所述文本集合中各原始文本的变形文本,具体包括:针对所述文本集合中每个原始文本,通过预设的数据增强方式,得到该原始文本的变形文本。3.如权利要求2所述的方法,其特征在于,所述数据增强方式为位置变换;通过预设的数据增强方式,得到该原始文本的变形文本,具体包括:确定该原始文本的各词元;通过对该原始文本的至少部分词元进行位置变换,得到该原始文本的变形文本。4.如权利要求2所述的方法,其特征在于,所述数据增强方式为随机置零;通过预设的数据增强方式,得到该原始文本的变形文本,具体包括:确定该原始文本的各词元;根据预设的第一概率对该原始文本的部分词元随机置零,得到该原始文本的变形文本。5.如权利要求1所述的方法,其特征在于,确定所述文本集合中各原始文本的变形文本,具体包括:从所述文本集合的各原始文本中,确定与其他原始文本具有匹配关系的原始文本,作为匹配文本;分别确定各匹配文本的变形文本。6.如权利要求5所述的方法,其特征在于,通过待训练的表征模型,分别得到各原始文本及其变形文本的表征向量,具体包括:通过待训练的表征模型,分别得到各匹配文本及其变形文本对应的表征向量。7.如权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述文本集合中的每个文本对的每个原始文本,确定该原始文本的变形文本与该文本对中另一原始文本的表征向量间的相似度,作为第四相似度。8.如权利要求7所述的方法,其特征在于,根据所述第一相似度、该文本对对应的各第二相似度以及该文本对对应的各第三相似度,确定该文本对的损失,具体包括:根据所述第一相似度、该文本对对应的各第二相似度、该文本对对应的各第三相似度以及该文本对对应的各第四相似度,确定该文本对的损失;其中,所述第四相似度与该文本对的损失负相关。9.如权利要求1所述的方法,其特征在于,所述表征模型由预训练的特征模型与弱编码器构成;通过待训练的表征模型,分别得到各原始文本及其变形文本的表征向量,具体包...

【专利技术属性】
技术研发人员:王一张杨非邱鹏陆陈昊候星甫王智明崔鑫
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1