【技术实现步骤摘要】
一种文本匹配方法、装置、存储介质及设备
[0001]本说明书涉及自然语言处理
,尤其涉及一种文本匹配方法、装置、存储介质及设备。
技术介绍
[0002]目前,文本匹配在众多场景得到应用,例如问答系统、文本去重、信息检索等场景。
[0003]进行文本匹配时通常需要确定文本的表征向量,以基于文本的表征向量确定文本匹配结果。因此,文本匹配效果与文本表征向量的质量息息相关。
[0004]为了通过提升文本表征向量的质量以提升文本匹配效果,本说明书提供一种文本匹配方法。
技术实现思路
[0005]本说明书提供一种文本匹配方法、装置、存储介质及设备,以至少部分解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:本说明书提供了一种文本匹配方法,包括:获取文本集合,并确定所述文本集合中各原始文本的变形文本,其中,所述文本集合中包含具有匹配关系的原始文本组成的文本对;通过待训练的表征模型,分别得到各原始文本及其变形文本的表征向量;针对所述文本集合中的每个文本对,确定该文本对中两个原始文本的表征向量间的相似度,作为第一相似度;针对该文本对中的每个原始文本,确定该原始文本与该原始文本的变形文本的表征向量间的相似度,作为第二相似度,以及确定该原始文本分别与各其他原始文本的表征向量间的相似度,作为各第三相似度;其中,其他原始文本为所述文本集合中除该文本对以外的原始文本;根据所述第一相似度、该文本对对应的各第二相似度以及该文本对对应的各第三相似度,确定该文本对的损失,所述第一相似度与所 ...
【技术保护点】
【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:获取文本集合,并确定所述文本集合中各原始文本的变形文本,其中,所述文本集合中包含具有匹配关系的原始文本组成的文本对;通过待训练的表征模型,分别得到各原始文本及其变形文本的表征向量;针对所述文本集合中的每个文本对,确定该文本对中两个原始文本的表征向量间的相似度,作为第一相似度;针对该文本对中的每个原始文本,确定该原始文本与该原始文本的变形文本的表征向量间的相似度,作为第二相似度,以及确定该原始文本分别与各其他原始文本的表征向量间的相似度,作为各第三相似度;其中,其他原始文本为所述文本集合中除该文本对以外的原始文本;根据所述第一相似度、该文本对对应的各第二相似度以及该文本对对应的各第三相似度,确定该文本对的损失,所述第一相似度与所述各第二相似度皆与所述损失负相关,所述各第三相似度与该文本对的损失正相关;根据确定出的各文本对的损失,确定总损失,并以所述总损失最小为优化目标对所述表征模型进行训练,得到训练后的所述表征模型;响应于携带待匹配文本对的匹配请求,将所述待匹配文本对输入训练后的所述表征模型,根据所述表征模型输出的表征向量,确定所述待匹配文本对的匹配结果。2.如权利要求1所述的方法,其特征在于,确定所述文本集合中各原始文本的变形文本,具体包括:针对所述文本集合中每个原始文本,通过预设的数据增强方式,得到该原始文本的变形文本。3.如权利要求2所述的方法,其特征在于,所述数据增强方式为位置变换;通过预设的数据增强方式,得到该原始文本的变形文本,具体包括:确定该原始文本的各词元;通过对该原始文本的至少部分词元进行位置变换,得到该原始文本的变形文本。4.如权利要求2所述的方法,其特征在于,所述数据增强方式为随机置零;通过预设的数据增强方式,得到该原始文本的变形文本,具体包括:确定该原始文本的各词元;根据预设的第一概率对该原始文本的部分词元随机置零,得到该原始文本的变形文本。5.如权利要求1所述的方法,其特征在于,确定所述文本集合中各原始文本的变形文本,具体包括:从所述文本集合的各原始文本中,确定与其他原始文本具有匹配关系的原始文本,作为匹配文本;分别确定各匹配文本的变形文本。6.如权利要求5所述的方法,其特征在于,通过待训练的表征模型,分别得到各原始文本及其变形文本的表征向量,具体包括:通过待训练的表征模型,分别得到各匹配文本及其变形文本对应的表征向量。7.如权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述文本集合中的每个文本对的每个原始文本,确定该原始文本的变形文本与该文本对中另一原始文本的表征向量间的相似度,作为第四相似度。8.如权利要求7所述的方法,其特征在于,根据所述第一相似度、该文本对对应的各第二相似度以及该文本对对应的各第三相似度,确定该文本对的损失,具体包括:根据所述第一相似度、该文本对对应的各第二相似度、该文本对对应的各第三相似度以及该文本对对应的各第四相似度,确定该文本对的损失;其中,所述第四相似度与该文本对的损失负相关。9.如权利要求1所述的方法,其特征在于,所述表征模型由预训练的特征模型与弱编码器构成;通过待训练的表征模型,分别得到各原始文本及其变形文本的表征向量,具体包...
【专利技术属性】
技术研发人员:王一张,杨非,邱鹏,陆陈昊,候星甫,王智明,崔鑫,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。