文本语义相似度的匹配方法、系统、智能终端及存储介质技术方案

技术编号:32923853 阅读:61 留言:0更新日期:2022-04-07 12:15
本申请涉及人工智能领域中的自然语言处理技术,尤其是一种文本语义相似度的匹配方法、系统、智能终端及存储介质,其中方法包括获取历史数据作为训练样本集,所述训练样本集包括真样本、正样本和负样本;计算所述真样本与所述正样本之间的余弦相似度以及所述真样本和所述负样本之间的余弦相似度,基于计算结果训练预设的文本语义相似度匹配模型;将所述文本语义相似度匹配模型部署到线上平台;基于所述文本语义相似度匹配模型匹配标准问题并反馈至所述线上平台。本申请能够改善客服问题匹配的准确率较低的问题。配的准确率较低的问题。配的准确率较低的问题。

【技术实现步骤摘要】
文本语义相似度的匹配方法、系统、智能终端及存储介质


[0001]本申请涉及人工智能领域中的自然语言处理技术,尤其是一种文本语义相似度的匹配方法、系统、智能终端及存储介质。

技术介绍

[0002]随着计算机互联网络的飞速发展,文本相似度计算在许多领域有着广泛的应用,尤其在现阶段客服问题匹配场景中;客服问题匹配场景的过程如下:客服针对用户提出的问题,通过判断问题的文本相似度,在数据库中检索与之相似的问题,并将检索到的问题反馈给用户。现阶段客服问题匹配场景中,判断文本相似度的方法主要是基于词频评估文本相似度,即统计两个文本中每个词语出现的次数,根据词语出现的次数构建文本向量,再通过计算两个文本向量之间的余弦相似度,反映两个文本之间的相似度。
[0003]在实现本申请的过程中,专利技术人发现上述技术至少存在以下问题:现阶段客服问题匹配场景中,基于词频评估文本相似度脱离了语言环境所带来的语义变化,忽略了用户的语言习惯,从而容易影响文本相似度的判断,导致客服问题匹配的准确率较低。

技术实现思路

[0004]为了改善客服问题匹配的准确率较低的问题,本申请提供一种文本语义相似度的匹配方法、系统、智能终端及存储介质。
[0005]第一方面,本申请提供一种文本语义相似度的匹配方法,采用如下的技术方案:一种文本语义相似度的匹配方法,包括以下步骤:获取历史数据作为训练样本集,所述训练样本集包括真样本、正样本和负样本;计算所述真样本与所述正样本之间的余弦相似度以及所述真样本和所述负样本之间的余弦相似度,基于计算结果训练预设的文本语义相似度匹配模型;将所述文本语义相似度匹配模型部署到线上平台;基于所述文本语义相似度匹配模型匹配标准问题并反馈至所述线上平台。
[0006]通过采用上述技术方案,获取历史数据作为训练样本集,训练样本集包括真样本、正样本和负样本;再基于真样本与正样本的余弦相似度以及真样本与负样本的余弦相似度对文本语义相似度匹配模型进行训练,训练后将文本语义相似度匹配模型部署到线上平台并将标准问题反馈至线上平台,通过对文本语义相似度匹配模型进行训练从而提升用户实际输入的问题与反馈给用户的标准问题的相似度,进而提高客服问题匹配的准确率。
[0007]在一个具体的可实施方案中,所述真样本包括用户线上真实输入的问题;所述正样本包括用户选取的所述标准问题和客服针对用户的真实输入配置的所述标准问题;所述负样本包括用户没有选取的所述标准问题;通过采用上述技术方案,构建足够的训练样本并对样本进行细致地划分,便于模型进行训练从而提升客服问题匹配的准确度。
[0008]在一个具体的可实施方案中,所述计算所述真样本与所述正样本之间的余弦相似
度以及所述真样本和所述负样本之间的余弦相似度,基于计算结果训练预设的文本语义相似度匹配模型包括:分别计算所述真样本与所述正样本之间的余弦相似度以及所述真样本与所述负样本之间的余弦相似度,余弦相似度计算公式如下:C0 = Cosine(T,P);C1 = Cosine(T,N1);Ck = Cosine(T,Nk);其中T代表真样本,P代表正样本,N代表负样本,k代表负样本的个数;约束所述真样本与所述正样本之间的余弦相似度大于等于所述真样本和所述负样本之间的余弦相似度,约束公式如下:C0 = Max(C0,C1,

,Ck)。
[0009]通过采用上述技术方案,由于在脱离语义环境时有时会出现真样本与负样本的余弦相似度大于真样本与正样本的余弦相似度的情况,因此在文本语义相似度匹配模型的训练过程中需要始终满足真样本与正样本的余弦相似度大于等于真样本与负样本的余弦相似度。
[0010]在一个具体的可实施方案中,选取Softmax函数将所述约束公式施加到所述余弦相似度计算公式得到Softmax(C0):Softmax(C0) = Max(Softmax(C0), Softmax(C1),

, Softmax(Ck));将用户输入的真实问题与用户选取的所述标准问题之间的误差定义为Loss,在Loss的计算过程中,约束所述真样本与所述正样本的余弦相似度始终大于等于所述真样本与所述负样本的余弦相似度,Loss的计算公式如下:Loss =
ꢀ‑ꢀ
log(Softmax(C0))。
[0011]通过采用上述技术方案,Loss能够更加形象地表示真样本与正样本的余弦相似度高于真样本与负样本的余弦相似度,当文本语义相似度匹配模型的Loss越小时,则认为文本语义相似度匹配模型预测的结果越准确,通过对文本语义相似度匹配模型训练使Loss能够达到最小值,从而实现模型训练的最终目的。
[0012]在一个具体的可实施方案中,基于标注数据对所述文本语义相似度匹配模型进行有监督训练,所述标注数据包括用户真实点击的所述标准问题和用户真实输入的问题。
[0013]通过采用上述技术方案,通过标注数据有监督训练文本语义相似度匹配模型,能够使得模型具有对未知数据进行预测和分类的能力。
[0014]在一个具体的可实施方案中,随机抽取所述标注数据作为所述真样本与所述正样本相对的所述负样本。
[0015]通过采用上述技术方案,随机抽取标注数据作为真样本与正样本相对的负样本,通过随机抽取标注数据作为负样本,提高了负样本与真样本之间的相似度,由于真样本与正样本的相似度总是大于等于真样本与负样本的相似度,使得正样本与真样本之间的相似度进一步地提高,从而增强文本语义相似度模型的训练效果。
[0016]在一个具体的可实施方案中,所述文本语义相似度匹配模型包括所述真样本与所述正样本计算模块以及所述真样本与所述负样本计算模块;所述部署所述文本语义相似度匹配模型到线上平台之前还包括:
对所述文本语义相似度匹配模型进行切割并保留所述真样本和所述正样本计算模块。
[0017]通过采用上述技术方案,文本语义相似度匹配模型是由真样本与正样本的计算模块和真样本与负样本的计算模块组合而成,通过去除文本语义相似度匹配模型中的真样本与负样本的计算模块,便于直接调用真样本与正样本的计算模块从而在正样本集合中进行文本相似度的匹配,能够有效缩短文本的相似度匹配时间和检索时间,提升匹配效率。
[0018]第二方面,本申请提供一种文本语义相似度的匹配系统,采用如下的技术方案:一种文本语义相似度的匹配系统,包括:数据获取模块,用于获取历史数据作为训练样本集,所述训练样本集包括真样本、正样本和负样本;模型训练模块,用于计算所述真样本与所述正样本之间的余弦相似度以及所述真样本和所述负样本之间的余弦相似度,基于计算结果训练预设的文本语义相似度匹配模型;模型部署模块,用于将所述文本语义相似度匹配模型部署到线上平台;数据反馈模块,用于基于所述文本语义相似度匹配模型匹配标准问题并反馈至所述线上平台。
[0019]通过采用上述技术方案,获取历史数据作为训练样本集,训练样本集包括真样本、正样本和负样本;再基于真样本与正样本的余弦相似度以及真样本与负样本的余本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本语义相似度的匹配方法,其特征在于,包括以下步骤:获取历史数据作为训练样本集,所述训练样本集包括真样本、正样本和负样本;计算所述真样本与所述正样本之间的余弦相似度以及所述真样本和所述负样本之间的余弦相似度,基于计算结果训练预设的文本语义相似度匹配模型;将所述文本语义相似度匹配模型部署到线上平台;基于所述文本语义相似度匹配模型匹配标准问题并反馈至所述线上平台。2.根据权利要求1所述的文本语义相似度的匹配方法,其特征在于:所述真样本包括用户线上真实输入的问题;所述正样本包括用户选取的所述标准问题和客服针对用户的真实输入配置的所述标准问题;所述负样本包括用户没有选取的所述标准问题。3.根据权利要求2所述的文本语义相似度的匹配方法,其特征在于:所述计算所述真样本与所述正样本之间的余弦相似度以及所述真样本和所述负样本之间的余弦相似度,基于计算结果训练预设的文本语义相似度匹配模型包括:分别计算所述真样本与所述正样本之间的余弦相似度以及所述真样本与所述负样本之间的余弦相似度,余弦相似度计算公式如下:C0 = Cosine(T,P);C1 = Cosine(T,N1);Ck = Cosine(T,Nk);其中T代表真样本,P代表正样本,N代表负样本,k代表负样本的个数;约束所述真样本与所述正样本之间的余弦相似度大于等于所述真样本和所述负样本之间的余弦相似度,约束公式如下:C0 = Max(C0,C1,

,Ck)。4.根据权利要求3所述的文本语义相似度的匹配方法,其特征在于:选取Softmax函数将所述约束公式施加到所述余弦相似度计算公式得到Softmax(C0):Softmax(C0) = Max(Softmax(C0), Softmax(C1),

, Softmax(Ck));将用户输入的真实问题与用户选取的所述标准问题之间的误差定义为Loss,在Loss的计算过程中,约束所述真样本与所述正样本的余弦相似度始终大于等于所述真样本与所述负样...

【专利技术属性】
技术研发人员:吴闯马明珠
申请(专利权)人:同程网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1