文本相似度计算方法及系统、数据查询系统和计算机产品技术方案

技术编号:18237726 阅读:40 留言:0更新日期:2018-06-17 00:56
本公开提供一种文本相似度的计算方法及系统、数据查询系统、计算机产品和计算机可读存储介质。该文本相似度的计算方法包括:至少获取第一文本和第二文本;将所述第一文本和第二文本映射为向量;计算所述第一文本与所述第一文本的相似部分和差异部分;利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。根据本公开提供的文本相似度的计算方法和系统,至少部分地考虑了词语语义相似性和差异性对文本相似度的影响,能够从更细的粒度上计算文本之间的语义相似度,进而提高文本匹配的精度,实现高精度的检索或查询等。 1

Text similarity calculation method and system, data query system and computer product

This disclosure provides a method and system for calculating text similarity, data query system, computer product and computer readable storage medium. The method of calculating the similarity of the text includes at least obtaining the first text and the second text, mapping the first text and the second text into a vector, calculating the similar and different parts of the first text and the first text, and calculating the first text and the second text by using the similar part and the difference part. The similarity between the two. According to the calculation method and system of text similarity provided by this public, the influence of semantic similarity and difference on text similarity is considered at least, and the semantic similarity between text can be calculated from the finer granularity, and then the accuracy of text matching can be improved and high precision retrieval or query can be realized. One

【技术实现步骤摘要】
文本相似度计算方法及系统、数据查询系统和计算机产品
本申请涉及数据处理领域,尤其涉及一种文本相似度的计算方法及系统、数据查询系统、计算机产品和计算机可读存储介质。
技术介绍
互联网的快速发展以及大数据时代的到来为人们有效获取各类信息提供了基础。目前人们已经习惯通过网络来获取各种各样的信息。举例来说,在医学领域,医护人员可以通过输入关键词搜索得到所需的文献、书籍或者相关网页等。对于患者来说,可以通过查看医疗网站的社区问答满足自身的信息需求。信息服务系统的基本流程是依据用户输入的查询或者问题,从数据中(文档集、问题集或者知识库等)匹配和查询或者问题最相关的内容返回给用户。但是目前的信息查询系统在满足人们信息需求的同时,也存在着一些不足之处,例如由于文本相似度的计算不够全面,导致匹配精度不高。
技术实现思路
本公开的实施例提供一种文本相似度的计算方法,包括:至少获取第一文本和第二文本;将所述第一文本和第二文本映射为向量;计算所述第一文本与所述第一文本的相似部分和差异部分;利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。可选地,将所述第一文本和第二文本映射为向量,还包括:对所述第一文本和第二文本对应的向量进行降维处理。可选地,对所述第一文本和第二文本对应的向量进行降维处理,包括采用下述至少一种方法进行降维处理:词向量、句子向量、文章向量。可选地,计算所述第一文本与所述第二文本之间的相似部分和差异部分,包括:对所述第一文本与第二文本进行语义匹配;对所述第一文本与第二文本进行语义分解,得到所述第一文本和第二文本的相似部分和差异部分。可选地,将所述第一文本与第二文本进行语义匹配,包括:将第二文本中的词语对应的向量重构所述第一文本的词语对应的向量来判断语义覆盖的内容。可选地,通过下述公式将第二文本中的词语对应的向量重构所述第一文本的词语对应的向量计算语义覆盖:求解αi,j,Si为第一文本的列向量,Tj为第二文本的列向量,αi,j为语义覆盖参数,λ>0,为事先设定的正实数。可选地,计算所述第一文本的相似部分和差异部分,包括:采用公式计算相似部分和差异部分,Ai,j为αi,j的矩阵,Si’为所述第一文本的相似部分,Si-Si’为所述第一文本的差异部分。可选地,计算所述第二文本的相似部分和差异部分,包括:采用公式计算相似部分和差异部分,Ai,j为αi,j的矩阵,Tj’为所述第二文本的相似部分,Tj–Tj’为所述第二文本的差异部分。可选地,利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度,包括:输入所述第一文本和所述第二文本的相似部分和差异部分,利用循环神经网络得到所述第一文本和所述第二文本之间的相似度。可选地,用循环神经网络得到所述第一文本和所述第二文本之间的相似度,还包括利用样本数据对所述循环神经网络进行训练的步骤,所述训练数据的格式为(S,T,L),其中S表示第一文本,T表示第二文本,L表示相似度。可选地,利用样本数据对所述循环神经网络进行训练的步骤,还包括预先定义相似程度的粒度,并将样本数据输入到所述循环神经网络,进行训练。本公开的实施例还提供一种文本相似度计算系统,包括:获取模块,被配置为至少获取第一文本和第二文本的输入;映射模块,被配置为将所述第一文本和第二文本映射为向量;文本相似度计算模块,被配置为计算所述第一文本与第二文本的相似部分和差异部分;利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。可选地,所述映射模块包括降维模块,被配置为对所述第一文本和第二文本对应的向量进行降维处理。可选地,所述文本相似度计算模块包括语义匹配模块,被配置将所述第一文本与第二文本进行语义匹配;语义分解模块,被配置为计算所述第一文本和第二文本的相似部分和差异部分;相似度计算模块,被配置为使用所述相似部分和差异部分计算所述第一文本和第二文本的相似度。可选地,所述语义匹配模块,被配置为通过第二文本中词语对应向量重构所述第一文本词语对应向量来判断语义覆盖的内容。可选地,所述语义匹配模块被配置为执行下述公式计算语义覆盖,其中Si为第一文本的列向量,Tj为第二文本的列向量,αi,j为语义覆盖参数,λ>0,为事先设定的正实数。可选地,所述语义分解模块被配置为执行下述公式获得所述第一文本的相似部分和差异部分、所述第二文本的相似部分和差异部分:其中Ai,j为αi,j的矩阵,Si’为所述第一文本的相似部分,Si-Si’为所述第一文本的差异部分。其中,Ai,j为αi,j的矩阵,Tj’为所述第二文本的相似部分,Tj–Tj’为所述第二文本的差异部分。本公开的实施例还提供一种数据查询系统,包括如前所述的文本相似度计算系统。本公开的实施例还提供一种计算机产品,包括:一个或多个处理器,所述处理器被配置为运行计算机指令以执行如前所述文本相似度的计算方法中的一个或多个步骤。可选地,所述计算机产品还包括存储器,连接所述处理器,被配置为存储所述计算机指令。本公开的实施例提供一种计算机可读存储介质,被配置为存储计算机指令,所述计算机指令被处理器运行时执行如前所述文本相似度的计算方法中的一个或多个步骤。附图说明图1为根据本公开实施例的文本相似度计算方法的流程图。图2示出了根据本公开实施例的文本相似度计算系统的结构框图。图3示出了根据本公开实施例的文本相似度计算系统的结构框图。图4示出了根据本公开实施例的数据查询系统的结构示意图。图5示出了根据本公开实施例的电子设备的结构框图。具体实施方式为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明,本公开省略了已知功能和已知部件的详细说明。在专利技术人所知的技术中,文本相似度的计算方法通常考虑文本之间的相似性,忽略内容之间的差异性。然而这些差异性能够提供一定的语义信息,这些语义信息有可能有利于实现信息的准确匹配,更好地满足用户的信息需求。例如,在用户进行查询时,用户输入:关于感冒的介绍,在数据库中有:内容1:这篇文章介绍了鼻窦炎;内容2:这篇文章介绍了流行性感冒,而不是普通感冒;内容3:这篇文章介绍了流行性感冒,而不是肺炎。在计算用户输入的文本与数据库中所具有的文本之间的相似度本文档来自技高网...
文本相似度计算方法及系统、数据查询系统和计算机产品

【技术保护点】
1.一种文本相似度的计算方法,包括:

【技术特征摘要】
1.一种文本相似度的计算方法,包括:至少获取第一文本和第二文本;将所述第一文本和第二文本映射为向量;计算所述第一文本与所述第一文本的相似部分和差异部分;利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。2.根据权利要求1所述的文本相似度的计算方法,将所述第一文本和第二文本映射为向量,还包括:对所述第一文本和第二文本对应的向量进行降维处理。3.根据权利要求2所述的文本相似度的计算方法,对所述第一文本和第二文本对应的向量进行降维处理,包括采用下述至少一种方法进行降维处理:词向量、句子向量、文章向量。4.根据权利要求1所述的文本相似度的计算方法,其中计算所述第一文本与所述第二文本之间的相似部分和差异部分包括:对所述第一文本与第二文本进行语义匹配;对所述第一文本与第二文本进行语义分解,得到所述第一文本和第二文本的相似部分和差异部分。5.根据权利要求4所述的文本相似度的计算方法,其中将所述第一文本与第二文本进行语义匹配,包括:将第二文本中的词语对应的向量重构所述第一文本的词语对应的向量来判断语义覆盖的内容。6.根据权利要求5所述的文本相似度的计算方法,通过下述公式将第二文本中的词语对应的向量重构所述第一文本的词语对应的向量计算语义覆盖:求解αi,j,其中Si为第一文本的列向量,Tj为第二文本的列向量,αi,j为语义覆盖参数,λ>0,为事先设定的正实数。7.根据权利要求6所述的文本相似度的计算方法,其中,计算所述第一文本的相似部分和差异部分包括:采用公式计算相似部分和差异部分,其中Ai,j为αi,j的矩阵,Si’为所述第一文本的相似部分,Si-Si’为所述第一文本的差异部分。8.根据权利要求6所述的文本相似度的计算方法,其中,计算所述第二文本的相似部分和差异部分包括:采用公式计算相似部分和差异部分,其中Ai,j为αi,j的矩阵,Tj’为所述第二文本的相似部分,Tj–Tj’为所述第二文本的差异部分。9.根据权利要求6所述的文本相似度的计算方法,其中利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度包括:输入所述第一文本和所述第二文本的相似部分和差异部分,利用循环神经网络得到所述第一文本和所述第二文本之间的相似度。10.根据权利要求9所述的文本相似度的计算方法,用循环神经网络得到所述第一文本和所述第二文本之间的相似度,还包括利用样本数据对循环神经网络进行训练的步骤,所述训练数据的格式为(S,T,L),其中S表示第一文...

【专利技术属性】
技术研发人员:张振中
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1