This disclosure provides a method and system for calculating text similarity, data query system, computer product and computer readable storage medium. The method of calculating the similarity of the text includes at least obtaining the first text and the second text, mapping the first text and the second text into a vector, calculating the similar and different parts of the first text and the first text, and calculating the first text and the second text by using the similar part and the difference part. The similarity between the two. According to the calculation method and system of text similarity provided by this public, the influence of semantic similarity and difference on text similarity is considered at least, and the semantic similarity between text can be calculated from the finer granularity, and then the accuracy of text matching can be improved and high precision retrieval or query can be realized. One
【技术实现步骤摘要】
文本相似度计算方法及系统、数据查询系统和计算机产品
本申请涉及数据处理领域,尤其涉及一种文本相似度的计算方法及系统、数据查询系统、计算机产品和计算机可读存储介质。
技术介绍
互联网的快速发展以及大数据时代的到来为人们有效获取各类信息提供了基础。目前人们已经习惯通过网络来获取各种各样的信息。举例来说,在医学领域,医护人员可以通过输入关键词搜索得到所需的文献、书籍或者相关网页等。对于患者来说,可以通过查看医疗网站的社区问答满足自身的信息需求。信息服务系统的基本流程是依据用户输入的查询或者问题,从数据中(文档集、问题集或者知识库等)匹配和查询或者问题最相关的内容返回给用户。但是目前的信息查询系统在满足人们信息需求的同时,也存在着一些不足之处,例如由于文本相似度的计算不够全面,导致匹配精度不高。
技术实现思路
本公开的实施例提供一种文本相似度的计算方法,包括:至少获取第一文本和第二文本;将所述第一文本和第二文本映射为向量;计算所述第一文本与所述第一文本的相似部分和差异部分;利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。可选地,将所述第一文本和第二文本映射为向量,还包括:对所述第一文本和第二文本对应的向量进行降维处理。可选地,对所述第一文本和第二文本对应的向量进行降维处理,包括采用下述至少一种方法进行降维处理:词向量、句子向量、文章向量。可选地,计算所述第一文本与所述第二文本之间的相似部分和差异部分,包括:对所述第一文本与第二文本进行语义匹配;对所述第一文本与第二文本进行语义分解,得到所述第一文本和第二文本的相似部分和差异部分。可选地,将所述第一 ...
【技术保护点】
1.一种文本相似度的计算方法,包括:
【技术特征摘要】
1.一种文本相似度的计算方法,包括:至少获取第一文本和第二文本;将所述第一文本和第二文本映射为向量;计算所述第一文本与所述第一文本的相似部分和差异部分;利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。2.根据权利要求1所述的文本相似度的计算方法,将所述第一文本和第二文本映射为向量,还包括:对所述第一文本和第二文本对应的向量进行降维处理。3.根据权利要求2所述的文本相似度的计算方法,对所述第一文本和第二文本对应的向量进行降维处理,包括采用下述至少一种方法进行降维处理:词向量、句子向量、文章向量。4.根据权利要求1所述的文本相似度的计算方法,其中计算所述第一文本与所述第二文本之间的相似部分和差异部分包括:对所述第一文本与第二文本进行语义匹配;对所述第一文本与第二文本进行语义分解,得到所述第一文本和第二文本的相似部分和差异部分。5.根据权利要求4所述的文本相似度的计算方法,其中将所述第一文本与第二文本进行语义匹配,包括:将第二文本中的词语对应的向量重构所述第一文本的词语对应的向量来判断语义覆盖的内容。6.根据权利要求5所述的文本相似度的计算方法,通过下述公式将第二文本中的词语对应的向量重构所述第一文本的词语对应的向量计算语义覆盖:求解αi,j,其中Si为第一文本的列向量,Tj为第二文本的列向量,αi,j为语义覆盖参数,λ>0,为事先设定的正实数。7.根据权利要求6所述的文本相似度的计算方法,其中,计算所述第一文本的相似部分和差异部分包括:采用公式计算相似部分和差异部分,其中Ai,j为αi,j的矩阵,Si’为所述第一文本的相似部分,Si-Si’为所述第一文本的差异部分。8.根据权利要求6所述的文本相似度的计算方法,其中,计算所述第二文本的相似部分和差异部分包括:采用公式计算相似部分和差异部分,其中Ai,j为αi,j的矩阵,Tj’为所述第二文本的相似部分,Tj–Tj’为所述第二文本的差异部分。9.根据权利要求6所述的文本相似度的计算方法,其中利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度包括:输入所述第一文本和所述第二文本的相似部分和差异部分,利用循环神经网络得到所述第一文本和所述第二文本之间的相似度。10.根据权利要求9所述的文本相似度的计算方法,用循环神经网络得到所述第一文本和所述第二文本之间的相似度,还包括利用样本数据对循环神经网络进行训练的步骤,所述训练数据的格式为(S,T,L),其中S表示第一文...
【专利技术属性】
技术研发人员:张振中,
申请(专利权)人:京东方科技集团股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。