【技术实现步骤摘要】
本专利技术涉及一种文本的相似度计算方法,具体是涉及以文本的最大公共子图为相似度的参照物,从物理学的万有引力定律中延伸出紧密度的概念对参照物进行量化,以文本转化为文本的最大公共子图的相似程度为相似度的衡量标准,是。
技术介绍
目前应用最广的文本相似度计算方法是基于向量空间模型的余弦计算方法。向量空间模型将文本表示成一个权值向量,向量中的每一项均由词项组成,而每个词项的权重由TFIDF方法确定。余弦计算公式则计算文本权值向量的夹角的余弦值,并以此作为文本相似度。但是使用基于向量空间模型的余弦计算方法计算文本的相似度时,存在以下不足: (I)向量空间模型把文本看成词项的集合,把词项与词项之间的关系看成是独立的,这样就损失了大量的文本结构信息。(2)余弦计算公式没有考虑文本中关键词之间的语义相关性,也没有考虑关键词之间的结构相关性。
技术实现思路
本专利技术的目的在于针对基于向量空间模型的余弦计算方法的不足,提供,该计算方法以文本的最大公共子图为相似度的参照物,从物理学的万有引力定律中延伸出紧密度的概念对参照物进行量化,以文本转化为文本的最大公共子图的相似程度为相似度的衡量标准。为了达到上述的目的,本专利技术的构思如下:以文本的最大公共子图为相似度的参照物,从物理学的万有引力定律中延伸出紧密度的概念对参照物进行量化,以文本转化为文本的最大公共子图的相似程度为相似度的衡量标准;所述的紧密度是关键词之间相关性,与关键词和关键词对的权重相关。根据上述的专利技术思想,本专利技术采用下述技术方案: ,其特征在于,其具体步骤如下: (1)输入领域文集中的任意两篇文本; ...
【技术保护点】
一种基于万有引力的文本相似度计算方法,其特征在于:以文本的最大公共子图为相似度的参照物,从物理学的万有引力定律中延伸出紧密度的概念对参照物进行量化,以文本转化为文本的最大公共子图的相似程度为相似度的衡量标准;所述的紧密度是关键词之间相关性,与关键词和关键词对的权重相关;其具体步骤如下:(1)??????输入领域文集中的任意两篇文本;(2)??????文本表示与最大公共子图的生成;(3)??????基于万有引力计算文本的最大公共子图的紧密度;(4)??????计算文本的相似度;(5)??????输出文本的相似度。
【技术特征摘要】
2012.07.16 CN 201210243862.81.一种基于万有引力的文本相似度计算方法,其特征在于:以文本的最大公共子图为相似度的参照物,从物理学的万有引力定律中延伸出紧密度的概念对参照物进行量化,以文本转化为文本的最大公共子图的相似程度为相似度的衡量标准;所述的紧密度是关键词之间相关性,与关键词和关键词对的权重相关;其具体步骤如下: (1)输入领域文...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。