一种基于EMD的文档语义相似距离度量化方法技术

技术编号:2824054 阅读:293 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于EMD的文档语义相似距离度量化方法,属于信息检索、数据挖掘等领域。其特征在于:首先对于文档进行预处理,将文档表示成为tf.idf项权值矢量,再计算文档矢量的宽度和宽度差,接着计算各特征词汇之间的语义相似距离,之后为文档矢量插入虚拟项补齐总权值,并对处理后的文档矢量进行归一化处理,最后根据全匹配准则和最相似最高优先权准则完成EMD简化计算。有益效果:实现了基于EMD的文档语义相似距离的度量化,提高了原算法的分辨能力并拓展了算法的应用范围;方法还对EMD算法的计算过程进行了简化提高了运算速度,适合于实时性较高的应用场合。

【技术实现步骤摘要】

本专利技术涉及一种基于EMD的文档语义相似距离度量化方法,属于信息检索、数 据挖掘领域。
技术介绍
文档相似性度量算法用于计算文档之间的相似程度,在信息检索、数据挖掘等领 域中具十分重要的意义,它是分类、过滤、聚类、搜索等高级文档数据组织与管理的 基础计算,其性能优劣直接影响到信息检索和数据挖掘的整体效果与质量。文档相似 性度量算法可以采用相似系数的形式,也可以采用相似距离的形式,二者可以相互转 换。在通常的文档相似距离度量算法方法中,如欧氏、海明距离等等,认为文档的 各特征项/词汇相互正交,而忽略了不同特征项之间的语义关系,采用不同文档中相同 词形一对一匹配的方式进行相似性比较,准确性欠佳。'为了在文档相似距离计算 中引入不同特征项之间的语义关系,建立文档特征项之间多对多的匹配关系,一些学者基于图像检索领域中常用的EMD(Earth Mover, s Distance)算法及WordNet电 子字典,实现了基于EMD的文档语义相似距离算法,有效地提高了计算的准确性。 下面给出基于EMD的文档相似距离的计算方法。<formula>formula see original document page 4</formula>有《为特征项、与、,的语义相似距离,『=ix,, 另有匹配度. /二1 产lF = ,},人/是由 经(匹配到 的量,并满足<formula>formula see original document page 4</formula><formula>formula see original document page 5</formula>若以A, B的特征项组成的集合^, S为两组顶点(下同),连接两组顶点构成关系 图(7 = {4&/)},得到最小匹配总量Work(」力)如下<formula>formula see original document page 5</formula>则A , B的相似距离定义为项集合2与5的EMD距离<formula>formula see original document page 5</formula> (6)综上所述,在EMD计算中可以把A的特征项看作质量分别为w。,,的若干堆土方, B的特征项看作若干容量为的坑穴(反之亦然),求文档A与B的EMD相似距离的 问题即为求解将土方经距离为《,的路径填充到坑穴的最短距离运输方案。这里儿.为 各路径上的流量,则的EMD相似距离即为最小的运输工作总量与相对轻的一方土方 总质量或容量之比。EMD实际上是一个关于运输问题的线性规划算法。从以上算法背景介绍可以看出,现有的基于EMD的文档相似距离计算方法存在 着一个重要的不足之处,即不满足度量定义的正性公理和三角不等公理,具体表现为 算法存在严重的局部匹配问题,这将导致其计算分辨能力较差。
技术实现思路
要解决的技术问题为了消除现有EMD文档语义相似距离算法不满足度量公理的缺陷,本专利技术提出 一种基于EMD文档相似性度量化的方法,可以实现原算法的度量化。 技术方案本专利技术的思想是EMD要完全满足度量公理需确保的条件有,计算特征项之间相 似度的函数(称为基函数)本身为度量,以及在EMD的计算空间域内各文档特征项集合 总权值恒等。前者易于实现,需着重解决后者。在选择满足度量公理的基函数的基础 上,本专利技术以虚拟项的形式补齐文档矢量权值差,之后对补齐特征项权值的两个文档矢量进行归一化处理,再进行EMD计算,从而实现一种严格的基于EMD的文档语义 相似距离度量。本专利技术技术特征在于,在基于EMD的文档语义相似距离计算中提出了文档宽度 和虚拟项的概念,并提出了基于最相似最高优先权准则和全匹配准则的EMD计算简 化方法,具体步骤为1、 首先对文集中两篇待计算文档语义相似距离的文档进行预处理,去除停用词, 将文档表示成为f/.W/项权值矢量,A为左矢量,B为右矢量;2、 对文档左矢量A和右矢量B计算文档宽度lA^^、 IBIL,《和文档宽度差『AB,^B=|lAIUHIBIUl;3、 利用基于WordNet的词汇相似距离工具,计算左右文档矢量权值非0特征项之 间的相似距离,并分别存储到相似距离记录列表;4、 定义虚拟项的权值和虚拟项与其它特征项的相似距离,将得到的虚拟项与其它 特征项的相似距离写入步骤3的记录列表;所述的虚拟项的权值等于步骤2得到的左 右文档矢量的宽度差;所述的虚拟项与其它特征项的相似距离是取左右文档矢量的 特征项之间相似距离的最大值;5、 如果左右文档矢量的文档宽度不相等,也就是文档宽度差不为0,则需进行插 入虚拟项处理。若左矢量宽度大于右矢量,则为右矢量插入步骤4构建的虚拟项;反 之,为左矢量插入步骤4构建的虚拟项;6、 在插入虚拟项后,对文档矢量进行归一化处理将文档矢量中各项的权值除以该文档矢量的总权值,用商值替代原来的项权值,得到的新的左、右文档矢量的总权值将分别为l; -7、 根据最相似最高优先权准则和全匹配准则进行EMD简化计算。 所述的文档宽度是设X是一个文档矢量的特征项组成的集合,x为特征项,有:每一个映射M:x4及+LU(n, Z,都称为分布M下X的一个分布值,则SM(x)是 义在分布M下的文档宽度,记为Mw,当1 = 0)时,|X|L=0。所述的文档宽度差为左右文档矢量的宽度差值,该值为非负值。所述的虚拟项与其它特征项的相似距离是取左右文档矢量的各特征项之间的相 似距离的平均值。所述的最相似最高优先权准则是在计算文档间的相似度时,总是希望为相似距 离短的项对在文档矢量匹配时给予最高的优先级,即最相似的项(有可能是同义词或近 义词)在匹配时首先参与权值的运输,实现相似距离最小的项对给予最大的匹配计 算优先权,其它项对的匹配计算优先权依项间相似距离的增加递减分配。通过运用最 相似最高优先权准则可以减少EMD算法的计算负担。所述的全匹配准则是 一篇文档中的一个多义词通常在该文档中仅取一个词义, 所以在进行项匹配时一个项同时匹配给多个词的情况很少。因此,我们可以认为项与 项应当进行完全匹配,除非其中一个权值大于另一个才需对剩余的权值进行再匹配。 通过运用全匹配准则可以有效地减少EMD算法的迭代次数。根据上述准则,简化的EMD计算首先在步骤3中的相似距离记录列表中搜索相 似距离最小值,将该最小值连接的左矢量特征项的土方量(也就是权值)全部运 输到右矢量的坑穴。若坑穴容量不够则多余部分保留在左矢量中,若土方 量不够,则多余部分保留在右矢量中,将实际运输量作为该条路径上的流量。这样的 一次运输完成后,依照上述方法在步骤3中的相似距离记录列表中搜索下一个相似距 离最小值,直到所有左矢量的权值被运输完毕。根据下式计算文档语义相似距离<formula>formula see original document page 7</formula>有益效果本专利技术提出一种基于EMD的文档语义相似距离度量化方法,利用插入虚拟项的 方法对文档矢量的权值进行了平衡,消除了 EMD算法在计算过程中不区别文档矢量 之间本文档来自技高网
...

【技术保护点】
一种基于EMD的文档语义相似距离度量化方法,其特征在于步骤如下:1)首先对文集中两篇待计算文档语义相似距离的文档进行预处理,去除停用词,将文档表示成为tf.idf项权值矢量,A为左矢量,B为右矢量;2)对文档左矢量A和右矢量B计算文档宽度‖A‖↓[tf.idf]、‖B‖↓[tf.idf]和文档宽度差W↓[AB],W↓[AB]=|‖A‖↓[tf.idf]-‖B‖↓[tf.idf]|;3)利用基于WordNet的词汇相似距离工具,计算左右文档矢量权值非0特征项之间的相似距离,并分别存储到相似距离记录列表;4)定义虚拟项的权值和虚拟项与其它特征项的相似距离,将得到的虚拟项与其它特征项的相似距离写入步骤3的记录列表;所述的虚拟项的权值等于步骤2得到的左右文档矢量的宽度差;所述的虚拟项与其它特征项的相似距离是:取左右文档矢量的特征项之间相似距离的最大值;5)如果左右文档矢量的文档宽度不相等,也就是文档宽度差不为0,则需进行插入虚拟项处理。若左矢量宽度大于右矢量,则为右矢量插入步骤4构建的虚拟项;反之,为左矢量插入步骤4构建的虚拟项;6)在插入虚拟项后,对文档矢量进行归一化处理:将文档矢量中各项的权值除以该文档矢量的总权值,用商值替代原来的项权值,得到的新的左、右文档矢量的总权值将分别为1;7)根据全匹配准则和最相似最高优先权准则进行EMD简化计算。...

【技术特征摘要】
1. 一种基于EMD的文档语义相似距离度量化方法,其特征在于步骤如下1)首先对文集中两篇待计算文档语义相似距离的文档进行预处理,去除停用词,将文档表示成为tf·idf项权值矢量,A为左矢量,B为右矢量;2)对文档左矢量A和右矢量B计算文档宽度‖A‖tf·idf、‖B‖tf·idf和文档宽度差WAB,WAB=|‖A‖tf·idf-‖B‖tf·idf|;3)利用基于WordNet的词汇相似距离工具,计算左右文档矢量权值非0特征项之间的相似距离,并分别存储到相似距离记录列表;4)定义虚拟项的权值和虚拟项与其它特征项的相似距离,将得到的虚拟项与其它特征项的相似距离写入步骤3的记录列表;所述的虚拟项的权值等于步骤2得到的左右文档矢量的宽度差;所述的虚拟项与其它特征项的相似距离是取左右文档矢量的特征项之间相似距离的最大值;5)如果左右文档矢量的文档宽度不相等,也就是文档宽度差不为0,则需进行插入虚拟项处理。若左矢量宽度大于右矢量,则为右矢量插入步骤4构建的虚拟项;反之,为左矢量插入步骤4构建的虚拟项;6)在插入虚拟项后,对文档矢量进行归一化处理将文档矢量中各项的权值除以该文档矢量的总权值,用商值替代原来的项权值,得到的新的左、右文档矢量的总权值将分别为1;...

【专利技术属性】
技术研发人员:郭雷王晓东方俊
申请(专利权)人:西北工业大学
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1