本发明专利技术公开了一种基于文档结构的文档相似性度量方法,涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息,本发明专利技术提出的方法包括以下步骤:(1)对于需要比较的两个文档X和Y,分别使用文档结构分析方法找出每个文档的子主题序列;(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值;(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值,建立一个带权二部图G={X,Y,E};(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。本发明专利技术提出的方法,提高了文档相似性判断的准确度。
【技术实现步骤摘要】
本专利技术涉及一种文档结构相似性度量的数据处理方法。
技术介绍
文档相似性度量是文本信息处理领域的一个核心问题,很多文本应用包括文档聚类、文档检索、文档过滤等,都依赖于文档相似性的精确度量。目前已经有许多文档相似性度量方法被提出和应用,例如余弦度量法(cosine measure)、Jaccard度量法、Dice度量法(参考文献W.B.Frakes andR.Baeza-YatesInformation Retrieval,Data Structure and Algorithms,1992)、基于信息论的方法(参考文献J.A.Aslam and M.FrostAnInformation-theoretic Measure for Document Similarity.In Proceedings ofSIGIR 2003)等,其中应用最广的是余弦度量法。在以下文献中记载了文档相似性度量方法Dice度量法作者W.B.Frakes and R.Baeza-Yates,著作名称Information Retrieval,Data Structure and Algorithms,出版日期1992年。基于信息论的方法作者J.A.Aslam、M.Frost,题目AnInformation-theoretic Measure for Document Similarity,期刊名称Proceedings of SIGIR’2003,出版日期2003年。现有的文档相似性度量方法都是基于向量空间模型。在向量空间模型中,文档被看作一个词袋,并被表示为一个向量,词袋中的每一个词被表示为该向量的一维,向量的每一维对应的权值为其所代表的词的tf×idf值,tf为该词在文档中出现的频率,idf为该词的倒排文档频率。一般通过log(N/n)来计算某个词的idf,其中N为文档集合中的文档总数,n为文档集合中出现过该词的文档数目。得到文档的向量表示之后,余弦度量法(cosine measure)是通过以下余弦公式计算得到两文档的相似度值simcosine(x,y)=x→·y→|x→|×|y→|]]>其中 和 分别是文档x和y的向量表示,·表示向量的点积,“||”表示取模计算。其他度量方法与余弦度量法的主要区别在于采用了不同的计算公式。在以上文档相似性度量方法中,文档被压缩成向量表示,因此失去了文档自身的结构信息,即丢失了词语在文档各个部分的分布信息。极端情况下,两个表示为同一向量的文档可以由不同的句子所组成,而使用现有的度量方法将这两个文档分别与某个给定文档计算相似度时,计算结果会得到相同的相似度,但是实际上由于这两个文档是由不同的句子组成,这两个文档与给定文档之间应该具有不同的相似度值。因此,现有的度量方法的精确度不高。每一个文档都由围绕一个中心主题的若干个子主题组成,每一个子主题反映在文档上为一个文本块,也就是一组反映某个子主题的词串或句子。词在子主题上不同的分布情况将会影响文档之间的相似性。对于两个文档来说,词在子主题上的分布越相似,这两个文档之间相似程度越高。在计算文档之间的相似度时,可以使用图论的最优匹配的算法,例如Kuhn-Munkres算法(也叫匈牙利算法The Hungarian Method)。在以下文献中记载了Kuhn-Munkres算法作者W.S.Xiao著作Graph Theory and Its Algorithms,出版日期1993年。
技术实现思路
针对上述现有的文档相似性度量方法中存在的问题和不足,本专利技术的目的是提供一种,能够更准确地计算文档之间的相似性。本专利技术是这样实现的一种,包括以下步骤(1)对于需要比较的两个文档X和Y,分别使用文档结构分析方法得出每个文档的子主题序列X={x1,x2,...,xn}和Y={y1,y2,...ym};(2)对文档X的子主题序列中的每一子主题xi,分别与文档Y子主题序列中的每一子主题yi利用相似性度量方法计算相似度值wij;(3)对步骤(1)得到的两个文档的子主题序列及步骤(2)得到的相似度wij,建立一个带权二部图G={X,Y,E},其中点集X,Y分别为两个文档中的子主题序列,边集E中的边eij联系子主题xi和yj,该边的权重wij为步骤(2)算得到的xi和yi的相似度值;(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。其中,所述的文档结构分析方法为文本块分割方法(TextTiling)。其中,所述的文档结构分析方法为聚类方法。其中,所述的相似性度量方法为余弦度量法(cosine measure)。其中,所述的相似性度量方法为Jaccard度量法。其中,所述的相似性度量方法为Dice度量法其中,所述的相似性度量方法为基于信息论的方法。其中,所述的求解最优匹配的方法为Kuhn-Munkres算法。本专利技术提出的,解决了现有文档相似性度量技术中丢失了词语在文档各个部分的分布信息的问题,提高了文档相似性判断的准确度。附图说明图1是本专利技术流程示意图;图2是使用本专利技术提出的方法进行文档相似搜索的示意图;图3是使用本专利技术提出的方法进行文档聚类的示意图;图4是文档子主题结构的例子;图5所示是一个最优匹配的例子。具体实施例方式每一个文档都由围绕一个中心主题的若干个子主题组成,每一个子主题反映在文档上为一个文本块,也就是一组反映某个子主题的词串或句子。词在子主题上不同的分布情况将会影响文档之间的相似性。对于两个文档来说,词在子主题上的分布越相似,这两个文档之间相似程度越高。本专利技术优选实施例一,采用文本块分割方法(TextTiling)对文档结构进行分析,流程如图1所示包括以下步骤1、读入需要比较的两个文档X和Y,对于需要比较的两个文档X和Y,分别使用文本块分割方法(TextTiling)得出每个文档的子主题序列X={x1,x2,...,xn}和Y={y1,y2,...ym},具体步骤为①对读入的文档X进行分词,每20个词划分成1个词串,词串的大小可根据需要选择。②为每两个词串之间的位置通过下列方法计算一个相似度值对于词串i和词串i+1之间的位置,计算由词串i-k到词串i组成的文本块与由词串i+1到i+k+1组成的文本块之间的余弦相似度值,这个值就是词串i和词串i+1之间位置的相似度值xi,然后对每一个位置的相似度值利用其两侧位置的相似度值的平均值进行平滑处理。其中k通常为6。③对每两个词串i和i+1之间的位置计算其深度值si=(xi-1-xi)+(xi+1-xi),深度值越大,越有可能成为子主题分界点。只保留si>0的位置,对这些位置按照深度值从大到小排序。如果某个位置的深度值大于s-σ/2(其中s为平均深度值,σ位深度值的标准差),那么这个位置为一个子主题的分界点。所有的子主题分界点确定之后,就能得到文档X的子主题序列{x1,x2,...,xn},如图4所示,文档被划分为一个子主题序列。对文档Y同样进行①-③步骤处理,得到文档Y的子主本文档来自技高网...
【技术保护点】
一种基于文档结构的文档相似性度量方法,其特征在于,该方法包括以下步骤:(1)对于待比较的两个文档X和Y,利用文档结构分析方法分别得到所述两个文档X和Y的子主题序列{x↓[1],x↓[2],…,x↓[n]}和{y↓[1],y↓[2], …y↓[m]};(2)对文档X的子主题序列中的每一子主题x↓[i],分别与文档Y子主题序列中的每一子主题y↓[j]利用相似性度量方法计算相似度值w↓[ij];(3)对步骤(1)得到的两个文档的子主题序列及步骤(2)得到的相似 度值w↓[ij],建立一个带权二部图G={X,Y,E},其中点集X、Y分别为两个文档中的子主题序列,边集E中的边e↓[ij]联系子主题x↓[i]和y↓[j],该边的权重w↓[ij]为步骤(2)算得到的x↓[i]和y↓[j]的相似度值; (4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。
【技术特征摘要】
1.一种基于文档结构的文档相似性度量方法,其特征在于,该方法包括以下步骤(1)对于待比较的两个文档X和Y,利用文档结构分析方法分别得到所述两个文档X和Y的子主题序列{x1,x2,...,xn}和{y1,y2,...ym};(2)对文档X的子主题序列中的每一子主题xi,分别与文档Y子主题序列中的每一子主题yj利用相似性度量方法计算相似度值wij;(3)对步骤(1)得到的两个文档的子主题序列及步骤(2)得到的相似度值wij,建立一个带权二部图G={X,Y,E},其中点集X、Y分别为两个文档中的子主题序列,边集E中的边eij联系子主题xi和yj,该边的权重wij为步骤(2)算得到的xi和yj的相似度值;(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。2.根据权利要求1所述的基于文档结构的文档相似性度量方法,其特征在于,所述...
【专利技术属性】
技术研发人员:万小军,彭宇新,杨建武,吴於茜,陈晓鸥,
申请(专利权)人:北大方正集团有限公司,北京北大方正技术研究院有限公司,北京大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。