一种基于阈值去噪的TextRank文档摘要方法及装置制造方法及图纸

技术编号:17406992 阅读:55 留言:0更新日期:2018-03-07 04:50
本发明专利技术公开了一种基于阈值去噪的TextRank文档摘要方法,包括以下步骤:根据获取到的第一文档语句构建第一图模型;通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;并选取若干条第二TR值最高的第二文档语句以形成文档摘要。本发明专利技术还提供了一种基于阈值去噪的TextRank文档摘要装置。本发明专利技术的基于阈值去噪的TextRank文档摘要的方法能够有效的排除文档中的干扰项,提高权重值的分配准确度,从而提高所生成的摘要的质量。

A method and device for TextRank document summarization based on threshold de-noising

The invention discloses a TextRank document summarization method based on threshold denoising, which comprises the following steps: according to the first statement document access to build the first map model; TextRank algorithm through the first TR on all of the first document statement for iterative computation for each of the first document statement corresponds to the value of the first TR all values were size ratio with the threshold, and the first document statement all is less than a preset threshold value of the first TR value corresponding to the second to remove from the first graph graph model; and selecting a plurality of second TR the highest value second sentences to form the document document. The invention also provides a TextRank document summarization device based on threshold de-noising. The method of TextRank document summarization based on threshold denoising can effectively exclude interference items in documents, improve the accuracy of assigning weight values, and improve the quality of generated summaries.

【技术实现步骤摘要】
一种基于阈值去噪的TextRank文档摘要方法及装置
本专利技术涉及一种数据挖掘
,尤其涉及一种基于阈值去噪的TextRank文档摘要方法及装置。
技术介绍
现今时代互联网发展迅速,信息急剧膨胀,充斥着人们的生活,带来了极大的便利,人们足不出户便可以了解时事,查找自己所需要的资源和信息。但与此同时,面对新闻网站上纷乱繁杂的原始新闻,为了能够跟上信息更新的速度,将新闻事件报道进行汇总精简、提炼出其中的关键信息,满足快速获取知识的要求成为一个亟待解决的问题。为了解决这一问题,文档自动摘要方法伴随需求而得到发展。近年来,基于图的排序算法已经被应用到文档摘要中,其中应用最为广泛的是Mihalcea和Tarau提出的TextRank模型,它是基于图的摘要模型,其涉及到的背景知识如下:1.PageRankPageRank(网页排名)利用网页的链接结构构建Web图模型,从客观上评估网页的相对重要性,有效地衡量用户对网页的兴趣和关注程度。它的基本思想是,一个网页的重要程度取决于链接到该网页的网页数量以及这些网页的重要程度。PageRank应用了两个假设:数量假设和质量假设。数量假设是指在Web图模型中,一个网页所拥有的指向自己的其他网页的数量越多,则该网页的重要程度越高;质量假设是指质量或重要程度越高的网页指向某个网页时,被指向的网页重要程度越高。PageRank采用投票或推荐机制,即每一个网页会将自己的PR值平均地分配给自己所指向的网页。令G=(V,E)表示由顶点集合V和边集合E组成的图,V中每个顶点表示一个网页,网页Vi指向网页Vj通过E中以顶点Vi为起点、Vj为终点的边来表示;In(Vi)表示以顶点Vi为终点的入边集合,Out(Vi)表示以顶点Vi为起点的出边集合。网页Vi的重要程度定义如下:其中|Out(Vj)|表示顶点Vj的出度。以一个例子来说明以上定义。如图1所示,其中PR值为100的网页指向了PR值为53和50的两个网页,则它会将自己的PR值平均分配给这两个网页,而这两个网页又会将自己的PR值平均分配给它们各自所指向的网页,这是一个反复迭代的过程,最终网页的PR值会趋向于正常和稳定。如图2所示,经过反复迭代后,网页的PR值已经收敛。上述公式存在一个问题:在现实情况中,存在着一些网页,它们彼此互相链接,而没有指向其他网页的链接,这就会导致链接只在一个集合内部旋转,而不指向外界的现象,如图3所示。这种封闭的情况称为RankSink。因此,需要进行修正。实际上,用户在浏览网页时,如果他发现一直在同样的几个网页中徘徊时,那么他会离开当前页面,重新打开一个新的网页;用户也不会一直都顺着当前页面的链接前进,也可能会跳跃到完全无关的页面里。基于这一思想,PageRank在上述公式的基础上加入了阻尼系数(dampingfactor)α,得到如下公式:其中阻尼系数α表示到达某个页面后继续往后浏览的概率,1-α表示用户停止点击,跳出现在的页面,转至一个新的网页的概率。α的取值范围为[0,1],一般取值为0.85。根据修正后的公式,一个网页的PR值是由其他网页的PR值计算得到的,这是一个不断迭代计算的过程,最终网页的PR值会趋向于正常和稳定。2.向量空间模型向量空间模型VSM(VectorSpaceModel)是文本分析中常用的用于表示文档的模型,它把对文本内容的处理简化为向量空间中的向量运算。VSM将每篇文档表示为一个标准化的向量其中每一维ti是特征项,表示出现在文档Dm中且能够表示该文档内容的基本语言单位,主要由词或者短语组成,v表示特征项的总数。在文档Dm中,每个特征项都有其权重值,表示该特征项的重要程度,即Dm(t1,w1;t2,w2;…tv,wv),简记为Dm(w1,w2,…,wv),它是v维空间中的一个向量,称为Dm的向量表示。其中wi表示特征项ti的权重。特征项的权重值有多种计算方法,一般采用TF-IDF(词频-逆文档频率)。词频TF(termfrequency)定义为TFim=ni/N,表示第i个特征项在第m篇文档Dm中出现的频率,其中ni表示在Dm中出现的次数,N表示Dm中所包含的总词数;在不同的文档中TF有明显的差别,尤其是在不同类别的文档中,因此TF在文本处理中是一个有价值的信息。逆文档频率IDF(inversedocumentfrequency)定义为IDFi=log(|D|/di),表示第i个特征项的IDF值,|D|表示文档集合D中的文档总数,di表示第i个特征项出现的文档总数;IDF的作用是调整TF,避免一些在文档集合中出现频率很高的特征项具有过高的权重。将TF和IDF相乘的结果作为TF-IDF值,表示特征项的权重值,TF-IDF值越大,说明特征项重要程度越高。3.余弦相似度通过VSM,两条句子之间的相似度计算转变为两个向量之间的相似度计算,对此余弦相似度是常用的方法之一。在VSM中,两条句子Si,Sj的余弦相似度定义如下:其中,wix和wjx分别表示句子Si和Sj第x个特征项的权重值,1≤x≤v。计算得到的余弦值的范围介于0到1之间,它越接近1,表明两个向量越接近0度,即两个向量越相似,其所表示的两条句子之间的相似度越高。当余弦值等于1时,夹角等于0,即两个向量相等,其所表示的两条句子完全一致。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种基于阈值去噪的TextRank文档摘要方法,其能有效去除文档中的干扰项。本专利技术的目的之二在于电子设备,其能有效去除文档中的干扰项。本专利技术的目的之三在于提供一种计算机可读存储介质,其能有效去除文档中的干扰项。本专利技术的目的之四在于提供一种基于阈值去噪的TextRank文档摘要装置,其能有效去除文档中的干扰项。本专利技术的目的之一采用如下技术方案实现:一种基于阈值去噪的TextRank文档摘要方法,包括以下步骤:获取步骤:根据获取到的第一文档语句构建第一图模型;计算步骤:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;比对步骤:将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;摘要形成步骤:通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。进一步地,在获取步骤之前还包括以下步骤:预处理步骤:对获取到的文档信息进行预处理以得第一文档语句。进一步地,在摘要形成步骤中采用贪婪算法去除第二图模型中的冗余信息。进一步地,在计算步骤中采用的迭代计算公式为:其中,α为阻尼系数,其取值为0-1之间,Si和Sj均表示文档语句,TR(Si)表示文档语句Si对应的TR值,TR(Sj)表示文档语句Sj对应的TR值,wji表示Si和Sj之间的相似度,In(Si)表示以顶点Si为终点的入边集合,Out(Sj)表示以顶点Sj为起点的出边集合。本专利技术的目的之二采用如下技术方案实现:一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:获取步骤:根据获取到的第一文档语句构建第一图模型;计算步骤:通过T本文档来自技高网
...
一种基于阈值去噪的TextRank文档摘要方法及装置

【技术保护点】
一种基于阈值去噪的TextRank文档摘要方法,其特征在于,包括以下步骤:获取步骤:根据获取到的第一文档语句构建第一图模型;计算步骤:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;比对步骤:将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;摘要形成步骤:通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。

【技术特征摘要】
1.一种基于阈值去噪的TextRank文档摘要方法,其特征在于,包括以下步骤:获取步骤:根据获取到的第一文档语句构建第一图模型;计算步骤:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;比对步骤:将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;摘要形成步骤:通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。2.如权利要求1所述的基于阈值去噪的TextRank文档摘要方法,其特征在于,在获取步骤之前还包括以下步骤:预处理步骤:对获取到的文档信息进行预处理以得第一文档语句。3.如权利要求1或2所述的基于阈值去噪的TextRank文档摘要方法,其特征在于,在摘要形成步骤中采用贪婪算法去除第二图模型中的冗余信息。4.如权利要求1所述的基于阈值去噪的TextRank文档摘要方法,其特征在于,在计算步骤中采用的迭代计算公式为:其中,α为阻尼系数,其取值为0-1之间,Si和Sj均表示文档语句,TR(Si)表示文档语句Si对应的TR值,TR(Sj)表示文档语句Sj对应的TR值,wji表示Si和Sj之间的相似度,In(Si)表示以顶点Si为终点的入边集合,Out(Sj)表示以顶点Sj为起点的出边集合。5.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:获取步骤:根据获取到的第一文档语句构建第一图模型;计算步骤:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;比对步骤:将所有的第...

【专利技术属性】
技术研发人员:蔡毅
申请(专利权)人:广州汪汪信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1