The invention discloses a TextRank document summarization method based on threshold denoising, which comprises the following steps: according to the first statement document access to build the first map model; TextRank algorithm through the first TR on all of the first document statement for iterative computation for each of the first document statement corresponds to the value of the first TR all values were size ratio with the threshold, and the first document statement all is less than a preset threshold value of the first TR value corresponding to the second to remove from the first graph graph model; and selecting a plurality of second TR the highest value second sentences to form the document document. The invention also provides a TextRank document summarization device based on threshold de-noising. The method of TextRank document summarization based on threshold denoising can effectively exclude interference items in documents, improve the accuracy of assigning weight values, and improve the quality of generated summaries.
【技术实现步骤摘要】
一种基于阈值去噪的TextRank文档摘要方法及装置
本专利技术涉及一种数据挖掘
,尤其涉及一种基于阈值去噪的TextRank文档摘要方法及装置。
技术介绍
现今时代互联网发展迅速,信息急剧膨胀,充斥着人们的生活,带来了极大的便利,人们足不出户便可以了解时事,查找自己所需要的资源和信息。但与此同时,面对新闻网站上纷乱繁杂的原始新闻,为了能够跟上信息更新的速度,将新闻事件报道进行汇总精简、提炼出其中的关键信息,满足快速获取知识的要求成为一个亟待解决的问题。为了解决这一问题,文档自动摘要方法伴随需求而得到发展。近年来,基于图的排序算法已经被应用到文档摘要中,其中应用最为广泛的是Mihalcea和Tarau提出的TextRank模型,它是基于图的摘要模型,其涉及到的背景知识如下:1.PageRankPageRank(网页排名)利用网页的链接结构构建Web图模型,从客观上评估网页的相对重要性,有效地衡量用户对网页的兴趣和关注程度。它的基本思想是,一个网页的重要程度取决于链接到该网页的网页数量以及这些网页的重要程度。PageRank应用了两个假设:数量假设和质量假设。数量假设是指在Web图模型中,一个网页所拥有的指向自己的其他网页的数量越多,则该网页的重要程度越高;质量假设是指质量或重要程度越高的网页指向某个网页时,被指向的网页重要程度越高。PageRank采用投票或推荐机制,即每一个网页会将自己的PR值平均地分配给自己所指向的网页。令G=(V,E)表示由顶点集合V和边集合E组成的图,V中每个顶点表示一个网页,网页Vi指向网页Vj通过E中以顶点Vi为起点、Vj ...
【技术保护点】
一种基于阈值去噪的TextRank文档摘要方法,其特征在于,包括以下步骤:获取步骤:根据获取到的第一文档语句构建第一图模型;计算步骤:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;比对步骤:将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;摘要形成步骤:通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。
【技术特征摘要】
1.一种基于阈值去噪的TextRank文档摘要方法,其特征在于,包括以下步骤:获取步骤:根据获取到的第一文档语句构建第一图模型;计算步骤:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;比对步骤:将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;摘要形成步骤:通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。2.如权利要求1所述的基于阈值去噪的TextRank文档摘要方法,其特征在于,在获取步骤之前还包括以下步骤:预处理步骤:对获取到的文档信息进行预处理以得第一文档语句。3.如权利要求1或2所述的基于阈值去噪的TextRank文档摘要方法,其特征在于,在摘要形成步骤中采用贪婪算法去除第二图模型中的冗余信息。4.如权利要求1所述的基于阈值去噪的TextRank文档摘要方法,其特征在于,在计算步骤中采用的迭代计算公式为:其中,α为阻尼系数,其取值为0-1之间,Si和Sj均表示文档语句,TR(Si)表示文档语句Si对应的TR值,TR(Sj)表示文档语句Sj对应的TR值,wji表示Si和Sj之间的相似度,In(Si)表示以顶点Si为终点的入边集合,Out(Sj)表示以顶点Sj为起点的出边集合。5.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:获取步骤:根据获取到的第一文档语句构建第一图模型;计算步骤:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;比对步骤:将所有的第...
【专利技术属性】
技术研发人员:蔡毅,
申请(专利权)人:广州汪汪信息技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。