一种基于文本多维度特征自动生成摘要的方法和装置制造方法及图纸

技术编号:9861280 阅读:324 留言:0更新日期:2014-04-02 19:54
本发明专利技术公开了一种基于文本多维度特征自动生成摘要的方法和装置。本发明专利技术的方法包括以下步骤:断句,分词,计算句子和关键词权重值,计算句子位置权重值、句子精炼权重值和句子语义权重值,然后将句子位置权重值、句子精炼权重值和句子语义权重值加权求和后获得每个句子的权重值,再采用K均值聚类算法将句子划分成话题簇,最后从各话题簇中选取权重值最高的句子构成摘要。相比现有技术,本发明专利技术在计算句子权重时,增加了评判的维度,从多种维度考虑文本的句子特征,并且通过聚类算法得到话题簇中提取句子,获得高质量的文摘。本发明专利技术可以通过根据不同的文本来源调整不同维度的权重系数,从而实现调整句子权重算法,使得本发明专利技术不受领域限制。

【技术实现步骤摘要】
一种基于文本多维度特征自动生成摘要的方法和装置
本专利技术涉及信息检索领域,具体涉及一种为文本文档自动生成摘要的方法和装置。
技术介绍
随着互联网技术的发展,人们从网络中获取到的信息量越来越大,如何从海量信息中快速获取到有效信息一直是信息检索领域的研究热点。文本自动摘要是指利用计算机处理自然语言文本,自动从原始文本中提取文摘,文摘能准确地反映出文本的中心内容。这种技术能有效降低互联网用户所面临的信息过载问题,帮助用户更快、更有效地从互联网定位到需要的信息。文本自动摘要出现于20世纪50年代末,可以分为基于统计的文本自动摘要、基于理解的文本自动摘要、基于信息抽取的文本自动摘要和基于结构的文本自动摘要。1.基于统计的文本自动摘要方法通过对词和句子的统计特征计算,摘录权重较高的原文句子形成文摘。这种方法不受领域限制、速度快、摘要长度可调节,但局限于文本表层信息,生成的摘要质量较差,存在内容不全面、语句冗余、不连贯等问题; 2.基于理解的文本自动摘要可以通过对文本语法、语义和语用信息进行深层分析,提取出有用信息,最终形成连贯的文摘。这种方法可以深入理解文本,但是却有严格的领域限制,无法推广使用; 3.基于信息抽取的文本自动摘要只对有用的文本片段进行有限的深度分析,效率和灵活性比基于理解的文摘高。但是这种方法以依赖领域知识的摘要框架为中枢,仍然受到领域的限制; 4.基于结构的文本自动摘要将文本信息当作句子的关联网络,选择与其他句子联系较多的中心句构成摘要。这种方法可以避免领域限制,对结构规范的文章提取文摘质量高,但是互联网上的文章结构灵活,可用的统一结构规则并不多。上述这些现有的文本自动摘要方法各有所长,适用于不同的场景,针对某一类型的文本进行自动摘要。这些方法实际上都是通过计算句子的权重,然后选择权重值高的句子作为摘要。所不同的是具体的句子的权重的计算方法之间的区别。也就是说,自动生成文档摘要功能中,计算句子权重的算法的好坏决定了自动生成文档的摘要的好坏。文献CN101446940也同样公开了一种句子权重的计算方法,该方法还是存在着一些欠缺。总体来说,现有的算法下,只能针对特定领域来源的文档,在某一特定领域下,该算法可能具有相当好的技术效果,但是在其他领域下,该算法却存在很大的问题。特别是针对新闻门户、博客、论坛、微博等不同的文本来源,这些现有的算法还存在着一些缺陷。
技术实现思路
本专利技术所要解决的问题是更好地生成文本摘要,并增加生成的文本摘要的可读性。一种基于文本多维度特征自动生成摘要的方法,该方法包括以下步骤: S1:断句,将文本拆分成句子; 52:分词,将本文拆分成关键词; 53:计算各个句子的权重值Wi ; 54:根据句子的权重值选择句子构成摘要。其中所述的步骤S3包括: 531:计算每个句子与各个关键词的权重Wij ; 532:计算每个句子的位置权重值WP1、精炼权重值WC1、语义权重值WSi ; S 3 3: 计算 每个 句子 的权 重值 Wi,本文档来自技高网
...

【技术保护点】
一种基于文本多维度特征自动生成摘要的方法,其特征在于,该方法包括以下步骤:S1:断句,将文本拆分成句子;S2:分词,将本文拆分成关键词;S3:计算各个句子的权重值Wi;S4:根据句子的权重值选择句子构成摘要。其中所述的步骤S3包括:S31:计算每个句子与各个关键词的权重Wij;S32:计算每个句子的位置权重值WPi、精炼权重值WCi、语义权重值WSi;S33:计算每个句子的权重值Wi,                                               ,其中为权重系数。874875dest_path_image002.jpg,666113dest_path_image004.jpg

【技术特征摘要】
1.一种基于文本多维度特征自动生成摘要的方法,其特征在于,该方法包括以下步骤: S1:断句,将文本拆分成句子; 52:分词,将本文拆分成关键词; 53:计算各个句子的权重值Wi ; 54:根据句子的权重值选择句子构成摘要。 其中所述的步骤S3包括: 531:计算每个句子与各个关键词的权重Wij ; 532:计算每个句子的位置权重值WPp精炼权重值WCp语义权重值WSi ;S3 3: 计算 每个 句子 的权 重值 Wi, 2.如权利要求1所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的步骤S4包括: 541:采用聚类算法将句子聚类成话题簇Cp ; 542:从各话题簇选取权重值Wi最高的句子构成摘要。3.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的Wu表示文本第i个句子的第j个关键词的特征权重,Wij满足如下计算公式: 4.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的位置权重值WPi表示第i个句子的位置权重值,WPi满足如下计算公式: 5.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的精炼权重值WCi表示第i个句子的精炼权重值,WCi满足如下计算公式: 6.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的语义权重值WSi为第i个句子的语义权重值,WSi满足如下计算公式: 其中,...

【专利技术属性】
技术研发人员:罗晶
申请(专利权)人:江苏金智教育信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1