【技术实现步骤摘要】
一种基于文本多维度特征自动生成摘要的方法和装置
本专利技术涉及信息检索领域,具体涉及一种为文本文档自动生成摘要的方法和装置。
技术介绍
随着互联网技术的发展,人们从网络中获取到的信息量越来越大,如何从海量信息中快速获取到有效信息一直是信息检索领域的研究热点。文本自动摘要是指利用计算机处理自然语言文本,自动从原始文本中提取文摘,文摘能准确地反映出文本的中心内容。这种技术能有效降低互联网用户所面临的信息过载问题,帮助用户更快、更有效地从互联网定位到需要的信息。文本自动摘要出现于20世纪50年代末,可以分为基于统计的文本自动摘要、基于理解的文本自动摘要、基于信息抽取的文本自动摘要和基于结构的文本自动摘要。1.基于统计的文本自动摘要方法通过对词和句子的统计特征计算,摘录权重较高的原文句子形成文摘。这种方法不受领域限制、速度快、摘要长度可调节,但局限于文本表层信息,生成的摘要质量较差,存在内容不全面、语句冗余、不连贯等问题; 2.基于理解的文本自动摘要可以通过对文本语法、语义和语用信息进行深层分析,提取出有用信息,最终形成连贯的文摘。这种方法可以深入理解文本,但是却有严格的领域限制,无法推广使用; 3.基于信息抽取的文本自动摘要只对有用的文本片段进行有限的深度分析,效率和灵活性比基于理解的文摘高。但是这种方法以依赖领域知识的摘要框架为中枢,仍然受到领域的限制; 4.基于结构的文本自动摘要将文本信息当作句子的关联网络,选择与其他句子联系较多的中心句构成摘要。这种方法可以避免领域限制,对结构规范的文章提取文摘质量高,但是互联网上的文章结构灵活,可用的统一结 ...
【技术保护点】
一种基于文本多维度特征自动生成摘要的方法,其特征在于,该方法包括以下步骤:S1:断句,将文本拆分成句子;S2:分词,将本文拆分成关键词;S3:计算各个句子的权重值Wi;S4:根据句子的权重值选择句子构成摘要。其中所述的步骤S3包括:S31:计算每个句子与各个关键词的权重Wij;S32:计算每个句子的位置权重值WPi、精炼权重值WCi、语义权重值WSi;S33:计算每个句子的权重值Wi, ,其中为权重系数。874875dest_path_image002.jpg,666113dest_path_image004.jpg
【技术特征摘要】
1.一种基于文本多维度特征自动生成摘要的方法,其特征在于,该方法包括以下步骤: S1:断句,将文本拆分成句子; 52:分词,将本文拆分成关键词; 53:计算各个句子的权重值Wi ; 54:根据句子的权重值选择句子构成摘要。 其中所述的步骤S3包括: 531:计算每个句子与各个关键词的权重Wij ; 532:计算每个句子的位置权重值WPp精炼权重值WCp语义权重值WSi ;S3 3: 计算 每个 句子 的权 重值 Wi, 2.如权利要求1所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的步骤S4包括: 541:采用聚类算法将句子聚类成话题簇Cp ; 542:从各话题簇选取权重值Wi最高的句子构成摘要。3.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的Wu表示文本第i个句子的第j个关键词的特征权重,Wij满足如下计算公式: 4.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的位置权重值WPi表示第i个句子的位置权重值,WPi满足如下计算公式: 5.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的精炼权重值WCi表示第i个句子的精炼权重值,WCi满足如下计算公式: 6.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的语义权重值WSi为第i个句子的语义权重值,WSi满足如下计算公式: 其中,...
【专利技术属性】
技术研发人员:罗晶,
申请(专利权)人:江苏金智教育信息技术有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。