一种基于多句压缩的无监督科技情报摘要自动生成方法技术

技术编号:34035777 阅读:18 留言:0更新日期:2022-07-06 12:15
本发明专利技术涉及一种基于多句压缩的无监督科技情报摘要自动生成方法,属于自然语言生成技术领域。针对科技情报领域的多文档文本生成,首先基于LDA主题相似度词库扩展方法的主题爬虫来获取源数据。通过文本信息的权威性、时效性、内容相关性三个指标的文本信息价值评估模型,对所有文本段落进行排序。选取得分较高段落的作为生成最终科技情报的原始文本。最后,采用基于谱聚类和多句压缩的无监督多文档摘要方法,自动生成科技情报摘要。本方法有效解决了在数据筛选过程中,科技情报生成对于数据时效性以及权威性要求较高的问题,以及科技情报领域由于数据集缺乏导致传统基于神经网络多文档生成方法无法应用的问题。多文档生成方法无法应用的问题。多文档生成方法无法应用的问题。

An automatic generation method of unsupervised scientific and technological information summary based on multi sentence compression

【技术实现步骤摘要】
一种基于多句压缩的无监督科技情报摘要自动生成方法


[0001]本专利技术涉及一无监督科技情报摘要自动生成方法,具体涉及一种基于多句压缩的无监督科技情报摘要自动生成方法,属于自然语言生成


技术介绍

[0002]科技情报工作,对国家庞大科技战略拟定、庞大科技计划部署和经济社会发展都施展了关键功能,为社会、经济与科技的发展做出了贡献,是一个国家科技计划部署和经济社会发展都施展了关键功能中关键的构成部分。
[0003]在科技情报领域中,面对大数据环境下,采用人工收集、整理、筛选有价值的文本数据,并人工撰写情报报告,需要消耗大量的人力和时间成本,因此,当前人们对于情报的需求不再满足于信息资源的整序获取,不再满足于以文献单元为主要特征的加工整理和存取分析,而是对信息分析深度了更高要求,包括数据资源快速评价推荐、知识单元的抽取和分析、多维据融合、细粒度数据分析以及可视化、计算化的数据呈现与分析等,力争将大数据去冗分类、去粗存精、去伪存真,实现基本自动化的情报摘要生成。
[0004]但是,在信息爆炸的时代,由于科技情报信息的来源纷乱复杂,如何从大量的信息中快速准确的找到自己需要的有用信息是一个很大的挑战。要实现基本自动化情报生成,第一步就是要高效收集有效的信息。此外,由于情报的时效性和权威性在情报研究中非常重要,在做文献资料选择时需要着重考虑。并且,由于信息来源不同而导致信息结构不统一,将多个异构文档整合处理并生成最终报告也是一个难点。综上所述,在实现科技情报摘要的自动生成过程中,主要需要解决的问题是:融合时间等因素的异构文本综合评价推荐以及多文档摘要。
[0005]目前,在有效信息收集方面,比较好的方法有主题爬虫。大多数研究者采用基于链接和基于内容的爬取策略结合的方法,均取得了不错的效果。然而,在科技情报领域中,获取资料的途径通常为国内外权威智库,而智库网页中存在链接的情况较少,因此,在情报领域基于内容的爬取方法更为适用。在多文档摘要领域的研究中,最新的成果大都采用首先对多文档进行排序,筛选出最重要的前N个文档,接着采用神经网络或神经网络与图模型结合的方法,有的作者也将预训Bert等预练模型融合进模型中。上述方法在有监督多文档摘要中取得了不错的效果。然而,在科技情报领域,数据集缺乏是一个不可忽视的问题,这使得有监督方法在该领域实际并不可用。

技术实现思路

[0006]本专利技术的目的是为了解决科技情报领域手动收集筛选以及生成报告困难的技术问题,创造性地提出一种贯穿数据收集、数据筛选到情报生成的自动化科技情报摘要生成方法。本方法有效解决了在数据筛选过程中,科技情报生成对于数据时效性以及权威性要求较高的问题,以及科技情报领域由于数据集缺乏导致传统基于神经网络多文档生成方法无法应用的问题。
[0007]本专利技术的创新点在于:针对科技情报领域的多文档文本生成,首先基于LDA(Latent Dirichlet Allocation,一种文档主题生成模型,也称三层贝叶斯概率模型,包含词、主题和文档三层结构)主题相似度词库扩展方法的主题爬虫来获取源数据。通过文本信息的权威性、时效性、内容相关性三个指标的文本信息价值评估模型,对所有文本段落进行排序。选取得分较高段落的作为生成最终科技情报的原始文本。最后,采用基于谱聚类和多句压缩的无监督多文档摘要方法,自动生成科技情报摘要。
[0008]本专利技术是通过以下技术方案实现的。
[0009]一种基于多句压缩的无监督科技情报摘要自动生成方法,包括以下步骤:
[0010]步骤1:采用基于LDA主题相似度词库扩展方法的主题爬虫方式,进行文本内容抓取,获取源数据。
[0011]通过给定的初始关键词,在主题描述不充分的情况下,通过主题爬虫自身对主题相关资源的收集功能,不断扩充语料,循环训练模型,不断完善、扩展、更新主题描述,从而更加全面、准确地获取想要的内容。
[0012]步骤2:对爬取的文本,根据其内容与关键词的相关性以及该源文本的时效性和权威性,进行评估排序。选取得分排名至少前40的段落的文本,作为生成最终科技情报的原始文本。
[0013]步骤3:以步骤2中得到的结果文本作为模型的输入,采用基于谱聚类和多句压缩的无监督多文档摘要模型,得到摘要结果。
[0014]有益效果
[0015]本专利技术方法,与现有技术相比,具有以下优点:
[0016]1.本方法,分别提出了一个论文专利文本信息评估模型和一个智库文章文本信息评估模型。模型有很强的通用性,可以适用于所有的论文专利文本和所有的智库文章。
[0017]2.本方法提供了从数据获取到文本生成的自动化科技情报摘要生成方法,利用主题爬虫,提升了数据对于主题关键词的相关性,减少冗余数据,优化了数据获取以及清洗阶段的效率。在文本生成阶段利用谱聚类和多句压缩的组合方法,提升了无监督多文档摘要的效果。
附图说明
[0018]图1是本专利技术方法的整体流程图;
[0019]图2是本专利技术方法步骤1以及实施例1的主题爬虫模块的架构图;
[0020]图3是本专利技术方法步骤2以及实施例1的文本信息价值评估过程的流程图;
[0021]图4是本专利技术方法步骤3以及实施例1的多文档摘要算法的流程图;
[0022]图5是本专利技术方法步骤3.4以及实施例1的多文档摘要过程中所使用的多句压缩算法的流程图。
具体实施方式
[0023]为了使本专利技术的目的,技术方案及优点更加清楚明白,以下结合附图对本专利技术做进一步详细说明。应当理解,此处所描述的具体实施方式,仅仅用以解释本专利技术,并不用于限定本专利技术。
[0024]一种基于多句压缩的无监督科技情报摘要自动生成方法,包括如下步骤:
[0025]步骤1:采用基于LDA主题相似度词库扩展方法的主题爬虫方式,进行文本内容抓取,获取源数据。
[0026]由于仅给定少量关键词,通过爬虫爬取到的内容与实际希望爬取到的内容并不完全相符,因此,采用主题爬虫方式,能够在提升准确度、扩大爬取范围的同时,尽可能提高爬取的效率。
[0027]通过给定的初始关键词,在主题描述不充分的情况下,通过主题爬虫自身对主题相关资源的收集功能,不断扩充语料,循环训练模型,不断完善、扩展、更新主题描述,以求更加全面、准确地获取想要的内容。
[0028]具体地,步骤1包括以下步骤:
[0029]步骤1.1:根据给定的初始关键词,爬取相应结果网页,将这些新增的网页提取摘要,作为LDA新的训练语料。
[0030]步骤1.2:对训练预料做词嵌入(word embedding)。可以利用word2vec模型实现。
[0031]步骤1.3:结合原有的语料库,经LDA训练得到新的主题文档,用于覆盖更新原有主题爬虫的主题文档。
[0032]步骤2:对爬取的文本,根据其内容与关键词的相关性以及该源文本的时效性和权威性,进行评估并排序。
[0033]对文本信息价值的评估,通常从信息的传播源、传播特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多句压缩的无监督科技情报摘要自动生成方法,其特征在于,包括以下步骤:步骤1:采用基于LDA主题相似度词库扩展方法的主题爬虫方式,进行文本内容抓取,获取源数据;步骤2:对爬取的文本,根据其内容与关键词的相关性以及该源文本的时效性和权威性,进行评估排序;通过提炼出文本信息的权威性、时效性、内容相关性这三个特征维度,构建文本信息价值评估模型;包括以下步骤:步骤2.1:将所有文本按照段落进行分割;在后续计算中,以段落为单位进行;其中,对论文、专利、期刊类的价值评估的方法如下:针对论文、专利、期刊类文本,将影响因子、第一作者总发文量和总下载量、该文本下载量、引用量作为权威性评判指标,将发布时间作为时效性指标,将摘要与主题词库的相似性作为内容相关性指标,并为每个指标设定相应参数,构建文本信息价值评估模型,综合计算文本的价值评分;步骤2.3:对智库文章的价值进行评估;针对智库文章类文本,将文章作者的粉丝数、发文数量作为权威性指标,将发布时间作为时效性指标,将文章摘要与主题词库的相似性作为内容相关性指标,并为每个指标设定相应的参数,构建智库文章文本信息价值评估模型;步骤2.4:计算文本的信息价值;将文本信息价值定义为新的权威性特征、时效性特征和内容相关性特征的线性组合;同时,考虑到时效性的乘数效应,得到测算信息价值为:X=[δ1(α1x
11
+α2x
12
+α3x
13
)+δ2(βx3)]x2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)其中,X表示此段文本信息的价值,α1、α2、α3、δ1、δ2表示不同特征对文本价值的影响因子,其值根据实际需要进行选择;步骤2.5:将每个段落按照其文本信息价值评分进行排序,选择排序结果的之多前40条段落,作为后续进行多文档摘要的文本数据;步骤3:以步骤2中得到的结果文本作为模型的输入,采用基于谱聚类和多句压缩的无监督多文档摘要模型,得到摘要结果;首先,将原始文档转换为句子图,同时考虑语言和深度表示,然后应用谱聚类得到多个句子簇,最后对每个簇进行压缩生成最终摘要。2.如权利要求1所述的一种基于多句压缩的无监督科技情报摘要自动生成方法,其特征在于,步骤1包括以下步骤:步骤1.1:根据给定的初始关键词,爬取相应结果网页,将这些新增的网页提取摘要,作为LDA新的训练语料;步骤1.2:对训练预料做词嵌入;步骤1.3:结合原有的语料库,经LDA训练得到新的主题文档,用于覆盖更新原有主题爬虫的主题文档。3.如权利要求1所述的一种基于多句压缩的无监督科技情报摘要自动生成方法,其特征在于,步骤2中,针对论文、专利、期刊类文本的价值评分计算方法,包括以下步骤:第一步:计算权威性x1;
对于权威性x1,与权威性相关的因素包括文本的发表期刊权威性、作者在本领域中的权威性,以本领域其他研究者对该文本的评价;其中,期刊类的权威性x
11
,采用该期刊影响因子与所有文献影响因子的最大值的比值表示,如式1所示:论文、专利类的权威性,由作者作为第一作者在该领域发表文章数量以及该作者作为第一作者发表的文章被下载的总量决定,如式2所示:论文本身的价值,由该论文的下载量和引用量来决定,如式3所示:第二步:计算时效性x2;设文本信息价值随时间的衰减系数为μ,信息获取时刻与信息发布时刻的时间间隔为Δt,则信息价值随时间变化的计算如式4所示:x2=e

μΔt
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,e为自然常数;第三步:计算内容相关性x3;将主题爬虫获取到的主题词库中的每个词看为q
i
;对于该文本的摘要a,计算每个词q
i
与a的相关度得分,将q
i
与a的相关性得分进行加权求和,得到当前文本与主题词库的相关性得分Score(Q,a),如式5所示:其中W
i
表示第i个词q
i
的权重,使用TF

IDF算法计算;n表示词库中单词总数;R(q
i
,a)表示单词q
i
与a的相关性,通过式6、式7计算:与a的相关性,通过式6、式7计算:其中,tf
ta
是单词t在a中的词频;L
a
是a的长度,L
ave
是所有文本的平均长度,变量k是一个正的参数,用来标准化文章词频的范围;b是一个可调的参数,0<b<1,表示用决定使用文档长度来表示信息量的范围;K为计算时的中间结果;针对智库文章类文本的价值评分计算方法,包括以下步骤:第一步:计算权威性x1;对于智库文章,以该文章作者的粉丝数以及发文数量作为其权威性的衡量指标,采用式8、式9计算:式8、式9计算:
第二步:计算时效性x2;计算方法与论文、专利、期刊类文本的价值评分计算方法第二步相同;第三步:计算内容相关性x3;计算方法与论文、专利、期刊类文本的价值评分计算方法第三步相同。4.如权利要求1所述的一种基于多句压缩的无监督科技情报摘要自动生成方法,其特征在于,步骤3中包括以下步骤:步骤3.1:处理文本数据;对于步骤2最终得到的与一个主题相关的段落集合P={p1,p2,

p
n
},最终目标是生成一个囊括原始文档中重要信息并且无冗余信息的摘要S;以句子作为文本的最小处理单位,并考虑到最后一步需要进行句子压缩,保留所有停用词;具体方法为:生成一个句子列表...

【专利技术属性】
技术研发人员:张隽驰张华平商建云
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1