一种基于多句压缩的无监督科技情报摘要自动生成方法技术

技术编号：34035777 阅读：24 留言：0更新日期：2022-07-06 12:15

本发明专利技术涉及一种基于多句压缩的无监督科技情报摘要自动生成方法，属于自然语言生成技术领域。针对科技情报领域的多文档文本生成，首先基于LDA主题相似度词库扩展方法的主题爬虫来获取源数据。通过文本信息的权威性、时效性、内容相关性三个指标的文本信息价值评估模型，对所有文本段落进行排序。选取得分较高段落的作为生成最终科技情报的原始文本。最后，采用基于谱聚类和多句压缩的无监督多文档摘要方法，自动生成科技情报摘要。本方法有效解决了在数据筛选过程中，科技情报生成对于数据时效性以及权威性要求较高的问题，以及科技情报领域由于数据集缺乏导致传统基于神经网络多文档生成方法无法应用的问题。多文档生成方法无法应用的问题。多文档生成方法无法应用的问题。

An automatic generation method of unsupervised scientific and technological information summary based on multi sentence compression

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多句压缩的无监督科技情报摘要自动生成方法

[0001]本专利技术涉及一无监督科技情报摘要自动生成方法，具体涉及一种基于多句压缩的无监督科技情报摘要自动生成方法，属于自然语言生成

技术介绍

[0002]科技情报工作，对国家庞大科技战略拟定、庞大科技计划部署和经济社会发展都施展了关键功能，为社会、经济与科技的发展做出了贡献，是一个国家科技计划部署和经济社会发展都施展了关键功能中关键的构成部分。
[0003]在科技情报领域中，面对大数据环境下，采用人工收集、整理、筛选有价值的文本数据，并人工撰写情报报告，需要消耗大量的人力和时间成本，因此，当前人们对于情报的需求不再满足于信息资源的整序获取，不再满足于以文献单元为主要特征的加工整理和存取分析，而是对信息分析深度了更高要求，包括数据资源快速评价推荐、知识单元的抽取和分析、多维据融合、细粒度数据分析以及可视化、计算化的数据呈现与分析等，力争将大数据去冗分类、去粗存精、去伪存真，实现基本自动化的情报摘要生成。
[0004]但是，在信息爆炸的时代，由于科技情报信息的来源纷乱复杂，如何从大量的信息中快速准确的找到自己需要的有用信息是一个很大的挑战。要实现基本自动化情报生成，第一步就是要高效收集有效的信息。此外，由于情报的时效性和权威性在情报研究中非常重要，在做文献资料选择时需要着重考虑。并且，由于信息来源不同而导致信息结构不统一，将多个异构文档整合处理并生成最终报告也是一个难点。综上所述，在实现科技情报摘要的自动生成过程中，主要需要解决的问题是：融合...

【技术保护点】

【技术特征摘要】
1.一种基于多句压缩的无监督科技情报摘要自动生成方法，其特征在于，包括以下步骤：步骤1：采用基于LDA主题相似度词库扩展方法的主题爬虫方式，进行文本内容抓取，获取源数据；步骤2：对爬取的文本，根据其内容与关键词的相关性以及该源文本的时效性和权威性，进行评估排序；通过提炼出文本信息的权威性、时效性、内容相关性这三个特征维度，构建文本信息价值评估模型；包括以下步骤：步骤2.1：将所有文本按照段落进行分割；在后续计算中，以段落为单位进行；其中，对论文、专利、期刊类的价值评估的方法如下：针对论文、专利、期刊类文本，将影响因子、第一作者总发文量和总下载量、该文本下载量、引用量作为权威性评判指标，将发布时间作为时效性指标，将摘要与主题词库的相似性作为内容相关性指标，并为每个指标设定相应参数，构建文本信息价值评估模型，综合计算文本的价值评分；步骤2.3：对智库文章的价值进行评估；针对智库文章类文本，将文章作者的粉丝数、发文数量作为权威性指标，将发布时间作为时效性指标，将文章摘要与主题词库的相似性作为内容相关性指标，并为每个指标设定相应的参数，构建智库文章文本信息价值评估模型；步骤2.4：计算文本的信息价值；将文本信息价值定义为新的权威性特征、时效性特征和内容相关性特征的线性组合；同时，考虑到时效性的乘数效应，得到测算信息价值为：X＝[δ1(α1x
11
+α2x
12
+α3x
13
)+δ2(βx3)]x2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)其中，X表示此段文本信息的价值，α1、α2、α3、δ1、δ2表示不同特征对文本价值的影响因子，其值根据实际需要进行选择；步骤2.5：将每个段落按照其文本信息价值评分进行排序，选择排序结果的之多前40条段落，作为后续进行多文档摘要的文本数据；步骤3：以步骤2中得到的结果文本作为模型的输入，采用基于谱聚类和多句压缩的无监督多文档摘要模型，得到摘要结果；首先，将原始文档转换为句子图，同时考虑语言和深度表示，然后应用谱聚类得到多个句子簇，最后对每个簇进行压缩生成最终摘要。2.如权利要求1所述的一种基于多句压缩的无监督科技情报摘要自动生成方法，其特征在于，步骤1包括以下步骤：步骤1.1：根据给定的初始关键词，爬取相应结果网页，将这些新增的网页提取摘要，作为LDA新的训练语料；步骤1.2：对训练预料做词嵌入；步骤1.3：结合原有的语料库，经LDA训练得到新的主题文档，用于覆盖更新原有主题爬虫的主题文档。3.如权利要求1所述的一种基于多句压缩的无监督科技情报摘要自动生成方法，其特征在于，步骤2中，针对论文、专利、期刊类文本的价值评分计算方法，包括以下步骤：第一步：计算权威性x1；
对于权威性x1，与权威性相关的因素包括文本的发表期刊权威性、作者在本领域中的权威性，以本领域其他研究者对该文本的评价；其中，期刊类的权威性x
11
，采用该期刊影响因子与所有文献影响因子的最大值的比值表示，如式1所示：论文、专利类的权威性，由作者作为第一作者在该领域发表文章数量以及该作者作为第一作者发表的文章被下载的总量决定，如式2所示：论文本身的价值，由该论文的下载量和引用量来决定，如式3所示：第二步：计算时效性x2；设文本信息价值随时间的衰减系数为μ，信息获取时刻与信息发布时刻的时间间隔为Δt，则信息价值随时间变化的计算如式4所示：x2＝e
‑
μΔt
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中，e为自然常数；第三步：计算内容相关性x3；将主题爬虫获取到的主题词库中的每个词看为q
i
；对于该文本的摘要a，计算每个词q
i
与a的相关度得分，将q
i
与a的相关性得分进行加权求和，得到当前文本与主题词库的相关性得分Score(Q,a)，如式5所示：其中W
i
表示第i个词q
i
的权重，使用TF
‑
IDF算法计算；n表示词库中单词总数；R(q
i
,a)表示单词q
i
与a的相关性，通过式6、式7计算：与a的相关性，通过式6、式7计算：其中，tf
ta
是单词t在a中的词频；L
a
是a的长度，L
ave
是所有文本的平均长度，变量k是一个正的参数，用来标准化文章词频的范围；b是一个可调的参数，0<b<1，表示用决定使用文档长度来表示信息量的范围；K为计算时的中间结果；针对智库文章类文本的价值评分计算方法，包括以下步骤：第一步：计算权威性x1；对于智库文章，以该文章作者的粉丝数以及发文数量作为其权威性的衡量指标，采用式8、式9计算：式8、式9计算：
第二步：计算时效性x2；计算方法与论文、专利、期刊类文本的价值评分计算方法第二步相同；第三步：计算内容相关性x3；计算方法与论文、专利、期刊类文本的价值评分计算方法第三步相同。4.如权利要求1所述的一种基于多句压缩的无监督科技情报摘要自动生成方法，其特征在于，步骤3中包括以下步骤：步骤3.1：处理文本数据；对于步骤2最终得到的与一个主题相关的段落集合P＝{p1,p2,
…
p
n
}，最终目标是生成一个囊括原始文档中重要信息并且无冗余信息的摘要S；以句子作为文本的最小处理单位，并考虑到最后一步需要进行句子压缩，保留所有停用词；具体方法为：生成一个句子列表...

【专利技术属性】
技术研发人员：张隽驰，张华平，商建云，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人