一种科技论文引言内容生成系统与方法技术方案

技术编号：35605533 阅读：23 留言：0更新日期：2022-11-16 15:27

本发明专利技术涉及一种科技论文引言内容生成系统与方法，所述引言内容指论文的引言或RelatedWork等阐述既有研究的内容，具体步骤包括：构建引言数据集，生成引文网络；训练引言生成模型；系统部署，设计和开发引言生成系统和引言生成；该方法通过构建引文网络，引入论文间的结构信息，并利用图卷积神经网络对多篇论文的摘要建模，进而生成引言内容，有效提高了引言生成的准确性。了引言生成的准确性。了引言生成的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种科技论文引言内容生成系统与方法

[0001]本专利技术涉及一种科技论文引言内容生成系统与方法，属于自然语言处理

技术介绍

[0002]引言是科技论文的立论基础，通过文献检索分析，对既有研究进行简要概括，以揭示研究缘起和学术脉络、指向研究问题、阐明研究逻辑等内容。目前，以技术手段辅助进行科技论文引言的生成方法主要有抽取式(Extractive)和生成式(Abstractive)两类。抽取式方法从多篇论文的摘要中选取重要句子，合并生成引言，所有句子均来自原文，句子之间存在连贯性差等问题，生成式方法使用句子与词语序列结构对多篇论文的摘要建模，可以生成不同于原文的词语，语句较为流畅，但是忽略了论文之间存在引用关系网络这一结构信息，导致模型对论文中的术语概念理解不充分，进而影响引言生成的准确性。
[0003]为了解决上述问题，本专利技术提供了一种科技论文引言内容生成方法与系统，该方法通过构建引文网络，引入论文间的结构信息，并利用图卷积神经网络对多篇论文的摘要建模，进而生成引言内容，有效提高了引言生成的准确性。

技术实现思路

[0004]本专利技术的目的是针对现有方法存在的不足，提供一种科技论文引言内容生成系统与方法。
[0005]为实现上述目的，本专利技术的技术方案是：
[0006]一种科技论文引言内容生成系统，包括引言生成模型训练系统和引言生成系统；所述引言生成模型训练系统包括引言数据集获取模块：通过论文数据库或者爬取等方法获取论文资源，构建引言数据集，引文网络生成模块：...

【技术保护点】

【技术特征摘要】
1.一种科技论文引言内容生成系统，其特征在于：包括引言生成模型训练系统和引言生成系统；所述引言生成模型训练系统包括引言数据集获取模块：通过论文数据库或者爬取方法获取论文资源，构建引言数据集，引文网络生成模块：用于为引言数据集的每个训练样本生成引文网络，和引言生成模型训练模块：用于将训练样本和其对应的引文网络输入到引言生成模型中训练，得到训练好的引言生成模型；所述引言生成应用系统包括论文内容抽取模块：用于抽取论文素材中每篇论文的标题以及摘要，论文内容处理模块：用于将论文素材处理为引言生成模型的输入数据格式，和引言生成模块：用于将处理好的论文内容输入到训练好引言生成模型中，输出引言。2.根据权利要求1所述的一种科技论文引言内容生成系统，其特征在于：所述引言生成模型训练模块包括引用关系矩阵构建模块：用于构建论文素材中论文之间的引用关系邻接矩阵，预处理模块：对论文素材中每篇论文的摘要去除停止词和分词，形成摘要特征词序列集合，和词向量生成模块：将预处理后的特征词序列转化为特征词向量。3.一种根据权利要求1
‑
2中任一权利要求所述的科技论文引言内容生成系统的生成方法，其特征在于：包括以下步骤：步骤一、构建引言数据集：引言数据集中每个训练样本包括一篇论文的引言和其所引用参考文献集合，记为DataSet＝{<RW
i
，Ref_Set
i
>|1≤i≤N}，其中RW
i
表示第i个训练样本的引言，Ref_Set
i
表示第i个训练样本的参考文献集合，i表示引言数据集中每个训练样本的下标，N表示引言数据集大小；步骤二、生成引文网络：为引言数据集中每个训练样本构建引文网络，记为G
i
＝{V，E}，1≤i≤N，其中G
i
表示第i个训练样本的引文网络，V表示参考文献集合，E表示引用关系邻接矩阵，v
j
∈V表示Ref_Set
i
中的第j篇参考文献，e
m，n
∈E表示第m篇参考文献是否被第n篇参考文献引用，其中e
m，n
＝1表示被引用，0则反之；步骤三、训练引言生成模型：将训练样本和其对应的引文网络输入到模型中训练，得到训练好的引言生成模型，引言生成模型包括Bi
‑
LSTM编码器，GCN编码器和LSTM解码器；步骤四、系统部署、设计和开发引言生成系统：将系统和训练好的引言生成模型部署在服务器端，并提供引言生成接口；步骤五、引言生成：客户端通过引言生成系统接口提交论文素材，系统生成引言返回给客户端。4.根据权利要求3所述的一种科技论文引言内容生成方法，其特征在于：所述步骤一具体包括：步骤1.1：通过论文数据库或者爬取等方法获取特定领域的N篇论文；步骤1.2：构建训练样本，提取每篇论文的引言RW和参考文献，并获取参考文献对应的论文，形成参考文献集合Ref_Set，两者构成训练样本，记为<RW，Ref_Set>；步骤1.3：重复步骤1.2，构建引言数据集，记为DataSet＝{<RW
i
，Ref_Set
i
>|1≤i≤N}，
其中RW
i
表示第i个训练样本的引言，Ref_Set
i
表示第i个训练样本的参考文献集合，i表示引言数据集中每个训练样本的下标，N表示引言数据集大小。5....

【专利技术属性】
技术研发人员：张祯，张博晟，吴国华，王玉娟，袁理锋，王秋华，任一支，吕琦赟，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人