一种科技论文引言内容生成系统与方法技术方案

技术编号:35605533 阅读:23 留言:0更新日期:2022-11-16 15:27
本发明专利技术涉及一种科技论文引言内容生成系统与方法,所述引言内容指论文的引言或RelatedWork等阐述既有研究的内容,具体步骤包括:构建引言数据集,生成引文网络;训练引言生成模型;系统部署,设计和开发引言生成系统和引言生成;该方法通过构建引文网络,引入论文间的结构信息,并利用图卷积神经网络对多篇论文的摘要建模,进而生成引言内容,有效提高了引言生成的准确性。了引言生成的准确性。了引言生成的准确性。

【技术实现步骤摘要】
一种科技论文引言内容生成系统与方法


[0001]本专利技术涉及一种科技论文引言内容生成系统与方法,属于自然语言处理


技术介绍

[0002]引言是科技论文的立论基础,通过文献检索分析,对既有研究进行简要概括,以揭示研究缘起和学术脉络、指向研究问题、阐明研究逻辑等内容。目前,以技术手段辅助进行科技论文引言的生成方法主要有抽取式(Extractive)和生成式(Abstractive)两类。抽取式方法从多篇论文的摘要中选取重要句子,合并生成引言,所有句子均来自原文,句子之间存在连贯性差等问题,生成式方法使用句子与词语序列结构对多篇论文的摘要建模,可以生成不同于原文的词语,语句较为流畅,但是忽略了论文之间存在引用关系网络这一结构信息,导致模型对论文中的术语概念理解不充分,进而影响引言生成的准确性。
[0003]为了解决上述问题,本专利技术提供了一种科技论文引言内容生成方法与系统,该方法通过构建引文网络,引入论文间的结构信息,并利用图卷积神经网络对多篇论文的摘要建模,进而生成引言内容,有效提高了引言生成的准确性。

技术实现思路

[0004]本专利技术的目的是针对现有方法存在的不足,提供一种科技论文引言内容生成系统与方法。
[0005]为实现上述目的,本专利技术的技术方案是:
[0006]一种科技论文引言内容生成系统,包括引言生成模型训练系统和引言生成系统;所述引言生成模型训练系统包括引言数据集获取模块:通过论文数据库或者爬取等方法获取论文资源,构建引言数据集,引文网络生成模块:用于为引言数据集的每个训练样本生成引文网络,和引言生成模型训练模块:用于将训练样本和其对应的引文网络输入到引言生成模型中训练,得到训练好的引言生成模型;
[0007]所述引言生成应用系统包括论文内容抽取模块:用于抽取论文素材中每篇论文的标题以及摘要,论文内容处理模块:用于将论文素材处理为引言生成模型的输入数据格式和引言生成模块:用于将处理好的论文内容输入到训练好引言生成模型中,输出引言。
[0008]所述引言生成模型训练模块包括引用关系矩阵构建模块:用于构建论文素材中论文之间的引用关系邻接矩阵,预处理模块:对论文素材中每篇论文的摘要去停止词和分词,形成摘要特征词序列集合,和词向量生成模块:将预处理后的特征词序列转化为特征词向量。
[0009]一种科技论文引言内容生成系统的生成方法,包括以下步骤:
[0010]步骤一、构建引言数据集:引言数据集中每个训练样本包括一篇论文的引言和其所引用参考文献集合,记为DataSet={<RW
i
,Ref_Set
i
>|1≤i≤N},其中RW
i
表示第i个训练样本的引言,Ref_Set
i
表示第i个训练样本的参考文献集合,i表示引言数据集中每个训练
样本的下标,N表示引言数据集大小;
[0011]步骤二、生成引文网络:为引言数据集中每个训练样本构建引文网络,记为G
i
={V,E},1≤i≤N,其中G
i
表示第i个训练样本的引文网络,V表示参考文献集合,E表示引用关系邻接矩阵,v
j
∈V表示Ref_Set
i
中的第j篇参考文献,e
m,n
∈E表示第m篇参考文献是否被第n篇参考文献引用,其中e
m,n
=1表示被引用,0则反之;
[0012]步骤三、训练引言生成模型:将训练样本和其对应的引文网络输入到模型中训练,得到训练好的引言生成模型,引言生成模型包括Bi

LSTM编码器,GCN编码器和LSTM解码器;
[0013]步骤四、系统部署、设计和开发引言生成系统:将系统和训练好的引言生成模型部署在服务器端,并提供引言生成接口;
[0014]步骤五、引言生成:客户端通过引言生成系统接口提交论文素材,系统生成引言返回给客户端。
[0015]所述步骤一具体包括:
[0016]步骤1.1:通过论文数据库或者爬取等方法获取特定领域的N篇论文;
[0017]步骤1.2:构建训练样本,提取每篇论文的引言RW和参考文献,并获取参考文献对应的论文,形成参考文献集合Ref_Set,两者构成训练样本,记为<RW,Ref_Set>;
[0018]步骤1.3:重复步骤1.2,构建引言数据集,记为DataSet={<RW
i
,Ref_Set
i
>|1≤i≤N},其中RW
i
表示第i个训练样本的引言,Ref_Set
i
表示第i个训练样本的参考文献集合,i表示引言数据集中每个训练样本的下标,N表示引言数据集大小。
[0019]所述步骤二具体包括:
[0020]步骤2.1:数据预处理:对Ref_Set
i
中每篇参考文献的摘要去除停止词后分词,得到abs
j
={w1,...,w
k
},其中abs
j
表示Ref_Set
i
的第j篇参考文献的摘要,w
k
表示abs
j
的第k个单词;
[0021]步骤2.2:节点表示:使用词嵌入方法Word2Vec得到abs
j
的词向量表示并将其作为对应的节点表示,记为其中表示w
k
经词嵌入方法得到的词向量;
[0022]步骤2.3:构建引用关系邻接矩阵E:训练样本中第m篇参考文献是否被第n篇参考文献引用,来确认它们之间是否存在关联,表示为e
m,n
∈E,其中e
m,n
=1表示被引用,0则反之;
[0023]步骤2.4:重复步骤2.1

2.3,为数据集中每个训练样本生成引文网络G
i
={V,E}(1≤i≤N)。
[0024]所述步骤三具体包括:
[0025]步骤3.1:Bi

LSTM编码器,将步骤2.2的输入到双向长短时记忆网络Bi

LSTM解码器中,输出h
j,k
和h
j
,其中h
j,k
为第j篇参考文献摘要的第k个单词的隐层表示,h
j
为第j篇参考文献摘要的隐层表示;
[0026]步骤3.2:GCN编码器,引入参考文献之间引用关系,对参考文献进行编码,将h
j
和邻接矩阵E,输入到GCN编码器中,输出其中为h
j
经GCN编码器编码后的隐层表示,公式如下
[0027][0028][0029]其中I是单位矩阵,表示的度矩阵,W
l
表示可训练参数,LeakyReLU表示激活函数,l是GCN层数;
[0030]步骤3.3:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种科技论文引言内容生成系统,其特征在于:包括引言生成模型训练系统和引言生成系统;所述引言生成模型训练系统包括引言数据集获取模块:通过论文数据库或者爬取方法获取论文资源,构建引言数据集,引文网络生成模块:用于为引言数据集的每个训练样本生成引文网络,和引言生成模型训练模块:用于将训练样本和其对应的引文网络输入到引言生成模型中训练,得到训练好的引言生成模型;所述引言生成应用系统包括论文内容抽取模块:用于抽取论文素材中每篇论文的标题以及摘要,论文内容处理模块:用于将论文素材处理为引言生成模型的输入数据格式,和引言生成模块:用于将处理好的论文内容输入到训练好引言生成模型中,输出引言。2.根据权利要求1所述的一种科技论文引言内容生成系统,其特征在于:所述引言生成模型训练模块包括引用关系矩阵构建模块:用于构建论文素材中论文之间的引用关系邻接矩阵,预处理模块:对论文素材中每篇论文的摘要去除停止词和分词,形成摘要特征词序列集合,和词向量生成模块:将预处理后的特征词序列转化为特征词向量。3.一种根据权利要求1

2中任一权利要求所述的科技论文引言内容生成系统的生成方法,其特征在于:包括以下步骤:步骤一、构建引言数据集:引言数据集中每个训练样本包括一篇论文的引言和其所引用参考文献集合,记为DataSet={<RW
i
,Ref_Set
i
>|1≤i≤N},其中RW
i
表示第i个训练样本的引言,Ref_Set
i
表示第i个训练样本的参考文献集合,i表示引言数据集中每个训练样本的下标,N表示引言数据集大小;步骤二、生成引文网络:为引言数据集中每个训练样本构建引文网络,记为G
i
={V,E},1≤i≤N,其中G
i
表示第i个训练样本的引文网络,V表示参考文献集合,E表示引用关系邻接矩阵,v
j
∈V表示Ref_Set
i
中的第j篇参考文献,e
m,n
∈E表示第m篇参考文献是否被第n篇参考文献引用,其中e
m,n
=1表示被引用,0则反之;步骤三、训练引言生成模型:将训练样本和其对应的引文网络输入到模型中训练,得到训练好的引言生成模型,引言生成模型包括Bi

LSTM编码器,GCN编码器和LSTM解码器;步骤四、系统部署、设计和开发引言生成系统:将系统和训练好的引言生成模型部署在服务器端,并提供引言生成接口;步骤五、引言生成:客户端通过引言生成系统接口提交论文素材,系统生成引言返回给客户端。4.根据权利要求3所述的一种科技论文引言内容生成方法,其特征在于:所述步骤一具体包括:步骤1.1:通过论文数据库或者爬取等方法获取特定领域的N篇论文;步骤1.2:构建训练样本,提取每篇论文的引言RW和参考文献,并获取参考文献对应的论文,形成参考文献集合Ref_Set,两者构成训练样本,记为<RW,Ref_Set>;步骤1.3:重复步骤1.2,构建引言数据集,记为DataSet={<RW
i
,Ref_Set
i
>|1≤i≤N},
其中RW
i
表示第i个训练样本的引言,Ref_Set
i
表示第i个训练样本的参考文献集合,i表示引言数据集中每个训练样本的下标,N表示引言数据集大小。5....

【专利技术属性】
技术研发人员:张祯张博晟吴国华王玉娟袁理锋王秋华任一支吕琦赟
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1