一种生成式的学术论文中相关工作的自动产生方法技术

技术编号:19341884 阅读:56 留言:0更新日期:2018-11-07 13:47
本发明专利技术一种生成式的学术论文中相关工作的自动产生方法,属于计算机自然语言处理技术领域。具体操作步骤包括:①基于英文学术论文中的相关工作以及相关工作中引用的参考文献的摘要,构建大规模语料集;②根据已经构造好的语料集训练基于残差注意力的分层编码‑解码器结构的神经网络,并根据句子中引用的参考文献编号的损失值和句子中单词的损失值进行多任务学习;③将多篇摘要输入到已经训练好的神经网络中,逐词、逐句的产生对应的相关工作;本发明专利技术提出的一种生成式的学术论文中相关工作的自动产生方法,与传统的抽取式方法相比,不仅能够准确地生成相关工作中的每个单词,而且能够对所生成的相关工作中的每个句子赋予若干个参考文献编号。

A generative method for automatic generation of related work in academic papers

The invention provides an automatic generation method of related work in a generative academic paper, belonging to the technical field of computer natural language processing. Specific steps include: (1) building large-scale corpus based on the relevant work in English academic papers and the abstracts of references cited in related work; (2) training neural networks based on hierarchical coding and decoder structure of residual attention according to the corpus already constructed, and according to the references cited in sentences. The loss value of document number and the loss value of words in sentences are studied by multi-task learning; 3) multiple abstracts are input into the trained neural network, and the related work corresponding to word-by-word and sentence-by-sentence generation corresponds to that of the trained neural network; and the automatic generation method of related work in the generated academic papers proposed by the present invention is compared with the traditional extraction method. Comparing with the formula method, it can not only accurately generate each word in the related work, but also assign several reference numbers to each sentence in the related work.

【技术实现步骤摘要】
一种生成式的学术论文中相关工作的自动产生方法
本专利技术涉及一种生成式的学术论文中相关工作的自动产生方法,具体涉及一种生成式的英文学术论文中RelatedWork的自动产生方法,属于计算机自然语言处理

技术介绍
相关工作是学术论文写作中的一个章节,指的是在该论文所涉及的领域中,作者对前人工作的总结和概括。一般而言,相关工作的篇幅都较短,但却包含了数十篇本领域论文的主要思想。对于一名科研人员而言,阅读一篇学术论文的相关工作可以在短时间内掌握相关领域的研究现状,更好地把握科研方向。因此,学术论文中的相关工作在概述研究方法、引导读者快速了解相关领域的研究进展方面起了十分重要的作用。现有的自动产生学术论文中相关工作的方法是抽取式的:首先利用主题模型将所有参考论文中的句子分成若干组;然后根据人工选择的特征,利用机器学习回归模型对所有句子打分;最后,根据句子分数,使用全局优化框架抽取若干个句子组成最终的相关工作。这种方法存在的缺点是单纯使用句子组合产生的相关工作使得句间、段间衔接性不强,可读性和流畅性较差,很难达到人工编写的相关工作的质量;同时,为了精简文本长度,相关工作中一句话往往涵盖多篇论文的思想,抽取式方法得到的句子是从某篇论文中抽取的,无法同时包含多篇论文的内容。为了解决抽取式方法的上述局限性,本专利技术提出了一种生成式的学术论文中相关工作的自动产生方法,该方法利用端到端神经网络对大规模论文数据进行训练,最终训练好的网络模型在给定多篇论文的摘要的基础上,对这些摘要中所述的方法和实验结果进行推理、归纳和总结,从而逐句、逐词的产生一篇相关工作,与抽取式方法不同的是,本专利技术方法不再直接选取原封不动的句子,而是直接产生新的单词和句子,更加贴近人工编写的相关工作。
技术实现思路
本专利技术的目的在于解决抽取式方法产生的相关工作衔接性和可读性较差的问题,提出了一种生成式的学术论文中相关工作的自动产生方法。本专利技术是通过下述技术方案实现的:首先,包括如下说明:说明1:处理的论文数据均为英文论文数据,因此相关工作特指英文学术论文中的RelatedWork,摘要特指英文学术论文中的Abstract,参考文献特指英文学术论文RelatedWork中引用的References;说明2:相关工作是对其所引用的参考文献内容的高度概括,而文献的主要内容存在于摘要Abstract中,即摘要涵盖了一篇英文学术论文的思想和方法;因此,本专利技术将相关工作看作是对其引用的所有参考文献的摘要所构成的摘要集的进一步总结和概括;一种生成式的学术论文中相关工作的自动产生方法,具体包括数据收集阶段、训练阶段和测试阶段三个顺序执行的过程:其中,数据收集阶段是构建用于神经网络训练和测试的大规模语料对;训练阶段是构造一个基于残差注意力的分层编码-解码器,即HierarchicalEncoder-DecoderbasedonResidualAttention,简记为HEDRA网络,该网络模型包含单词编码器摘要编码器句子解码器以及单词解码器四个部分,四个部分均采用基于序列的GRU网络;测试阶段是将测试集的输入传给已经训练好的神经网络,并产生对应的相关工作;数据收集阶段,具体步骤如下:步骤1:从互联网上收集大量的英文学术论文中的相关工作,将收集到的所有相关工作组成集合RW;其中,集合RW中的相关工作条数为Nmax;步骤2:将由步骤1得到的RW中的每篇相关工作进行步骤2.1—2.3操作,得到Nmax条语料对,具体为:步骤2.1:提取出当前相关工作中引用的所有参考文献的编号,并根据编号找出参考文献的论文题目;步骤2.2:根据步骤2.1中得到的论文题目找到这些论文的作者和摘要,并将作者姓名引入到摘要中,对引入作者姓名后的摘要按照其所属文献的编号值从小到大排序,并根据排好序的位置,更新每篇摘要的编号,即排在第一位的摘要的编号为1,排在第二位的摘要的编号为2,以此类推,形成摘要集;步骤2.3:根据步骤2.2中摘要的编号更新步骤2.1中当前相关工作中所引用的对应参考文献的编号,并将当前得到的摘要集和当前相关工作组合形成一条语料对;步骤3:将由步骤2得到的Nmax条语料对组成语料集合,记为Corpus;步骤4:对步骤3中的语料集合Corpus进行预处理,具体为:去掉中文乱码、公式以及长度过小的语料对,并将每个单词转换成向量,最终得到的语料集合,记为Corpus_Final,且:Corpus_Final={<Abs_Seti,RWi>|1≤i≤N}其中,N表示经步骤4处理完后的语料对的数目,i表示语料对的下标索引,<Abs_Seti,RWi>表示第i个语料对;步骤5:将步骤4中得到的语料集合Corpus_Final按照一定的比例划分为训练集CorpusTrain、验证集CorpusValid和测试集CorpusTest;其中,训练集和验证集用于训练阶段,测试集用于测试阶段;至此,从步骤1到步骤5,完成了数据收集阶段;训练阶段,具体步骤如下:步骤6:基于训练集中第i个语料对<Abs_Seti,RWi>,按照步骤6.1—6.10输入到HEDRA网络中进行训练,具体为:步骤6.1:使用单词编码器对第i个语料对的摘要集中的每篇摘要的每个单词进行编码,具体步骤如下:步骤6.1.1:令其中,Mi表示Abs_Seti中的摘要数目,表示Abs_Seti中的第j篇摘要,初始化摘要下标j=1;步骤6.1.2:令其中表示中的单词数目,是中第k个单词的向量表示,将中的每个输入到基于序列的神经网络中,输出得到中每个单词的隐层表示以及的向量表示步骤6.1.3:判断当前j是否大于Mi,若大于Mi,则跳至步骤6.2;否则,即当前j小于等于Mi,则令j=j+1,跳至步骤6.1.2;步骤6.2:使用摘要编码器对第i个语料对的摘要集中的每篇摘要进行编码,具体为:将由步骤6.1.2得到的每篇摘要的向量表示输入到基于序列的神经网络中,输出得到Abs_Seti中每篇摘要的隐层表示以及Abs_Seti的向量表示zi;步骤6.3:使用句子解码器对第i个语料对的相关工作中的每句话进行解码,具体步骤如下:步骤6.3.1:令步骤6中的其中,Ri表示RWi中的句子数目,表示RWi中的第t个句子,初始化句子下标t=1;步骤6.3.2:根据公式(1)计算解码句子时对每篇摘要的注意力:其中,如步骤6.2所示,表示每篇摘要的隐层输出;sigmoid表示S型激活函数,tanh表示双曲正切激活函数,·表示矩阵相乘操作,U1、W1、W2和b1表示要学习的参数;表示经过句子解码器后的隐层输出向量,表示解码时,对的注意力;步骤6.3.3:根据公式(1)中的和公式(2)计算解码句子时摘要集的向量表示:其中,和Mi分别如步骤6.2和步骤6.1.1所示;×表示数字与向量相乘,是解码时摘要集Abs_Seti的向量表示;步骤6.3.4:根据公式(3)计算句子的向量表示其中,是中第r个单词的向量表示,表示中的单词数目;步骤6.3.5:根据公式(3)中的和公式(2)中的以及公式(4)计算解码句子时,句子解码器的输入向量其中,relu表示线性整流激活函数;W3、W4和b2表示要学习本文档来自技高网
...

【技术保护点】
1.一种生成式的学术论文中相关工作的自动产生方法,其特征在于:包括如下说明:说明1:处理的论文数据均为英文论文数据,因此相关工作特指英文学术论文中的Related Work,摘要特指英文学术论文中的Abstract,参考文献特指英文学术论文Related Work中引用的References;说明2:相关工作是对其所引用的参考文献内容的高度概括,而文献的主要内容存在于摘要Abstract中,即摘要涵盖了一篇英文学术论文的思想和方法;因此,本专利技术将相关工作看作是对其引用的所有参考文献的摘要所构成的摘要集的进一步总结和概括;一种生成式的学术论文中相关工作的自动产生方法,具体包括数据收集阶段、训练阶段和测试阶段三个顺序执行的过程:其中,数据收集阶段是构建用于神经网络训练和测试的大规模语料对;训练阶段是构造一个基于残差注意力的分层编码‑解码器,即Hierarchical Encoder‑Decoder based on Residual Attention,简记为HEDRA网络,该网络模型包含单词编码器

【技术特征摘要】
1.一种生成式的学术论文中相关工作的自动产生方法,其特征在于:包括如下说明:说明1:处理的论文数据均为英文论文数据,因此相关工作特指英文学术论文中的RelatedWork,摘要特指英文学术论文中的Abstract,参考文献特指英文学术论文RelatedWork中引用的References;说明2:相关工作是对其所引用的参考文献内容的高度概括,而文献的主要内容存在于摘要Abstract中,即摘要涵盖了一篇英文学术论文的思想和方法;因此,本发明将相关工作看作是对其引用的所有参考文献的摘要所构成的摘要集的进一步总结和概括;一种生成式的学术论文中相关工作的自动产生方法,具体包括数据收集阶段、训练阶段和测试阶段三个顺序执行的过程:其中,数据收集阶段是构建用于神经网络训练和测试的大规模语料对;训练阶段是构造一个基于残差注意力的分层编码-解码器,即HierarchicalEncoder-DecoderbasedonResidualAttention,简记为HEDRA网络,该网络模型包含单词编码器摘要编码器句子解码器以及单词解码器四个部分,四个部分均采用基于序列的GRU网络;测试阶段是将测试集的输入传给已经训练好的神经网络,并产生对应的相关工作;数据收集阶段,具体步骤如下:步骤1:从互联网上收集大量的英文学术论文中的相关工作,将收集到的所有相关工作组成集合RW;其中,集合RW中的相关工作条数为Nmax;步骤2:将由步骤1得到的RW中的每篇相关工作进行步骤2.1—2.3操作,得到Nmax条语料对,具体为:步骤2.1:提取出当前相关工作中引用的所有参考文献的编号,并根据编号找出参考文献的论文题目;步骤2.2:根据步骤2.1中得到的论文题目找到这些论文的作者和摘要,并将作者姓名引入到摘要中,对引入作者姓名后的摘要按照其所属文献的编号值从小到大排序,并根据排好序的位置,更新每篇摘要的编号,即排在第一位的摘要的编号为1,排在第二位的摘要的编号为2,以此类推,形成摘要集;步骤2.3:根据步骤2.2中摘要的编号更新步骤2.1中当前相关工作中所引用的对应参考文献的编号,并将当前得到的摘要集和当前相关工作组合形成一条语料对;步骤3:将由步骤2得到的Nmax条语料对组成语料集合,记为Corpus;步骤4:对步骤3中的语料集合Corpus进行预处理,具体为:去掉中文乱码、公式以及长度过小的语料对,并将每个单词转换成向量,最终得到的语料集合,记为Corpus_Final,且:Corpus_Final={<Abs_Seti,RWi>|1≤i≤N}其中,N表示经步骤4处理完后的语料对的数目,i表示语料对的下标索引,<Abs_Seti,RWi>表示第i个语料对;步骤5:将步骤4中得到的语料集合Corpus_Final按照一定的比例划分为训练集CorpusTrain、验证集CorpusValid和测试集CorpusTest;其中,训练集和验证集用于训练阶段,测试集用于测试阶段;至此,从步骤1到步骤5,完成了数据收集阶段;训练阶段,具体步骤如下:步骤6:基于训练集中第i个语料对<Abs_Seti,RWi>,按照步骤6.1—6.10输入到HEDRA网络中进行训练,具体为:步骤6.1:使用单词编码器对第i个语料对的摘要集中的每篇摘要的每个单词进行编码,具体步骤如下:步骤6.1.1:令其中,Mi表示Abs_Seti中的摘要数目,表示Abs_Seti中的第j篇摘要,初始化摘要下标j=1;步骤6.1.2:令其中表示中的单词数目,是中第k个单词的向量表示,将中的每个输入到基于序列的神经网络中,输出得到中每个单词的隐层表示以及的向量表示步骤6.1.3:判断当前j是否大于Mi,若大于Mi,则跳至步骤6.2;否则,即当前j小于等于Mi,则令j=j+1,跳至步骤6.1.2;步骤6.2:使用摘要编码器对第i个语料对的摘要集中的每篇摘要进行编码,具体为:将由步骤6.1.2得到的每篇摘要的向量表示输入到基于序列的神经网络中,输出得到Abs_Seti中每篇摘要的隐层表示以及Abs_Seti的向量表示zi;步骤6.3:使用句子解码器对第i个语料对的相关工作中的每句话进行解码,具体步骤如下:步骤6.3.1:令步骤6中的其中,Ri表示RWi中的句子数目,表示RWi中的第t个句子,初始化句子下标t=1;步骤6.3.2:根据公式(1)计算解码句子时对每篇摘要的注意力:其中,如步骤6.2所示,表示每篇摘要的隐层输出;sigmoid表示S型激活函数,tanh表示双曲正切激活函数,·表示矩阵相乘操作,U1、W1、W2和b1表示要学习的参数;表示经过句子解码器后的隐层输出向量,表示解码时,对的注意力;步骤6.3.3:根据公式(1)中的和公式(2)计算解码句子时摘要集的向量表示:其中,和Mi分别如步骤6.2和步骤6.1.1所示;×表示数字与向量相乘,是解码时摘要集Abs_Seti的向量表示;步骤6.3.4:根据公式(3)计算句子的向量表示其中,是中第r个单词的向量表示,表示中的单词数目;步骤6.3.5:根据公式(3)中的和公式(2)中的以及公式(4)计算解码句子时,句子解码器的输入向量其中,relu表示线性整流激活函数;W3、W4和b2表示要学习的参数;步骤6.3.6:根据公式(4)中的和公式(5)计算经过句子解码器后的隐层输出向量其中,表示以GRU为结构的句子解码器,如步骤6.3.2所示,表示经过句子解码器后的隐层输出向量,令步骤6.3.7:判断当前t是否能被res整除,其中res表示残差注意力中残差连接层所跨越的层数;若能被res整除,则令跳到步骤6.3.8,否则,即当前t不能被res整除,则跳到步骤6.3.8;步骤6.3.8:判断当前t是否大于Ri,其中Ri如步骤6.3.1所示,表示RWi中的句子数目;若大于Ri,则跳到步骤6.4,否则,即当前t小于等于Ri,则令t=t+1,跳到步骤6.3.2;步骤6.4:使用单词解码器对第i个语料对的相关工作中的每句话的每个单词进行解码,具体步骤如下:步骤6.4.1:...

【专利技术属性】
技术研发人员:毛先领姜晓健冯博思魏骁驰
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1