System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体为基于抽取-生成两阶段框架的航运领域新闻摘要生成方法。
技术介绍
1、航运新闻涵盖了航运行业的各个方面,包括船舶运输、港口运营、航线规划等,这些新闻通常包含了包括事件、数据、行业动态在内的大量信息。而随着航运业的快速发展和大数据时代的到来,新闻文本数据的数量呈现出指数级增长的趋势,且航运领域新闻包含船舶、港口、物流等行业相关性名词,因此如何高效地处理这些数据,从新闻中提取关键信息成为了自然语言处理领域的一个重要问题。
2、文本摘要生成技术因其能够自动化生成文本概括和关键信息提取而备受关注。当前,基于transformer的模型已经在短文本摘要任务上达到了最先进的性能。然而,在实际应用场景中,我们更经常遇到的航运新闻是长篇幅的文本数据,长文本摘要(long inputtext summarization)生成因此变得越来越重要。
3、相比于短文本摘要,长文本摘要生成任务需要更深入地理解文本内容,提取更多的信息,并用更多的细节和上下文来表达文本的主要意义。传统的文本摘要模型在处理长输入时面临着模型效率和摘要质量的两难困境,这是因为全自注意力机制的高内存复杂性导致模型需要在保持较低计算成本的同时,捕捉分散在长输入中的重要信息。此外,由于长文本中信息的复杂性和文本长度的限制,长文本摘要生成仍然存在着语义丢失和信息重复的问题。
4、为应对长文本摘要生成任务中面临的这些挑战,现有的模型主要采用了四种方法:1)稀疏注意力用于降低transformer的内存复杂性,使其能够关注
5、传统的抽取式和生成式方法通常无法很好地应对长文本的复杂结构和语义信息,但是抽取-生成两阶段式框架则能够有效地结合这两种方法的优势,既可以提取关键信息,又能够生成自然流畅的摘要。然而,目前已有的先提取再生成的工作大多都是单独训练的,存在信息损失的问题。
技术实现思路
1、本专利技术的目的在于提供基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,以解决上述
技术介绍
中提出的问题。
2、为实现上述目的,本专利技术提供如下技术方案:基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,包括如下步骤:
3、s1、从输入文本中抽取出若干最相关的子句,形成抽取语句集合;
4、s2、对文档中的所有句子进行编码,并通过mlp将其映射到标量分数;
5、s3、采用top-k算法,从所有数据块中提取出k个航运领域最相关的子句作为抽取的语句集合;
6、s4、生成器模型依据该集合中的文本语句生成最终的摘要。
7、优选的,所述步骤s1中,涉及的从输入文本来自两个摘要生成数据集:arxiv数据集和govreport数据集;通过从长文档中抽取出与输入文本中最相关的句子,来扩展模型能够处理的输入长度,同时为生成器提供最重要的信息。
8、优选的,所述步骤s1中,具体过程为:
9、给定输入为包含n个文本句子的x=(x1,..,xi,.,xn),输出是长度为t的摘要y;式中1≤i≤n,i取正整数;
10、使用提取器模型对每个文本句子xi计算一个相关性分数,然后从中选择分数最高的k个句子xk;生成器模型根据所抽取的k个语句集合集合来生成摘要;生成摘要标记y的序列,输出概率计算公式如下:
11、mi=eη(xi)(xi∈x)
12、xk=top-k(mi)
13、
14、其中mi是每个句子xi的相关性分数,η是提取器参数;xk是从提取器从文档x中提取出来的k个分数最高的文本子句,抽取-生成框架通过用xk来替换x来模拟输出概率pθ。
15、优选的,所述步骤s2中,涉及的对文档中的所有句子进行编码,在提取器模型中,采用预训练语言模型roberta对文档中的所有句子进行编码,并通过mlp将其映射到标量分数。
16、优选的,所述步骤s2中,具体方法如下:将连续的句子分组为若干数据块,然后在每个数据块中独立计算每个句子的编码向量;采用预训练语言模型roberta对每个数据块中的所有句子进行独立编码;只有利用mlp将编码向量投影到标量分数si上,该分数反映了该句子在整个文本中的重要程度。
17、优选的,所述步骤s3中,top-k算法将所有的句子按照得分从高到低排序,选取前k个句子。
18、优选的,所述步骤s4中,具体的实现方式如下:
19、对于每个提取的句子x,生成器预测这个语句的生成概率pθ(yt|x,y<t)以及该语句的动态权重wθ(x|xk,y<t);
20、生成概率pθ(yt|x,y<t)表示在给定抽取句子集合x和先前生成的摘要y<t的条件下,生成下一个摘要词汇yt的概率;动态权重wθ(x|xk,y<t)是为每个提取的句子在解码过程的不同时间步分配的权重。
21、优选的,将输入(x,y<t)映射到上下文表示向量hxt,生成概率pθ(yt|x,y<t)是通过将hxt馈送到语言模型头计算得到的;
22、采用单独的mlp,将每个hxt映射到一个标量logit,使用softmax函数将所有抽取句子集合的logit进行归一化处理,得到了每个句子的动态权重wθ(x|xk,y<t);
23、将生成器的动态权重wθ(x|xk,y<t)和生成概率pθ(yt|x,y<t)相乘,并对所有提取的句子进行求和,实现概率的边缘化,以计算出生成器的输出概率pθ(y|q,xk);如下公式所示:
24、
25、优选的,生成损失定义为黄金摘要的负对数似然,公式如下所示:
26、利用动态权重为提取器提供训练信号,每个句子的动态权重表示该句子在特定时间步上的重要程度;首先计算所有解码步骤上的动态权重的平均值,并将其视为该句子的整体重要性;引入了一种一致性对齐损失,它用于衡量平均动态权重分布与提取器分布之间的距离;具体来说,该损失可利用动态权重来调整提取器的分布,使其与平均动态权重分布之间的距离在x的任意子集上非常接近;这样,提取器在抽取句子时可以更准确地识别出重要的信息,并在训练过程中逐渐学习如何更好地进行抽取,从而有助于生成器模型生成高质量的摘要;将一致性对齐损失定义为:
27、
28、其中,η表示提取器的参数。
29、优选的,利用获取的抽取式参照来作为训练过程中使用的xk,并在一定条件下采用与原始xk结合的xk方式作为混合训练策略,来为生成器提供更高质量句子的输入;抽取式参照损失计算了提取器抽选语句集合与抽取式参照之间的交叉熵损失,公式如下:
30、
31、与现有技术相比,本专利技术的有益效果是:本专利技术所提供的方案,首先从输本文档来自技高网...
【技术保护点】
1.基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:所述步骤S1中,涉及的从输入文本来自两个摘要生成数据集:arXiv数据集和GovReport数据集;通过从长文档中抽取出与输入文本中最相关的句子,来扩展模型能够处理的输入长度,同时为生成器提供最重要的信息。
3.根据权利要求1所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:所述步骤S1中,具体过程为:
4.根据权利要求1所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:所述步骤S2中,涉及的对文档中的所有句子进行编码,在提取器模型中,采用预训练语言模型RoBERTa对文档中的所有句子进行编码,并通过MLP将其映射到标量分数。
5.根据权利要求1所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:所述步骤S2中,具体方法如下:将连续的句子分组为若干数据块,然后在每个数据块中独立计算每个句子的编码向量;采用预
6.根据权利要求1所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:所述步骤S3中,TOP-K算法将所有的句子按照得分从高到低排序,选取前K个句子。
7.根据权利要求1所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:所述步骤S4中,具体的实现方式如下:
8.根据权利要求7所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:将输入(X,y<t)映射到上下文表示向量hxt,生成概率pθ(yt|x,y<t)是通过将hxt馈送到语言模型头计算得到的;
9.根据权利要求8所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:生成损失定义为黄金摘要的负对数似然,公式如下所示:
10.根据权利要求9所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:利用获取的抽取式参照来作为训练过程中使用的XK,并在一定条件下采用与原始XK结合的XK方式作为混合训练策略,来为生成器提供更高质量句子的输入;抽取式参照损失计算了提取器抽选语句集合与抽取式参照之间的交叉熵损失,公式如下:
...【技术特征摘要】
1.基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:所述步骤s1中,涉及的从输入文本来自两个摘要生成数据集:arxiv数据集和govreport数据集;通过从长文档中抽取出与输入文本中最相关的句子,来扩展模型能够处理的输入长度,同时为生成器提供最重要的信息。
3.根据权利要求1所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:所述步骤s1中,具体过程为:
4.根据权利要求1所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:所述步骤s2中,涉及的对文档中的所有句子进行编码,在提取器模型中,采用预训练语言模型roberta对文档中的所有句子进行编码,并通过mlp将其映射到标量分数。
5.根据权利要求1所述的基于抽取-生成两阶段框架的航运领域新闻摘要生成方法,其特征在于:所述步骤s2中,具体方法如下:将连续的句子分组为若干数据块,然后在每个数据块中独立计算每个句子的编码向量;采用预训练语言模型roberta对每个数据块中的所有句子进行独立编码,利用mlp将编码向量投影...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。