一种基于NLP技术的文章摘要自动生成方法及系统技术方案

技术编号:38993899 阅读:17 留言:0更新日期:2023-10-07 10:25
本发明专利技术提供了一种基于NLP技术的文章摘要自动生成方法及系统,其方法包括:输入待生成摘要文本,并基于NPL技术对待生成摘要文本进行编码,获得目标编码数据,同时,对目标编码数据进行训练,确定在待生成摘要文本中每个目标单词出现的目标概率;基于目标概率生成评价指标,并根据评价指标对待生成摘要文本进行评价,并根据评价结果在摘要生成模型中对编码后的待生成摘要文本进行语句抽取,且将抽取到的目标语句进行组合得到摘要编码文本;对摘要编码文本进行解码生成目标摘要。实现对待生成摘要文本的目标摘要进行准确可靠的提取,保障了文章摘要生成的智能性以及准确性。文章摘要生成的智能性以及准确性。文章摘要生成的智能性以及准确性。

【技术实现步骤摘要】
一种基于NLP技术的文章摘要自动生成方法及系统


[0001]本专利技术涉及数据处理
,特别涉及一种基于NLP技术的文章摘要自动生成方法及系统。

技术介绍

[0002]摘要也就是内容提要,是文章中不可缺少的一部分,摘要是一篇具有独立性的短文,有其特别的地方,它是建立在对文章进行总结的基础之上,用简单、明确、易懂、精辟的语言对全文内容加以概括,留主干去枝叶,提取文章的主要信息;
[0003]现有的方案只能根据文章的内容得到简单的摘要,对整篇文章概括不够充分,读者无法根据该摘要的内容准确了解文章的主要内容,且在生成摘要时大多都采用人为总结,从而导致摘要生成效率低且不智能。

技术实现思路

[0004]针对上述所显示出来的问题,本专利技术提供了一种基于NLP技术的文章摘要自动生成方法及系统用以解决
技术介绍
中提到的现有的方案只能根据文章的内容得到简单的摘要,对整篇文章概括不够充分,读者无法根据该摘要的内容准确了解文章的主要内容,且在生成摘要时大多都采用人为总结,从而导致摘要生成效率低且不智能的问题。
[0005]一种基于NLP技术的文章摘要自动生成方法,包括以下步骤:
[0006]步骤1:输入待生成摘要文本,并基于NPL技术对待生成摘要文本进行编码,获得目标编码数据,同时,对目标编码数据进行训练,确定在待生成摘要文本中每个目标单词出现的目标概率;
[0007]步骤2:基于目标概率生成评价指标,并根据评价指标对待生成摘要文本进行评价,并根据评价结果在摘要生成模型中对编码后的待生成摘要文本进行语句抽取,且将抽取到的目标语句进行组合得到摘要编码文本;
[0008]步骤3:对摘要编码文本进行解码生成目标摘要。
[0009]优选的,步骤1中,输入待生成摘要文本,并基于NPL技术对待生成摘要文本进行编码,包括:
[0010]将待生成摘要文本输入至目标分析终端,并基于目标分析终端结合NPL技术对待生成摘要文本进行读取,确定待生成摘要文本的语句组成以及词汇组成;
[0011]对语句组成进行语义识别,确定每个语句的语句语义,并根据语句语义确定待生成摘要文本中每个语句之间的第一关联关系,同时,基于每个语句语义确定每个语句之间词汇的第二关联关系;
[0012]基于第一关联关系生成第一编码向量,同时,基于第二关联关系生成第二编码向量;
[0013]基于第一编码向量与第二编码向量对待生成摘要文本进行编码获得待生成摘要文本的目标编码数据,并基于目标编码数据完成对待生成摘要文本的编码。
[0014]优选的,对目标编码数据进行训练,确定在待生成摘要文本中每个目标单词出现的目标概率,包括:
[0015]对目标编码数据进行读取,确定目标编码数据中表征目标单词的编码表达,并确定编码表达对应的编码特征;
[0016]基于每个目标单词的编码表达以及对应的编码特征构建关于对待生成摘要文本进行训练的目标训练网络;
[0017]将待生成摘要文本输入至目标训练网络中进行训练,确定每个目标单词的编码表达在摘要文本中出现的次数;
[0018]获取目标编码数据的总编码表达次数,并基于总编码表达次数以及目标单词的编码表达在摘要文本中出现的次数,确定在待生成摘要文本中每个目标单词出现的概率。
[0019]优选的,步骤2中,基于目标概率生成评价指标,并根据评价指标对待生成摘要文本进行评价,包括:
[0020]获取待生成摘要文本中每个目标单词出现的目标概率,并基于目标概率递减的顺序将同一概率的目标单词进行聚合,得到不同目标概率对应的目标单词集合;
[0021]基于目标概率递减的顺序依次提取各目标单词集合中各目标单词的语义信息,同时,提取待生成摘要文本题目对应的目标关键词,并基于语义信息确定各目标单词相对目标关键词的归属度,且基于归属度确定不同目标单词集合中各目标单词类型对应的目标权重;
[0022]基于目标权重以及各目标单词类型得到评价指标,并对评价指标进行深度学习,得到文本评价模型;
[0023]获取编码后的待生成摘要文本,并对编码后的待生成摘要文本进行序列化处理,得到编码后的待生成摘要文本对应的文本词汇集合;
[0024]将文本词汇集合中各文本词汇输入构建的文本评价模型进行分析,得到各文本词汇相对待生成摘要文本题目的评价值。
[0025]优选的,步骤2中,根据评价结果在摘要生成模型中对编码后的待生成摘要文本进行语句抽取,包括:
[0026]获取预设训练数据集以及预设摘要,并对预设训练数据集中的文本进行文本划分,得到训练单句集,且对训练单句集进行预处理,得到各训练单句集中各单句的训练特征向量;
[0027]基于训练特征向量确定训练单句集中各训练单句的语句构造特征,并基于语句构造特征确定各训练单句对应的段落编码特征,且基于段落编码特征对摘要生成模型进行第一训练;
[0028]获取预设摘要的摘要构造特诊,并基于摘要构造特征确定各训练单句与预设摘要的关联关系,且基于关联关系对摘要生成模型进行第二训练,得到最终的摘要生成模型;
[0029]将对待生成摘要文本进行评价后的评价结果以及待生成摘要文本输入最终的摘要生成模型进行分析提取,得到摘要文本对应的目标语句。
[0030]优选的,步骤2中,将抽取到的目标语句进行组合得到摘要编码文本,包括:
[0031]获取对编码后的待生成摘要文本进行语句抽取后得到的目标语句,并对目标语句进行解析,确定目标语句的关键词;
[0032]对关键词进行量化处理,得到目标语句的句向量,并基于句向量确定目标语句之间的逻辑结构;
[0033]基于逻辑结果对目标语句进行排序,并基于排序结果对目标语句进行拼接组合,得到对应的摘要编码文本。
[0034]优选的,步骤3中,对摘要编码文本进行解码生成目标摘要,包括:
[0035]对编码摘要文本进行提取,确定摘要编码文本的文本格式以及文本类型;
[0036]根据文本格式以及文本类型在预设解码库中匹配对应解码算法;
[0037]基于解码算法对摘要编码文本进行解码,并基于解码结果生成目标摘要。
[0038]一种基于NLP技术的文章摘要自动生成系统,该系统包括:
[0039]分析模块,用于输入待生成摘要文本,并基于NPL技术对待生成摘要文本进行编码,获得目标编码数据,同时,对目标编码数据进行训练,确定在待生成摘要文本中每个目标单词出现的目标概率;
[0040]语句抽取模块,用于基于目标概率生成评价指标,并根据评价指标对待生成摘要文本进行评价,并根据评价结果在摘要生成模型中对编码后的待生成摘要文本进行语句抽取,且将抽取到的目标语句进行组合得到摘要编码文本;
[0041]解码模块,用于对摘要编码文本进行解码生成目标摘要。
[0042]通过上述技术方案,本专利技术取得以下有益效果:
[0043]1)通过对待生成摘要文本进行编码,且对编码后的数据进行分析,实现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于NLP技术的文章摘要自动生成方法,其特征在于,包括以下步骤:步骤1:输入待生成摘要文本,并基于NPL技术对待生成摘要文本进行编码,获得目标编码数据,同时,对目标编码数据进行训练,确定在待生成摘要文本中每个目标单词出现的目标概率;步骤2:基于目标概率生成评价指标,并根据评价指标对待生成摘要文本进行评价,并根据评价结果在摘要生成模型中对编码后的待生成摘要文本进行语句抽取,且将抽取到的目标语句进行组合得到摘要编码文本;步骤3:对摘要编码文本进行解码生成目标摘要。2.根据权利要求1所述的一种基于NPL技术的文章摘要自动生成方法,其特征在于,步骤1中,输入待生成摘要文本,并基于NPL技术对待生成摘要文本进行编码,包括:将待生成摘要文本输入至目标分析终端,并基于目标分析终端结合NPL技术对待生成摘要文本进行读取,确定待生成摘要文本的语句组成以及词汇组成;对语句组成进行语义识别,确定每个语句的语句语义,并根据语句语义确定待生成摘要文本中每个语句之间的第一关联关系,同时,基于每个语句语义确定每个语句之间词汇的第二关联关系;基于第一关联关系生成第一编码向量,同时,基于第二关联关系生成第二编码向量;基于第一编码向量与第二编码向量对待生成摘要文本进行编码获得待生成摘要文本的目标编码数据,并基于目标编码数据完成对待生成摘要文本的编码。3.根据权利要求1所述的一种基于NPL技术的文章摘要自动生成方法,其特征在于,对目标编码数据进行训练,确定在待生成摘要文本中每个目标单词出现的目标概率,包括:对目标编码数据进行读取,确定目标编码数据中表征目标单词的编码表达,并确定编码表达对应的编码特征;基于每个目标单词的编码表达以及对应的编码特征构建关于对待生成摘要文本进行训练的目标训练网络;将待生成摘要文本输入至目标训练网络中进行训练,确定每个目标单词的编码表达在摘要文本中出现的次数;获取目标编码数据的总编码表达次数,并基于总编码表达次数以及目标单词的编码表达在摘要文本中出现的次数,确定在待生成摘要文本中每个目标单词出现的概率。4.根据权利要求1所述的一种基于NLP技术的文章摘要自动生成方法,其特征在于,步骤2中,基于目标概率生成评价指标,并根据评价指标对待生成摘要文本进行评价,包括:获取待生成摘要文本中每个目标单词出现的目标概率,并基于目标概率递减的顺序将同一概率的目标单词进行聚合,得到不同目标概率对应的目标单词集合;基于目标概率递减的顺序依次提取各目标单词集合中各目标单词的语义信息,同时,提取待生成摘要文本题目对应的目标关键词,并基于语义信息确定各目标单词相对目标关键词的归属度,且基于归属度确定不同目标单词集合中各目标单词类型对应的目标权重;基于目标权重以及各目...

【专利技术属性】
技术研发人员:兰雨晴余丹王丹星贺江
申请(专利权)人:慧之安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1