一种基于制造技术

技术编号:39832135 阅读:16 留言:0更新日期:2023-12-29 16:14
本发明专利技术公开了一种基于

【技术实现步骤摘要】
一种基于NLP的文本摘要生成方法和系统


[0001]本专利技术涉及文本摘要
,尤其是涉及一种基于
NLP
的文本摘要生成方法和系统


技术介绍

[0002]文本摘要的生成主要包括抽取式和生成式,生成式主要是利用神经网络等深度学习的技术直接生成对应的文本摘要,这类技术较为复杂,因此常用抽取式文本摘要生成,抽取式方案主要是基于
NLP(Natural Language Processing
自然语言处理
)
处理技术从文本文档中选取句子等重要内容作为文本摘要

[0003]目前主要是利用标点符号进行子句的划分,进而评价子句的重要程度,最后依据重要程度选取出一定的子句或重要内容作为文本摘要

但对于文本来说,标点符号前后的语句之间往往存在一定的关联性,而且两个语句之间可能存在有重复且冗余的信息,这样不仅导致文本摘要生成的不准确,而且也增加了计算的复杂程度,变向的提高了计算成本


技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一

为此,本专利技术提出一基于
NLP
的文本摘要生成方法和系统,能够有效提高文本摘要生成的准确程度,而且也能减少模型的训练成本

[0005]根据本专利技术的第一方面实施例的基于
NLP
的文本摘要生成方法,所述基于
NLP
的文本摘要方法包括:
[0006]获取对象文本;
[0007]将所述对象文本划分出多个第一子句;
[0008]确定每一所述第一子句对应的邻接子句,计算每一所述第一子句与对应的邻接子句之间的第一相似度,分别将所述第一相似度小于合并相似度阈值的所述第一子句与对应的邻接子句合并,得到多个第二子句;其中,所述第一子句的邻接子句是所述多个第一子句中与所述第一子句相邻的邻居子句和
/
或与所述第一子句相邻的邻居子句的邻居子句;
[0009]确定每一所述第二子句对应的邻接子句,计算每一所述第二子句与对应的邻接子句之间的第二相似度,根据所述第二相似度获取所述多个第二子句的近似邻域图;所述第二子句的邻接子句是所述多个第二子句中与所述第二子句相邻的邻居子句;
[0010]将所述近似邻域图输入至基于
NLP
的预测模型中,得到所述预测模型输出的每一所述第二子句的重要程度;
[0011]根据所述重要程度,从所述多个第二子句中选取若干所述第二子句构建为文本摘要

[0012]根据本专利技术实施例的基于
NLP
的文本摘要生成方法,至少具有如下有益效果:
[0013]本方法首先对划分出的多个第一子句进行合并处理,通过子句的邻居子句的邻居子句可能是该子句的邻居子句这一思想,根据相似度作为度量条件,把一个子句的邻居子
句或邻居子句的邻居子句作为该句子的邻接子句,将符合要求的子句及其邻接合并成一个子句,这样将含有冗余且重复信息的相邻句子进行合并,降低了后续模型训练的复杂程度,也就提升后续摘要形成的准确程度;然后将找到合并后的每一子句对应的邻居子句,构建基于相似度的近似领域图,最后,基于近似领域图输入至预测模型进行训练,得到子句的重要程度,并基于重要程度得到摘要的结果

本方法有效提高文本摘要生成的准确程度,而且也能减少模型的训练成本

[0014]根据本专利技术的一些实施例,通过如下方式确定所述第一子句对应的邻接子句:
[0015]选取位于所述第一子句前后的第一邻居子句以及位于所述第一邻居子句之前或之后的第二邻居子句;
[0016]计算所述第一子句与所述第一邻居子句之间的相似度,并计算所述第一子句与所述第二邻居子句之间的相似度;
[0017]当所述第一子句与所述第一邻居子句之间的相似度小于第一子句与所述第二邻居子句之间的相似度,将所述第二邻居子句作为所述第一子句的邻接子句;否则,则将所述第一邻居子句作为所述第一子句的邻接子句

[0018]根据本专利技术的一些实施例,所述第一子句是所述对象文本中有效信息量大于信息量阈值的子句,其中所述有效信息量通过所述对象文本中子句所包含信息特征确定

[0019]根据本专利技术的一些实施例,所述信息特征包括:句中的词性特征

句中的实体特征和句中的成分特征

[0020]根据本专利技术的一些实施例,通过如下方式计算所述子句的所述有效信息量:
[0021]N

α
N1+
β
N2+
γ
N3[0022]其中,
N
为有效信息量,
N1表示所述子句中的词性特征的个数,
N2表示所述子句中的实体特征的个数,
N3表示所述子句中的成分特征的个数,
α
,
β
,
γ
表示权重值

[0023]根据本专利技术的一些实施例,所述预测模型为基于
TextRank
算法得到的模型

[0024]根据本专利技术的一些实施例,所述根据所述重要程度,从所述多个第二子句中选取若干所述第二子句构建为文本摘要包括:
[0025]根据所述重要性程度,对所述多个第二子句进行排序;
[0026]从所述多个第二子句中选取出所述重要性程度位于前列的所述第二子句构建为文本摘要

[0027]根据本专利技术的第二方面实施例的基于
NLP
的文本摘要生成系统,所述基于
NLP
的文本摘要生成系统包括:
[0028]对象文本获取单元,用于获取对象文本;
[0029]第一子句划分单元,用于将所述对象文本划分出多个第一子句;
[0030]第一子句合并单元,用于确定每一所述第一子句对应的邻接子句,计算每一所述第一子句与对应的邻接子句之间的第一相似度,分别将所述第一相似度小于合并相似度阈值的所述第一子句与对应的邻接子句合并,得到多个第二子句;其中,所述第一子句的邻接子句是所述多个第一子句中与所述第一子句相邻的邻居子句和
/
或与所述第一子句相邻的邻居子句的邻居子句;
[0031]邻域图确定单元,用于确定每一所述第二子句对应的邻接子句,计算每一所述第二子句与对应的邻接子句之间的第二相似度,根据所述第二相似度获取所述多个第二子句
的近似邻域图;所述第二子句的邻接子句是所述多个第二子句中与所述第二子句相邻的邻居子句;
[0032]重要程度确定单元,用于将所述近似邻域图输入至基于
NLP
的预测模型中,得到所述预测模型输出的每一所述第二子句的重要程度;
[0033]文本摘要形成单元,用于根据所述重要程度,从所述多个第二子句中选取若干所述第二子句构建为文本摘要
。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
NLP
的文本摘要生成方法,其特征在于,所述基于
NLP
的文本摘要方法包括:获取对象文本;将所述对象文本划分出多个第一子句;确定每一所述第一子句对应的邻接子句,计算每一所述第一子句与对应的邻接子句之间的第一相似度,分别将所述第一相似度小于合并相似度阈值的所述第一子句与对应的邻接子句合并,得到多个第二子句;其中,所述第一子句的邻接子句是所述多个第一子句中与所述第一子句相邻的邻居子句和
/
或与所述第一子句相邻的邻居子句的邻居子句;确定每一所述第二子句对应的邻接子句,计算每一所述第二子句与对应的邻接子句之间的第二相似度,根据所述第二相似度获取所述多个第二子句的近似邻域图;所述第二子句的邻接子句是所述多个第二子句中与所述第二子句相邻的邻居子句;将所述近似邻域图输入至基于
NLP
的预测模型中,得到所述预测模型输出的每一所述第二子句的重要程度;根据所述重要程度,从所述多个第二子句中选取若干所述第二子句构建为文本摘要
。2.
根据权利要求1所述的基于
NLP
的文本摘要生成方法,其特征在于,通过如下方式确定所述第一子句对应的邻接子句:选取位于所述第一子句前后的第一邻居子句以及位于所述第一邻居子句之前或之后的第二邻居子句;计算所述第一子句与所述第一邻居子句之间的相似度,并计算所述第一子句与所述第二邻居子句之间的相似度;当所述第一子句与所述第一邻居子句之间的相似度小于第一子句与所述第二邻居子句之间的相似度,将所述第二邻居子句作为所述第一子句的邻接子句;否则,则将所述第一邻居子句作为所述第一子句的邻接子句
。3.
根据权利要求2所述的基于
NLP
的文本摘要生成方法,其特征在于,所述第一子句是所述对象文本中有效信息量大于信息量阈值的子句,其中所述有效信息量通过所述对象文本中子句所包含信息特征确定
。4.
根据权利要求3所述的基于
NLP
的文本摘要生成方法,其特征在于,所述信息特征包括:句中的词性特征

句中的实体特征和句中的成分特征
。5.
根据权利要求4所述的基于
NLP
的文本摘要生成方法,其特征在于,通过如下方式计算所述子句的所述有效信息量:
N

α
N1+
β
N2+
γ
N3其中,
N
为有效信息量,
N1表示所述子句中的词性特征的个数,
N2表示所述子句中的实体特征的个数,

【专利技术属性】
技术研发人员:杨华军梁开文覃宇阁马静林
申请(专利权)人:广西通信规划设计咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1