【技术实现步骤摘要】
一种基于NLP的文本摘要生成方法和系统
[0001]本专利技术涉及文本摘要
,尤其是涉及一种基于
NLP
的文本摘要生成方法和系统
。
技术介绍
[0002]文本摘要的生成主要包括抽取式和生成式,生成式主要是利用神经网络等深度学习的技术直接生成对应的文本摘要,这类技术较为复杂,因此常用抽取式文本摘要生成,抽取式方案主要是基于
NLP(Natural Language Processing
自然语言处理
)
处理技术从文本文档中选取句子等重要内容作为文本摘要
。
[0003]目前主要是利用标点符号进行子句的划分,进而评价子句的重要程度,最后依据重要程度选取出一定的子句或重要内容作为文本摘要
。
但对于文本来说,标点符号前后的语句之间往往存在一定的关联性,而且两个语句之间可能存在有重复且冗余的信息,这样不仅导致文本摘要生成的不准确,而且也增加了计算的复杂程度,变向的提高了计算成本
。
技术实现思路
[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一
。
为此,本专利技术提出一基于
NLP
的文本摘要生成方法和系统,能够有效提高文本摘要生成的准确程度,而且也能减少模型的训练成本
。
[0005]根据本专利技术的第一方面实施例的基于
NLP
的文本摘要生成方法,所述基于
NLP
的文本摘要方法包括:
[0006 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于
NLP
的文本摘要生成方法,其特征在于,所述基于
NLP
的文本摘要方法包括:获取对象文本;将所述对象文本划分出多个第一子句;确定每一所述第一子句对应的邻接子句,计算每一所述第一子句与对应的邻接子句之间的第一相似度,分别将所述第一相似度小于合并相似度阈值的所述第一子句与对应的邻接子句合并,得到多个第二子句;其中,所述第一子句的邻接子句是所述多个第一子句中与所述第一子句相邻的邻居子句和
/
或与所述第一子句相邻的邻居子句的邻居子句;确定每一所述第二子句对应的邻接子句,计算每一所述第二子句与对应的邻接子句之间的第二相似度,根据所述第二相似度获取所述多个第二子句的近似邻域图;所述第二子句的邻接子句是所述多个第二子句中与所述第二子句相邻的邻居子句;将所述近似邻域图输入至基于
NLP
的预测模型中,得到所述预测模型输出的每一所述第二子句的重要程度;根据所述重要程度,从所述多个第二子句中选取若干所述第二子句构建为文本摘要
。2.
根据权利要求1所述的基于
NLP
的文本摘要生成方法,其特征在于,通过如下方式确定所述第一子句对应的邻接子句:选取位于所述第一子句前后的第一邻居子句以及位于所述第一邻居子句之前或之后的第二邻居子句;计算所述第一子句与所述第一邻居子句之间的相似度,并计算所述第一子句与所述第二邻居子句之间的相似度;当所述第一子句与所述第一邻居子句之间的相似度小于第一子句与所述第二邻居子句之间的相似度,将所述第二邻居子句作为所述第一子句的邻接子句;否则,则将所述第一邻居子句作为所述第一子句的邻接子句
。3.
根据权利要求2所述的基于
NLP
的文本摘要生成方法,其特征在于,所述第一子句是所述对象文本中有效信息量大于信息量阈值的子句,其中所述有效信息量通过所述对象文本中子句所包含信息特征确定
。4.
根据权利要求3所述的基于
NLP
的文本摘要生成方法,其特征在于,所述信息特征包括:句中的词性特征
、
句中的实体特征和句中的成分特征
。5.
根据权利要求4所述的基于
NLP
的文本摘要生成方法,其特征在于,通过如下方式计算所述子句的所述有效信息量:
N
=
α
N1+
β
N2+
γ
N3其中,
N
为有效信息量,
N1表示所述子句中的词性特征的个数,
N2表示所述子句中的实体特征的个数,
技术研发人员:杨华军,梁开文,覃宇阁,马静林,
申请(专利权)人:广西通信规划设计咨询有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。