一种文本摘要的生成方法及装置制造方法及图纸

技术编号:31749852 阅读:20 留言:0更新日期:2022-01-05 16:31
本申请提供了一种文本摘要的生成方法及装置,可以通过构建目标文本中各分句之间的句子网络关系,以准确获取各分句之间的邻接关系,从句子关系网络中确定由所代表的文本内容高度统一的多个分句构成的子关系网络,并通过准确计算各子关系网络与句子关系网络之间的文档相似度,以确定作为文本摘要的目标子关系网络。可见,本申请所提供的文本摘要的生成方法可以有效提高所生成的文本摘要的文本内容与目标文本的文本内容之间的匹配度,令文本摘要更加准确地代表目标文本,从而可以为后续匹配目标视频素材提供更加准确的文本基础,以提高所匹配到的目标视频素材的准确性。高所匹配到的目标视频素材的准确性。高所匹配到的目标视频素材的准确性。

【技术实现步骤摘要】
一种文本摘要的生成方法及装置


[0001]本申请涉及文本处理
,尤其涉及一种文本摘要的生成方法及装置。

技术介绍

[0002]文本摘要是指简洁、准确地记述文本的重要内容的一段文字,文本摘要通常是从文本中正确无误地摘录出来,且不对文本做主观解释和评论,文本摘要能够令读者用最短的时间得以掌握文本的内容,得知文本的大意。
[0003]基于文本摘要的性质,文本摘要具有广泛地应用,例如,将文本摘要应用于商业领域,如将文本摘要作为一本小说、一篇文章的简介,从而引发读者的阅读和购买兴趣,或者,将文本摘要应用于检索领域,如将文本摘要作为相关文本的检索值,检索者通过浏览各个文本摘要,就可以快速确定所要检索的目标文本,又或者,将文本摘要应用于视频合成领域,如将文本摘要作为筛选视频素材的条件,只有具有与文本摘要相匹配的内容的视频素材才可以作为用于合成视频的目标视频素材等。可见,文本摘要的准确性,直接影响根据文本摘要所查找的结果的准确性,例如,影响读者的阅读和购买兴趣、影响检索的准确性、影响所筛选的目标视频素材的准确性等。
[0004]目前,相关技术中,通常会以文本中的每个句子为分析对象,单独分析每个句子的重要程度,并从文本中筛选出比较重要、比较有代表性的句子作为文本的文本摘要。然而,这种筛选过程割裂了句子与句子之间的关联,句子与其所在段落之间的关联,句子与其所在文本之间的关联,通过这种方式筛选出的摘要文本的准确性较低,将很难代表文本的整体内容。

技术实现思路

[0005]本申请提供了一种文本摘要的生成方法及装置,以有效提高所提取的文本摘要的准确性。
[0006]本申请第一方面提供了一种文本摘要的生成方法,包括:
[0007]将目标文本划分为多个分句;
[0008]构建句子关系网络,所述句子关系网络包括所述多个分句中的全部节点分句,以及每一个所述节点分句与相应的邻接分句之间的对应关系,其中,所述节点分句对应至少一个句子相似度大于或者等于相似度阈值的所述邻接分句;
[0009]基于所述句子关系网络,获取每一个所述节点分句对应的子关系网络,所述子关系网络包括所述节点分句以及所述节点分句的至少一个邻接分句;
[0010]生成所述目标文本的文本摘要,所述文本摘要包括目标子关系网络中的全部分句,所述目标子关系网络是指与所述句子关系网络之间具有最高文档向量相似度的所述子关系网络。
[0011]在一些实现方式中,在所述将目标文本划分为多个分句之前还包括:
[0012]获取待处理文本;
[0013]将所述待处理文本划分为多个待处理分句;
[0014]获取每个所述待处理分句中的第一文本和第二文本,其中,所述第一文本与所述待处理文本所属的目标领域中的核心类别对应,所述第二文本与所述目标领域中的非核心类别对应;
[0015]根据每个所述待处理分句对应的分句向量,计算各所述待处理分句之间的句子相似度,所述待处理分句对应的分句向量由相应的所述第一文本和所述第二文本构成;
[0016]将所述多个待处理分句划分为多个所述目标文本,每个所述目标文本包括多个目标分句,所述多个目标分句之间的句子相似度大于或者等于预设句子相似度阈值。
[0017]在一些实现方式中,在将所述多个待处理分句划分为多个所述目标文本之后,还包括:
[0018]获取各所述目标分句在所述待处理文本中的位置;
[0019]按照各所述目标分句在所述待处理文本中的位置,将所述目标文本中的各所述目标分句排序。
[0020]在一些实现方式中,所述构建句子关系网络包括:
[0021]以每个所述分句作为中心分句,计算所述中心分句与所述多个分句中其它分句之间的句子相似度;
[0022]确定节点分句和所述节点分句的邻接分句,所述节点分句是指具有邻接分句的所述中心分句,所述邻接分句是指与所述节点分句的句子相似度大于或者等于句子相似度阈值的所述其它分句;
[0023]建立各所述节点分句与所述邻接分句之间的对应关系,得到所述句子关系网络。
[0024]在一些实现方式中,所述获取每一个所述节点分句对应的子关系网络包括:
[0025]根据预设的文本摘要所包含的句子数量N,获取每一个所述节点分句对应的全部子关系网络,其中,每个所述子关系网络包括所述节点分句和所述节点分句对应的N

1个所述邻接分句,N≥1。
[0026]在一些实现方式中,所述生成所述目标文本的文本摘要包括:
[0027]获取候选子关系网络,所述候选子关系网络是指中心度大于或者等于中心度阈值的所述子关系网络;
[0028]生成所述文本摘要,所述文本摘要包括所述目标子关系网络中的全部分句,所述目标子关系网络是指与所述句子关系网络之间具有最高文档向量相似度的所述候选子关系网络。
[0029]在一些实现方式中,计算所述子关系网络的中心度的步骤包括:
[0030]计算各所述子关系网络中每个所述分句对应的第一中心度,所述第一中心度根据所述分句的向前影响和向后影响计算获得;
[0031]计算每个所述子关系网络中各所述分句对应的中心度的加权平均值,得到每个所述子关系网络的中心度。
[0032]在一些实现方式中,计算所述文档向量相似度的步骤包括:
[0033]获取所述句子关系网络中各所述分句对应的分句向量,并为各所述分句分配对应的分句系数;
[0034]根据各所述分句的分句向量以及对应的分句系数,计算所述句子关系网络中各所
述分句的加权平均值,得到所述句子关系网络对应的第一文档向量,根据所述子关系网络中各所述分句的分句向量以及对应的分句系数,计算所述子关系网络中各所述分句的加权平均值,得到所述子关系网络对应的第二文档向量;
[0035]分别计算各所述第一文档向量与所述第二文档向量之间的相似度,得到每个所述子关系网络与所述句子关系网络的文档向量相似度。
[0036]第二方面,本申请提供了一种视频合成方法,所述方法包括:
[0037]获取待生成相应视频的待处理文本,所述待处理文本包括至少一个目标文本,其中,不同的所述目标文本对应不同的文本内容;
[0038]获取所述目标文本中的第一文本和第二文本,以及所述目标文本的文本摘要,其中,所述第一文本是指所述目标文本中与所述待处理文本所属目标领域中预设的核心类别对应的文本,所述第二文本是指所述目标文本中与所述目标领域中预设的非核心类别对应的文本,所述文本摘要基于第一方面中所述的方法获得;
[0039]获取所述目标领域对应的视频素材库,所述视频素材库包括多个视频素材,其中,每个视频素材具有相应的标签和描述文本;
[0040]根据所述第一文本与每个所述视频素材的标签的文本相似度、所述第二文本与每个所述视频素材的标签的概率相似度、以及所述文本摘要与每个所述视频素材的描述文本的句子相似度,从所述视频素材库中提取目标视频素材;
[0041]根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本摘要的生成方法,其特征在于,包括:将目标文本划分为多个分句;构建句子关系网络,所述句子关系网络包括所述多个分句中的全部节点分句,以及每一个所述节点分句与相应的邻接分句之间的对应关系,其中,所述节点分句对应至少一个句子相似度大于或者等于相似度阈值的所述邻接分句;基于所述句子关系网络,获取每一个所述节点分句对应的子关系网络,所述子关系网络包括所述节点分句以及所述节点分句的至少一个邻接分句;生成所述目标文本的文本摘要,所述文本摘要包括目标子关系网络中的全部分句,所述目标子关系网络是指与所述句子关系网络之间具有最高文档向量相似度的所述子关系网络。2.根据权利要求1所述的方法,其特征在于,在所述将目标文本划分为多个分句之前还包括:获取待处理文本;将所述待处理文本划分为多个待处理分句;获取每个所述待处理分句中的第一文本和第二文本,其中,所述第一文本与所述待处理文本所属的目标领域中的核心类别对应,所述第二文本与所述目标领域中的非核心类别对应;根据每个所述待处理分句对应的分句向量,计算各所述待处理分句之间的句子相似度,所述待处理分句对应的分句向量由相应的所述第一文本和所述第二文本构成;将所述多个待处理分句划分为多个所述目标文本,每个所述目标文本包括多个目标分句,所述多个目标分句之间的句子相似度大于或者等于预设句子相似度阈值。3.根据权利要求2所述的方法,其特征在于,在将所述多个待处理分句划分为多个所述目标文本之后,还包括:获取各所述目标分句在所述待处理文本中的位置;按照各所述目标分句在所述待处理文本中的位置,将所述目标文本中的各所述目标分句排序。4.根据权利要求1所述的方法,其特征在于,所述构建句子关系网络包括:以每个所述分句作为中心分句,计算所述中心分句与所述多个分句中其它分句之间的句子相似度;确定节点分句和所述节点分句的邻接分句,所述节点分句是指具有邻接分句的所述中心分句,所述邻接分句是指与所述节点分句的句子相似度大于或者等于句子相似度阈值的所述其它分句;建立各所述节点分句与所述邻接分句之间的对应关系,得到所述句子关系网络。5.根据权利要求1所述的方法,其特征在于,所述获取每一个所述节点分句对应的子关系网络包括:根据预设的文本摘要所包含的句子数量N,获取每一个所述节点分句对应的全部子关系网络,其中,每个所述子关系网络包括所述节点分句和所述节点分句对应的N

1个所述邻接分句,N≥1。6.根据权利要求5所述的方法,其特征在于,所述生成所述目标文本的文本摘要包括:
获取候选子关系网络,所述候选子关系网络是指中心度大于或者等于中心度阈值的所述子关系网络;生成所述文本摘要,所述文本摘要包括所述目标子关系网络中的全部分句,所述目标子关系网络是指与所述句子关系网络之间具有最高文档向量相似度的所述候选...

【专利技术属性】
技术研发人员:司马华鹏华冰涛汤毅平汪成靳超超
申请(专利权)人:宿迁硅基智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1