【技术实现步骤摘要】
一种文本摘要的生成方法及装置
[0001]本申请涉及文本处理
,尤其涉及一种文本摘要的生成方法及装置。
技术介绍
[0002]文本摘要是指简洁、准确地记述文本的重要内容的一段文字,文本摘要通常是从文本中正确无误地摘录出来,且不对文本做主观解释和评论,文本摘要能够令读者用最短的时间得以掌握文本的内容,得知文本的大意。
[0003]基于文本摘要的性质,文本摘要具有广泛地应用,例如,将文本摘要应用于商业领域,如将文本摘要作为一本小说、一篇文章的简介,从而引发读者的阅读和购买兴趣,或者,将文本摘要应用于检索领域,如将文本摘要作为相关文本的检索值,检索者通过浏览各个文本摘要,就可以快速确定所要检索的目标文本,又或者,将文本摘要应用于视频合成领域,如将文本摘要作为筛选视频素材的条件,只有具有与文本摘要相匹配的内容的视频素材才可以作为用于合成视频的目标视频素材等。可见,文本摘要的准确性,直接影响根据文本摘要所查找的结果的准确性,例如,影响读者的阅读和购买兴趣、影响检索的准确性、影响所筛选的目标视频素材的准确性等。
[0004]目前,相关技术中,通常会以文本中的每个句子为分析对象,单独分析每个句子的重要程度,并从文本中筛选出比较重要、比较有代表性的句子作为文本的文本摘要。然而,这种筛选过程割裂了句子与句子之间的关联,句子与其所在段落之间的关联,句子与其所在文本之间的关联,通过这种方式筛选出的摘要文本的准确性较低,将很难代表文本的整体内容。
技术实现思路
[0005]本申请提供了一种文本摘要的生成 ...
【技术保护点】
【技术特征摘要】
1.一种文本摘要的生成方法,其特征在于,包括:将目标文本划分为多个分句;构建句子关系网络,所述句子关系网络包括所述多个分句中的全部节点分句,以及每一个所述节点分句与相应的邻接分句之间的对应关系,其中,所述节点分句对应至少一个句子相似度大于或者等于相似度阈值的所述邻接分句;基于所述句子关系网络,获取每一个所述节点分句对应的子关系网络,所述子关系网络包括所述节点分句以及所述节点分句的至少一个邻接分句;生成所述目标文本的文本摘要,所述文本摘要包括目标子关系网络中的全部分句,所述目标子关系网络是指与所述句子关系网络之间具有最高文档向量相似度的所述子关系网络。2.根据权利要求1所述的方法,其特征在于,在所述将目标文本划分为多个分句之前还包括:获取待处理文本;将所述待处理文本划分为多个待处理分句;获取每个所述待处理分句中的第一文本和第二文本,其中,所述第一文本与所述待处理文本所属的目标领域中的核心类别对应,所述第二文本与所述目标领域中的非核心类别对应;根据每个所述待处理分句对应的分句向量,计算各所述待处理分句之间的句子相似度,所述待处理分句对应的分句向量由相应的所述第一文本和所述第二文本构成;将所述多个待处理分句划分为多个所述目标文本,每个所述目标文本包括多个目标分句,所述多个目标分句之间的句子相似度大于或者等于预设句子相似度阈值。3.根据权利要求2所述的方法,其特征在于,在将所述多个待处理分句划分为多个所述目标文本之后,还包括:获取各所述目标分句在所述待处理文本中的位置;按照各所述目标分句在所述待处理文本中的位置,将所述目标文本中的各所述目标分句排序。4.根据权利要求1所述的方法,其特征在于,所述构建句子关系网络包括:以每个所述分句作为中心分句,计算所述中心分句与所述多个分句中其它分句之间的句子相似度;确定节点分句和所述节点分句的邻接分句,所述节点分句是指具有邻接分句的所述中心分句,所述邻接分句是指与所述节点分句的句子相似度大于或者等于句子相似度阈值的所述其它分句;建立各所述节点分句与所述邻接分句之间的对应关系,得到所述句子关系网络。5.根据权利要求1所述的方法,其特征在于,所述获取每一个所述节点分句对应的子关系网络包括:根据预设的文本摘要所包含的句子数量N,获取每一个所述节点分句对应的全部子关系网络,其中,每个所述子关系网络包括所述节点分句和所述节点分句对应的N
‑
1个所述邻接分句,N≥1。6.根据权利要求5所述的方法,其特征在于,所述生成所述目标文本的文本摘要包括:
获取候选子关系网络,所述候选子关系网络是指中心度大于或者等于中心度阈值的所述子关系网络;生成所述文本摘要,所述文本摘要包括所述目标子关系网络中的全部分句,所述目标子关系网络是指与所述句子关系网络之间具有最高文档向量相似度的所述候选...
【专利技术属性】
技术研发人员:司马华鹏,华冰涛,汤毅平,汪成,靳超超,
申请(专利权)人:宿迁硅基智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。