文本处理方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:38088908 阅读:9 留言:0更新日期:2023-07-06 08:59
本公开涉及一种文本处理装置、方法、设备和计算机可读存储介质。该文本处理方法包括:接收多个输入语句;基于第一相似度模型获得多个输入语句之间的第一相似度,第一相似度包括语句相似度和主题相似度中的至少一个;基于第一连续性模型获得多个输入语句之间的第一连续性;以及基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果,从而避免压缩结果的文本流畅性、冗余等问题。题。题。

【技术实现步骤摘要】
文本处理方法、装置、设备和计算机可读存储介质


[0001]本公开涉及文本处理领域,并且具体涉及一种文本处理装置、方法、设备和计算机可读存储介质。

技术介绍

[0002]近年来,随着计算机处理技术的高速发展,使得更精炼快速地捕获文本中的重要信息成为可能。句子压缩是一种将冗长句子转换成精炼简洁的句子的方法。该技术广泛用于主题的自动获取、摘要生成、问答系统等技术中。
[0003]现有的句子压缩方法有:构建关于句子的语法树,通过删减语法树的整个分支来生成压缩句子,或者通过训练基于神经网络的压缩模型来进行句子压缩。对于相对较长的文本,在进行压缩时,如果直接进行压缩,可能会出现流畅性不好、文本冗余等问题。因此,对于相对较长的文本,可以先对其进行初始压缩以提取出故事线,然后再对该故事线进行压缩,从而避免流畅性、冗余等问题。

技术实现思路

[0004]鉴于以上问题,本公开提供了一种文本处理装置、方法、设备和计算机可读存储介质。
[0005]根据本公开的一个方面,提供了一种文本处理方法,包括:接收多个输入语句;基于第一相似度模型获得多个输入语句之间的第一相似度,第一相似度包括语句相似度和主题相似度中的至少一个;基于第一连续性模型获得多个输入语句之间的第一连续性;以及基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
[0006]在一个示例中,基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果还包括:基于第一顺序,计算各个输入语句之间的相对距离,其中第一顺序是多个输入语句的排列顺序;以及基于相对距离和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
[0007]在一个示例中,基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果还包括:基于预先指定的第一特定词或第一特定句和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
[0008]在一个示例中,基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果还包括:基于第一预定压缩长度和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
[0009]在一个示例中,在基于第一相似度模型获得所述多个输入语句之间的第一相似度或基于第一连续性模型获得所述多个输入语句之间的第一连续性之前,该方法还包括:将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句,基于第一相似度模型获得多个输入语句之间的第一相似度包括:基于第一相似度模型,获得多个待选择语句的下半子句与在其后排列的其他
待选择语句的上半子句之间的第一相似度,基于第一连续性模型获得所述多个输入语句之间的第一连续性包括:基于所述第一连续性模型,获得所述多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一连续性。
[0010]在一个示例中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句,包括:判断多个输入语句中的每个输入语句的长度是否大于第一预定长度,在输入语句的长度小于第一预定长度的情况下,不对输入语句进行分割,并将未分割的输入语句同时作为未分割的输入语句自身的上半子句和下半子句,以获得多个待选择语句,或者在输入语句的长度大于或等于第一预定长度的情况下,将输入语句分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句。
[0011]在一个示例中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:基于训练完成的第一分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,其中,第一分割模型是通过计算多个输入语句中的一个或多个输入语句的每一个的多个顿号或逗号或分号中的第一顿号或逗号或分号之前包含的所有词之间的组合概率、和第一顿号或逗号或分号之后包含的所有词之间的组合概率,来将每个输入语句分割为不同的两部分,其中,在输入语句不包含多个顿号或逗号或分号的情况下,第一分割模型可以是通过计算输入语句包含的所有词之间的组合概率来将每个输入语句分割为不同的两部分。
[0012]在一个示例中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:基于训练完成的第二分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,第二分割模型是通过计算多个输入语句中的一个或多个输入语句的每一个的第一预定分割位置之前包含的所有词之间的组合概率、和第一预定分割位置之后包含的所有词之间的组合概率,来将每个输入语句分割为不同的两部分。
[0013]在一个示例中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:基于训练完成的第三分割模型将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,其中,第三分割模型是通过利用拼接为完整的新的语句的正样本数据和负样本数据进行训练得到的,正样本数据和负样本数据分别包括一个或多个完整的语句。
[0014]在一个示例中,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:基于多个输入语句中的一个或多个输入语句的每一个的总字数、名词所占中位、标点符号、随机分割中的一个,将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分。
[0015]根据本公开的一个方面,提供了一种文本处理装置,包括:接收单元,用于接收多个输入语句;第一相似度获取单元,用于基于第一相似度模型获得多个输入语句之间的第一相似度,第一相似度包括语句相似度和主题相似度中的至少一个;第一连续性获取单元,用于基于第一连续性模型获得多个输入语句之间的第一连续性;以及选择单元,用于基于第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
[0016]在一个示例中,选择单元用于:基于第一顺序,计算各个输入语句之间的相对距离,其中第一顺序是多个输入语句的排列顺序;以及基于相对距离和第一相似度和/或第一
连续性,选择多个输入语句中的部分输入语句组成压缩结果。
[0017]在一个示例中,选择单元用于:基于预先指定的第一特定词或第一特定句和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
[0018]在一个示例中,选择单元用于:基于第一预定压缩长度和第一相似度和/或第一连续性,选择多个输入语句中的部分输入语句组成压缩结果。
[0019]在一个示例中,装置还包括分割单元,分割单元用于:将多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句,所述第一相似度获取单元还用于:基于第一相似度模型,获得多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一相似度,所述第一连续性获取单元还用于基于所述第一连续性模型,获得所述多个待选择语句本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:接收多个输入语句;基于第一相似度模型获得所述多个输入语句之间的第一相似度,所述第一相似度包括语句相似度和主题相似度中的至少一个;基于第一连续性模型获得所述多个输入语句之间的第一连续性;以及基于所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。2.根据权利要求1所述的文本处理方法,其中,基于所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果还包括:基于第一顺序,计算各个输入语句之间的相对距离,其中所述第一顺序是所述多个输入语句的排列顺序;以及基于所述相对距离和所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。3.根据权利要求1所述的文本处理方法,其中,基于所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果还包括:基于预先指定的第一特定词或第一特定句和所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。4.根据权利要求1所述的文本处理方法,其中,基于所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果还包括:基于第一预定压缩长度和所述第一相似度和/或所述第一连续性,选择所述多个输入语句中的部分输入语句组成压缩结果。5.根据权利要求1

4任一项所述的文本处理方法,其中,在基于第一相似度模型获得所述多个输入语句之间的第一相似度或基于第一连续性模型获得所述多个输入语句之间的第一连续性之前,所述方法还包括:将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句,所述基于第一相似度模型获得所述多个输入语句之间的第一相似度包括:基于所述第一相似度模型,获得所述多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一相似度,基于第一连续性模型获得所述多个输入语句之间的第一连续性包括:基于所述第一连续性模型,获得所述多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一连续性。6.根据权利要求5所述的文本处理方法,其中,将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句,包括:判断所述多个输入语句中的每个输入语句的长度是否大于第一预定长度,在所述输入语句的长度小于第一预定长度的情况下,不对所述输入语句进行分割,并将未分割的输入语句同时作为所述未分割的输入语句自身的上半子句和下半子句,以获得多个待选择语句,或者
在所述输入语句的长度大于或等于所述第一预定长度的情况下,将所述输入语句分割为不同的两部分,分别作为上半子句和下半子句,以获得多个待选择语句。7.根据权利要求5所述的文本处理方法,其中,将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括:基于训练完成的第一分割模型将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分,其中,所述第一分割模型是通过计算所述多个输入语句中的一个或多个输入语句的每一个的多个顿号或逗号或分号中的第一顿号或逗号或分号之前包含的所有词之间的组合概率、和所述第一顿号或逗号或分号之后包含的所有词之间的组合概率,来将所述每个输入语句分割为不同的两部分,其中,在所述输入语句不包含...

【专利技术属性】
技术研发人员:郭垿宏中村一成李安新藤本拓
申请(专利权)人:株式会社NTT都科摩
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1