文本处理方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号：38088908 阅读：13 留言：0更新日期：2023-07-06 08:59

本公开涉及一种文本处理装置、方法、设备和计算机可读存储介质。该文本处理方法包括：接收多个输入语句；基于第一相似度模型获得多个输入语句之间的第一相似度，第一相似度包括语句相似度和主题相似度中的至少一个；基于第一连续性模型获得多个输入语句之间的第一连续性；以及基于第一相似度和/或第一连续性，选择多个输入语句中的部分输入语句组成压缩结果，从而避免压缩结果的文本流畅性、冗余等问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、设备和计算机可读存储介质

[0001]本公开涉及文本处理领域，并且具体涉及一种文本处理装置、方法、设备和计算机可读存储介质。

技术介绍

[0002]近年来，随着计算机处理技术的高速发展，使得更精炼快速地捕获文本中的重要信息成为可能。句子压缩是一种将冗长句子转换成精炼简洁的句子的方法。该技术广泛用于主题的自动获取、摘要生成、问答系统等技术中。
[0003]现有的句子压缩方法有：构建关于句子的语法树，通过删减语法树的整个分支来生成压缩句子，或者通过训练基于神经网络的压缩模型来进行句子压缩。对于相对较长的文本，在进行压缩时，如果直接进行压缩，可能会出现流畅性不好、文本冗余等问题。因此，对于相对较长的文本，可以先对其进行初始压缩以提取出故事线，然后再对该故事线进行压缩，从而避免流畅性、冗余等问题。

技术实现思路

[0004]鉴于以上问题，本公开提供了一种文本处理装置、方法、设备和计算机可读存储介质。
[0005]根据本公开的一个方面，提供了一种文本处理方法，包括：接收多个输入语句；基于第一相似度模型获得多个输入语句之间的第一相似度，第一相似度包括语句相似度和主题相似度中的至少一个；基于第一连续性模型获得多个输入语句之间的第一连续性；以及基于第一相似度和/或第一连续性，选择多个输入语句中的部分输入语句组成压缩结果。
[0006]在一个示例中，基于第一相似度和/或第一连续性，选择多个输入语句中的部分输入语句组成压缩结果还包括：基于第一顺序，计算各个输入语句之间的相对距离...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，包括：接收多个输入语句；基于第一相似度模型获得所述多个输入语句之间的第一相似度，所述第一相似度包括语句相似度和主题相似度中的至少一个；基于第一连续性模型获得所述多个输入语句之间的第一连续性；以及基于所述第一相似度和/或所述第一连续性，选择所述多个输入语句中的部分输入语句组成压缩结果。2.根据权利要求1所述的文本处理方法，其中，基于所述第一相似度和/或所述第一连续性，选择所述多个输入语句中的部分输入语句组成压缩结果还包括：基于第一顺序，计算各个输入语句之间的相对距离，其中所述第一顺序是所述多个输入语句的排列顺序；以及基于所述相对距离和所述第一相似度和/或所述第一连续性，选择所述多个输入语句中的部分输入语句组成压缩结果。3.根据权利要求1所述的文本处理方法，其中，基于所述第一相似度和/或所述第一连续性，选择所述多个输入语句中的部分输入语句组成压缩结果还包括：基于预先指定的第一特定词或第一特定句和所述第一相似度和/或所述第一连续性，选择所述多个输入语句中的部分输入语句组成压缩结果。4.根据权利要求1所述的文本处理方法，其中，基于所述第一相似度和/或所述第一连续性，选择所述多个输入语句中的部分输入语句组成压缩结果还包括：基于第一预定压缩长度和所述第一相似度和/或所述第一连续性，选择所述多个输入语句中的部分输入语句组成压缩结果。5.根据权利要求1
‑
4任一项所述的文本处理方法，其中，在基于第一相似度模型获得所述多个输入语句之间的第一相似度或基于第一连续性模型获得所述多个输入语句之间的第一连续性之前，所述方法还包括：将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分，分别作为上半子句和下半子句，以获得多个待选择语句，所述基于第一相似度模型获得所述多个输入语句之间的第一相似度包括：基于所述第一相似度模型，获得所述多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一相似度，基于第一连续性模型获得所述多个输入语句之间的第一连续性包括：基于所述第一连续性模型，获得所述多个待选择语句的下半子句与在其后排列的其他待选择语句的上半子句之间的第一连续性。6.根据权利要求5所述的文本处理方法，其中，将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分，分别作为上半子句和下半子句，以获得多个待选择语句，包括：判断所述多个输入语句中的每个输入语句的长度是否大于第一预定长度，在所述输入语句的长度小于第一预定长度的情况下，不对所述输入语句进行分割，并将未分割的输入语句同时作为所述未分割的输入语句自身的上半子句和下半子句，以获得多个待选择语句，或者
在所述输入语句的长度大于或等于所述第一预定长度的情况下，将所述输入语句分割为不同的两部分，分别作为上半子句和下半子句，以获得多个待选择语句。7.根据权利要求5所述的文本处理方法，其中，将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分包括：基于训练完成的第一分割模型将所述多个输入语句中的一个或多个输入语句的每一个分割为不同的两部分，其中，所述第一分割模型是通过计算所述多个输入语句中的一个或多个输入语句的每一个的多个顿号或逗号或分号中的第一顿号或逗号或分号之前包含的所有词之间的组合概率、和所述第一顿号或逗号或分号之后包含的所有词之间的组合概率，来将所述每个输入语句分割为不同的两部分，其中，在所述输入语句不包含...

【专利技术属性】
技术研发人员：郭垿宏，中村一成，李安新，藤本拓，
申请(专利权)人：株式会社NTT都科摩，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人