System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 非结构化文本数据分类分级方法、装置、设备、存储介质及程序产品制造方法及图纸_技高网

非结构化文本数据分类分级方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:43038672 阅读:1 留言:0更新日期:2024-10-22 14:26
本发明专利技术公开了一种非结构化文本数据分类分级方法、装置、设备、存储介质及程序产品,基于非结构化的文本数据的文件属性信息,将所述文本数据划分为至少一组相关文件;对于每组所述相关文件,根据各个所述相关文件之间的相似度和所述相关文件的文本长度,从对应相关文件中确定至少一组相似文件以及每一组相似文件中的长文本和短文本;对所述长文本进行关键句子提取,生成所述长文本的摘要内容;根据所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行复合分类;根据复合分类后的所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行分级,从而可以提高文本分类分级效率和准确度。

【技术实现步骤摘要】

本专利技术涉及文本分类,尤其涉及一种非结构化文本数据分类分级方法、装置、设备、存储介质及程序产品


技术介绍

1、伴随着《数据安全法》、《个人信息保护法》等法律条规相继出台,各行各业均要求对数据进行分类分级,并对不同级别的数据采取不同保护措施。数据分类分级是保护数据安全的第一步;对于结构化数据,其通常采用正则表达式、关键词匹配、人工智能等方式进行识别分类,粒度可以到字段;而对于非结构化长文本数据,由于其数据量大,数据稀疏密度低,导致数据分类的难度较大,精确率不高。


技术实现思路

1、针对现有技术存在的问题,本专利技术实施例提供一种非结构化文本数据分类分级方法、装置、设备、存储介质及程序产品,其能有效降低文本分类分级的难度,提高文本分类分级准确度。

2、第一方面,本专利技术实施例提供了一种非结构化文本数据分类分级方法,包括:

3、根据非结构化的文本数据的文件属性信息,将所述文本数据划分为至少一组相关文件;

4、对于每组所述相关文件,根据各个所述相关文件之间的相似度和所述相关文件的文本长度,从对应相关文件中确定至少一组相似文件以及每一组相似文件中的长文本和短文本;

5、对所述长文本进行关键句子提取,生成所述长文本的摘要内容;

6、根据所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行复合分类;

7、根据复合分类后的所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行分级。

8、作为上述方案的改进,所述对于每组所述相关文件,根据各个所述相关文件之间的相似度和所述相关文件的文本长度,从对应相关文件中确定至少一组相似文件以及每一组相似文件中的长文本和短文本,包括:

9、对于每组所述相关文件,对所述相关文件进行数据预处理;

10、计算数据预处理后的各个所述相关文件之间的相似度;

11、将相似度小于等于设定相似度阈值的相关文件划分为一组相似文件;

12、根据各组所述相似文件中各个所述相似文件的文本长度,确定各组所述相似文件中的长文本和短文本。

13、作为上述方案的改进,所述计算数据预处理后的各个所述相关文件之间的相似度,包括:

14、计算各个所述相关文件的签名值;

15、根据任意两个所述相关文件的签名值,计算相应两个相关文件之间的海明距离,作为相应两个相关文件之间的相似度。

16、作为上述方案的改进,所述根据各组所述相似文件中各个所述相似文件的文本长度,确定各组所述相似文件中的长文本和短文本,包括:

17、根据各组所述相似文件中各个所述相似文件的文本长度,确定各组所述相似文件中的代表文件;

18、将文本长度大于预设长度阈值的代表文件划分为长文本;

19、将文本长度不大于所述长度阈值的代表文件划分为短文本。

20、作为上述方案的改进,所述根据所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行复合分类,包括:

21、利用预设的复合分类匹配规则对所述长文本的摘要内容和所述短文本的全文内容进行匹配分类,得到相应相似文件的复合分类结果;

22、其中,所述复合分类匹配规则包括业务白名单匹配规则、敏感关键词匹配规则、正则匹配规则。

23、作为上述方案的改进,所述根据非结构化的文本数据的文件属性信息,将所述文本数据划分为至少一组相关文件,包括:

24、通过词袋模型对所述文本数据的文件属性信息进行向量化处理,得到相应文本数据的文件属性向量;其中,所述文件属性信息包括时间属性、空间属性、来源属性、格式属性;

25、根据各个所述文本数据的文件属性向量,计算各个所述文本数据之间的相关度;

26、根据各个所述文本数据之间的相关度,将所述文本数据划分为至少一组相关文件。

27、作为上述方案的改进,所述对于每组所述相关文件,对所述相关文件进行数据预处理,包括:

28、对于每组所述相关文件,对所述相关文件进行数据预处理;

29、计算数据预处理后的各个所述相关文件之间的相似度;

30、将相似度小于等于设定相似度阈值的相关文件划分为一组相似文件;

31、根据各组所述相似文件中各个所述相似文件的文本长度,确定各组所述相似文件中的长文本和短文本。

32、第二方面,本专利技术实施例提供了一种非结构化文本数据分类分级装置,包括:

33、相关文件划分模块,用于根据非结构化的文本数据的文件属性信息,将所述文本数据划分为至少一组相关文件;

34、长短文本确定模块,用于对于每组所述相关文件,根据各个所述相关文件之间的相似度和所述相关文件的文本长度,从对应相关文件中确定至少一组相似文件以及每一组相似文件中的长文本和短文本;

35、摘要提取模块,用于对所述长文本进行关键句子提取,生成所述长文本的摘要内容;

36、文本分类模块,用于根据所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行复合分类;

37、文本分级模块,用于根据复合分类后的所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行分级。

38、第三方面,本专利技术实施例提供了一种非结构化文本数据分类分级设备,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的非结构化文本数据分类分级方法。

39、第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面中任意一项所述的非结构化文本数据分类分级方法。

40、第五方面,本专利技术实施例提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如第一方面中任意一项所述的非结构化文本数据分类分级方法。

41、相对于现有技术,本专利技术实施例的一种非结构化文本数据分类分级方法、装置、设备、存储介质及程序产品,基于非结构化的文本数据的文件属性信息找出所述文本数据中的相关文件,进行相关文件分组,以相关文件来确定数据的影响范围,解决现有技术对非结构化数据的分类分级标记粒度较粗,数据安全级别划定不准确的问题;然后对于每组所述相关文件,根据各个所述相关文件之间的相似度和所述相关文件的文本长度,从对应相关文件中确定至少一组相似文件以及每一组相似文件中的长文本和短文本;对所述长文本进行关键句子提取,生成所述长文本的摘要内容;最后根据所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行复合分类;根据复合分类后的所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行分级,从而可以降低文本分类的难度,提高文本分类分级效率和准确度。

本文档来自技高网...

【技术保护点】

1.一种非结构化文本数据分类分级方法,其特征在于,包括:

2.如权利要求1所述的非结构化文本数据分类分级方法,其特征在于,所述对于每组所述相关文件,根据各个所述相关文件之间的相似度和所述相关文件的文本长度,从对应相关文件中确定至少一组相似文件以及每一组相似文件中的长文本和短文本,包括:

3.如权利要求2所述的非结构化文本数据分类分级方法,其特征在于,所述计算数据预处理后的各个所述相关文件之间的相似度,包括:

4.如权利要求2所述的非结构化文本数据分类分级方法,其特征在于,所述根据各组所述相似文件中各个所述相似文件的文本长度,确定各组所述相似文件中的长文本和短文本,包括:

5.如权利要求1所述的非结构化文本数据分类分级方法,其特征在于,所述根据所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行复合分类,包括:

6.如权利要求1所述的非结构化文本数据分类分级方法,其特征在于,所述根据非结构化的文本数据的文件属性信息,将所述文本数据划分为至少一组相关文件,包括:

7.如权利要求2所述的非结构化文本数据分类分级方法,其特征在于,所述对于每组所述相关文件,对所述相关文件进行数据预处理,包括:

8.一种非结构化文本数据分类分级装置,其特征在于,包括:

9.一种非结构化文本数据分类分级设备,其特征在于,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的非结构化文本数据分类分级方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的非结构化文本数据分类分级方法。

11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7中任意一项所述非结构化文本数据分类分级方法。

...

【技术特征摘要】

1.一种非结构化文本数据分类分级方法,其特征在于,包括:

2.如权利要求1所述的非结构化文本数据分类分级方法,其特征在于,所述对于每组所述相关文件,根据各个所述相关文件之间的相似度和所述相关文件的文本长度,从对应相关文件中确定至少一组相似文件以及每一组相似文件中的长文本和短文本,包括:

3.如权利要求2所述的非结构化文本数据分类分级方法,其特征在于,所述计算数据预处理后的各个所述相关文件之间的相似度,包括:

4.如权利要求2所述的非结构化文本数据分类分级方法,其特征在于,所述根据各组所述相似文件中各个所述相似文件的文本长度,确定各组所述相似文件中的长文本和短文本,包括:

5.如权利要求1所述的非结构化文本数据分类分级方法,其特征在于,所述根据所述长文本的摘要内容和所述短文本的全文内容,对相应相似文件进行复合分类,包括:

6.如权利要求1所述的非结构化文本数据分类分级方法,其特征在于,所述根据非结构化的文本数据的文件属性信...

【专利技术属性】
技术研发人员:易子仪郭斯栩
申请(专利权)人:中国移动通信有限公司研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1