一种基于自动分类的文本审查方法技术

技术编号：41180596 阅读：15 留言：0更新日期：2024-05-07 22:15

本发明专利技术公开了一种基于自动分类的文本审查方法，涉及文本审查技术领域，包括以下步骤：S1、获取目标文本，且收集敏感词序列，所述敏感词序列包括一级、二级和三级敏感词，并将所述一级、二级和三级敏感词存储至敏感词数据库中，S2、对获取的所述目标文本进行预处理，所述预处理包括删除所述目标文本中的特殊字符、标点占比超过阈值的标点和字符数量超过限制的字符。本发明专利技术通过自动识别和标注敏感词，减轻了人工审核的负担，提高了审查效率，并且通过比较和调整敏感词识别模型，能够提高对目标文本中敏感内容的准确识别和判断，减少漏审和错审的概率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本审查，具体为一种基于自动分类的文本审查方法。

技术介绍

1、文本审查是指对文本内容进行审核和筛查，以识别和过滤出其中的敏感、不当或违规内容，自动分类是指利用计算机技术和机器学习算法对数据或文本进行自动分类和归类的过程；

2、传统的文本审查方法通常采用人工审核的方式，需要投入大量的人力和物力，并且审核效率低下，并且传统的文本审查方法需要人工逐条审核，效率低下，不能满足大规模文本的快速审核需求，并且人工审核容易出现主观判断和疏漏，审核准确性难以保证，并且传统的文本审查方法往往只能识别单个敏感词，无法全面分析文本中的敏感内容，容易漏审或错审，同时也容易过度审查，将正常的言论误判为敏感内容，而且传统的文本审查方法的敏感词列表往往是固定的，无法及时应对新型敏感词的出现。

技术实现思路

1、本专利技术的目的在于提供一种基于自动分类的文本审查方法，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种基于自动分类的文本审查方法，包括以下步骤：

3、s1、获取目标文本，且收集敏感词序列，所述敏感词序列包括一级、二级和三级敏感词，并将所述一级、二级和三级敏感词存储至敏感词数据库中；

4、s2、对获取的所述目标文本进行预处理，所述预处理包括删除所述目标文本中的特殊字符、标点占比超过阈值的标点和字符数量超过限制的字符；

5、s3、将预处理后的所述目标文本输入至第一敏感词识别模型中，通过所述第一敏

6、s4、根据所述验证敏感词标注信息对所述敏感词标注信息实体进行比较，若两者相似度高于预设阈值，则判断所述第一敏感词识别模型为第二敏感词识别模型，所述第二敏感词识别模型表示训练完成的敏感词识别模型，若两者相似度低于预设阈值，则调整神经网络参数再次训练所述第一敏感词识别模型；

7、s5、基于实体链接技术获取与所述敏感词标注信息实体相对应的敏感词实体，构建敏感词实体关系图，以获取所述敏感词实体关系图中所有关系的集合，敏感词实体关系图包括一级、二级和三级敏感词实体节点和一级、二级和三级敏感词实体节点的连接边；

8、s6、根据所述敏感词实体关系图上中的所述实体节点和所述连接边计算所述目标文本中的敏感词标注信息与所述一级、二级和三级敏感词的关联度；

9、s7、根据所述敏感词标注信息与所述一级、二级和三级敏感词的关联度匹配所述敏感词标注信息所对应的一级、二级和三级敏感词；

10、s8、根据匹配到的所述一级、二级和三级敏感词的数量和长度，对所述目标文本进行审查，以确定其中是否包含敏感内容。

11、优选的，所述步骤s2中，对获取的所述目标文本进行预处理，所述预处理包括删除所述目标文本中的特殊字符、标点占比超过阈值的标点和字符数量超过限制的字符，包括以下步骤：

12、s201、识别并删除所述目标文本中的特殊字符；

13、s202、计算所述目标文本中标点符号的比例，若所述比例超过预设的阈值，则按照标点符号再所述目标文本中的顺序删除后面标点符号；

14、s203、统计所述目标文本中每个字符的数量，若所述字符的数量超过设定的限制，则将其删除。

15、优选的，所述步骤s3中，将预处理后的所述目标文本输入至第一敏感词识别模型中，通过所述第一敏感词识别模型输出所述目标文本中的敏感词标注信息实体，人工对预处理后的所述目标文本进行敏感词标注，以获取验证敏感词标注信息，包括以下步骤：

16、s301、将预处理后的目标文本输入至第一敏感词识别模型，通过所述第一敏感词识别模型自动识别和标注敏感词，第一敏感词识别模型具体为：

17、

18、其中，p(di|q)表示在查询q的条件下检索到文档di的概率，p(di)表示文档先验概率，v表示文档集中所有词项的集合，表示词项w在查询q中出现的次数，表示词项w在文档语言模型中的概率分布；

19、s302、通过第一敏感词识别模型的输出，识别出目标文本中存在的敏感词，并记录其位置信息，所述位置信息表示为起始位置和结束位置，用于定位敏感词在所述目标文本中的具体位置；

20、s303、通过人工对预处理后的目标文本进行敏感词标注，标注出人工认定的敏感词及其位置信息；

21、s304、整理并记录人工标注的敏感词及其位置信息，以形成验证敏感词标注信息。

22、优选的，所述步骤s4中，根据所述验证敏感词标注信息对所述敏感词标注信息实体进行比较，若两者相似度高于预设阈值，则判断所述第一敏感词识别模型为第二敏感词识别模型，所述第二敏感词识别模型表示训练完成的敏感词识别模型，若两者相似度低于预设阈值，则调整神经网络参数再次训练所述第一敏感词识别模型，包括以下步骤：

23、s401、通过相似度计算算法比较验证敏感词标注信息和敏感词标注信息实体之间的相似度，且相似度的计算基于标注的敏感词及其位置信息进行比较，相似度计算算法具体为：

24、

25、其中，p(di)表示文档先验概率，ws表示敏感词的词向量，di表示文档向量，cos(·)表示余弦相似度，|bs|表示敏感词典中词的数量；

26、s402、将计算得到的相似度与预设阈值进行比较，若相似度高于预设阈值，则判断第一敏感词识别模型为第二敏感词识别模型，表示训练完成的敏感词识别模型；

27、s403、若相似度低于预设阈值，针对第一敏感词识别模型，调整神经网络的参数，参数包括调整网络结构、增加训练数据量和修改损失函数，且使用调整后的神经网络参数，重新训练第一敏感词识别模型。

28、优选的，所述步骤s5中，基于实体链接技术获取与所述敏感词标注信息实体相对应的敏感词实体，构建敏感词实体关系图，以获取所述敏感词实体关系图中所有关系的集合，敏感词实体关系图包括一级、二级和三级敏感词实体节点和一级、二级和三级敏感词实体节点的连接边，包括以下步骤：

29、s501、使用实体链接技术，将敏感词标注信息实体链接到对应的敏感词实体上，将标注信息中的敏感词映射到预定义的敏感词实体上；

30、s502、根据实体链接结果，构建敏感词实体关系图，所述敏感词实体关系图由一级、二级和三级敏感词实体节点以及它们之间的连接边组成，且敏感词实体节点代表一个敏感词，节点之间的连接边表示敏感词之间的关系；

31、s503、遍历敏感词实体关系图，提取所有关系的集合，所述所有关系的集合包括一级、二级或三级敏感词实体之间的连接关系。

32、优选的，所述步骤s6中，根据所述敏感词实体关系图上中的所述实体节点和所述连接边计算所述目标文本中的敏感词标注信息与所述一级、二级和三级敏感词的关联度，包括以下步骤：

33、s601、根本文档来自技高网...

【技术保护点】

1.一种基于自动分类的文本审查方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自动分类的文本审查方法，其特征在于：所述步骤S2中，对获取的所述目标文本进行预处理，所述预处理包括删除所述目标文本中的特殊字符、标点占比超过阈值的标点和字符数量超过限制的字符，包括以下步骤：

3.根据权利要求1所述的一种基于自动分类的文本审查方法，其特征在于：所述步骤S3中，将预处理后的所述目标文本输入至第一敏感词识别模型中，通过所述第一敏感词识别模型输出所述目标文本中的敏感词标注信息实体，人工对预处理后的所述目标文本进行敏感词标注，以获取验证敏感词标注信息，包括以下步骤：

4.根据权利要求1所述的一种基于自动分类的文本审查方法，其特征在于：所述步骤S4中，根据所述验证敏感词标注信息对所述敏感词标注信息实体进行比较，若两者相似度高于预设阈值，则判断所述第一敏感词识别模型为第二敏感词识别模型，所述第二敏感词识别模型表示训练完成的敏感词识别模型，若两者相似度低于预设阈值，则调整神经网络参数再次训练所述第一敏感词识别模型，包括以下步骤：

5.根

6.根据权利要求1所述的一种基于自动分类的文本审查方法，其特征在于：所述步骤S6中，根据所述敏感词实体关系图上中的所述实体节点和所述连接边计算所述目标文本中的敏感词标注信息与所述一级、二级和三级敏感词的关联度，包括以下步骤：

7.根据权利要求1所述的一种基于自动分类的文本审查方法，其特征在于：所述步骤S7中，根据所述敏感词标注信息与所述一级、二级和三级敏感词的关联度匹配所述敏感词标注信息所对应的一级、二级和三级敏感词，包括以下步骤：

8.根据权利要求1所述的一种基于自动分类的文本审查方法，其特征在于：所述步骤S8中，根据所述敏感词标注信息与所述一级、二级和三级敏感词的关联度匹配所述敏感词标注信息所对应的一级、二级和三级敏感词，包括以下步骤：

...

【技术特征摘要】

1.一种基于自动分类的文本审查方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自动分类的文本审查方法，其特征在于：所述步骤s2中，对获取的所述目标文本进行预处理，所述预处理包括删除所述目标文本中的特殊字符、标点占比超过阈值的标点和字符数量超过限制的字符，包括以下步骤：

3.根据权利要求1所述的一种基于自动分类的文本审查方法，其特征在于：所述步骤s3中，将预处理后的所述目标文本输入至第一敏感词识别模型中，通过所述第一敏感词识别模型输出所述目标文本中的敏感词标注信息实体，人工对预处理后的所述目标文本进行敏感词标注，以获取验证敏感词标注信息，包括以下步骤：

4.根据权利要求1所述的一种基于自动分类的文本审查方法，其特征在于：所述步骤s4中，根据所述验证敏感词标注信息对所述敏感词标注信息实体进行比较，若两者相似度高于预设阈值，则判断所述第一敏感词识别模型为第二敏感词识别模型，所述第二敏感词识别模型表示训练完成的敏感词识别模型，若两者相似度低于预设阈值，则调整神经网络参数再次训练所述第一敏感词识别模型，包括以下步骤：

5.根据权...

【专利技术属性】
技术研发人员：庞雨秾，邓静思，黄壮源，
申请(专利权)人：法狗狗深圳科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人