System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及文本判别领域,尤其涉及一种敏感词的判别方法、装置、设备和介质。
技术介绍
1、随着互联网的飞速发展,信息传播的广泛性和即时性使得敏感词的滥用成为一项严重的社会问题。在在线平台、社交媒体以及其他数字化环境中,敏感词的存在不仅威胁用户体验,还可能导致社会稳定问题。
2、目前的方案中,现有的敏感词判别方法基于规则的匹配方式,如正则表达式,或者采用以静态敏感词库为主的判别系统。
3、然而,现有的敏感词判别方法存在判别效率低和误判率高的问题。
技术实现思路
1、本申请提供一种敏感词的判别方法、装置、设备和介质,用以解决现有的敏感词判别方法存在判别效率低和误判率高的问题。
2、第一方面,本申请提供一种敏感词的判别方法,方法包括:
3、获取待判别文本,并确定待判别文本对应的待判别字符串;
4、将待判别字符串和预设的敏感词判别数据库中的敏感词字符树进行匹配,得到待判别文本的敏感词匹配结果,敏感词字符树包括至少一个敏感词字符串,敏感词字符树的根节点为敏感词字符串的首字符,子节点为与敏感词字符串的字符顺序对应的字符;
5、输出敏感词匹配结果。
6、在本申请实施例中,在将待判别字符串和预设的敏感词判别数据库中的敏感词字符树进行匹配,得到待判别文本的敏感词匹配结果之前,方法还包括:
7、获取批量的预设敏感词,并确定预设敏感词对应的敏感词字符串;
8、根据敏感词字符串的首字符,对批量的敏感词
9、根据首字符相同的敏感词字符串,确定首字符对应的敏感词字符树;
10、将敏感词字符树存储至预设的敏感词判别数据库中,得到预设的敏感词判别数据库中的敏感词字符树。
11、在本申请实施例中,根据首字符相同的敏感词字符串,确定首字符对应的敏感词字符树,包括:
12、确定敏感词字符串的首字符为根节点,其他字符为子节点;
13、根据敏感词字符串的字符顺序,将根节点和子节点进行逐级连接,得到初始敏感词字符树;
14、从根节点开始,对初始敏感词字符树进行遍历,若初始敏感词字符树中存在逐级相同的节点,则对节点进行节点合并,得到敏感词字符树。
15、在本申请实施例中,在将敏感词字符树存储至预设的敏感词判别数据库中,得到预设的敏感词判别数据库中的敏感词字符树之后,方法还包括:
16、获取新增敏感词,并确定新增敏感词对应的新增字符串;
17、将新增字符串的首字符与预设的敏感词判别数据库中的敏感词字符树的根字符进行匹配,并根据匹配结果,将新增字符串存储至敏感词判别数据库中。
18、在本申请实施例中,将新增字符串的首字符与预设的敏感词判别数据库中的敏感词字符树的根字符进行匹配,并根据匹配结果,将新增字符串存储至敏感词判别数据库中,包括:
19、确定匹配结果;
20、若匹配结果为不匹配,则确定新增字符串的首字符为根节点,其他字符为子节点,并根据新增字符串的字符顺序,将根节点和子节点进行逐级连接,得到新增敏感词字符树;
21、若匹配结果为匹配,则根据新增字符串的字符顺序,将新增字符串与匹配的敏感词字符树进行逐级匹配,并确定新增字符串与敏感词字符树的逐级相同字符;
22、根据新增字符串中的全部字符和逐级相同字符,确定新增字符串中的新增字符;
23、确定新增字符为对应的新增子节点,并将新增子节点连接至逐级相同字符对应的子节点后,得到新增敏感词字符树;
24、存储新增敏感词字符树至敏感词判别数据库。
25、在本申请实施例中,将待判别字符串和预设的敏感词判别数据库中的敏感词字符树进行匹配,得到待判别文本的敏感词匹配结果,包括:
26、确定敏感词字符树的根节点对应的字符;
27、将待判别字符串中的全部字符和根节点对应的字符进行匹配,得到匹配结果;
28、若匹配结果为不匹配,则确定待判别文本的敏感词匹配结果为待判别文本不包括敏感词;
29、若匹配结果为匹配,则确定匹配的字符为目标待判别字符、匹配的敏感词字符树为目标敏感词字符树;
30、根据目标待判别字符和目标敏感词字符树,确定敏感词匹配结果。
31、在本申请实施例中,根据目标待判别字符和目标敏感词字符树,确定敏感词匹配结果,包括:
32、根据待判别字符串的字符顺序,将目标待判别字符后的待判别字符与目标敏感词字符树中对应层级的子节点对应的字符进行逐级匹配;
33、若待判别字符与对应的子节点对应的字符不匹配,则确定敏感词匹配结果为待判别文本不包括敏感词;
34、若待判别字符与对应的子节点对应的字符都匹配,则确定敏感词匹配结果为待判别文本包括敏感词。
35、第二方面,本申请提供一种敏感词的判别装置,装置包括:
36、字符串确定模块,用于获取待判别文本,并确定待判别文本对应的待判别字符串;
37、匹配模块,用于将待判别字符串和预设的敏感词判别数据库中的敏感词字符树进行匹配,得到待判别文本的敏感词匹配结果,敏感词字符树包括至少一个敏感词字符串,敏感词字符树的根节点为敏感词字符串的首字符,子节点为与敏感词字符串的字符顺序对应的字符;
38、结果输出模块,用于输出敏感词匹配结果。
39、第三方面,本申请提供一种设备,包括:处理器,以及与处理器通信连接的存储器;
40、存储器存储计算机执行指令;
41、处理器执行存储器存储的计算机执行指令,以实现本申请的方法。
42、第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现本申请的方法。
43、本申请提供的敏感词的判别方法、装置、设备和介质,通过获取待判别文本,并确定待判别文本对应的待判别字符串;将待判别字符串和预设的敏感词判别数据库中的敏感词字符树进行匹配,得到待判别文本的敏感词匹配结果,敏感词字符树包括至少一个敏感词字符串,敏感词字符树的根节点为敏感词字符串的首字符,子节点为与敏感词字符串的字符顺序对应的字符;输出敏感词匹配结果。
44、如此,dfa算法高效且固定时间复杂度,基于dfa算法的敏感词判别方法,降低了在处理大规模数据的时间复杂度,满足了大规模数据判别的即时性需求,从而提高了处理效率,同时数据识别成功率较高,保证了业务处理的实时性和用户正常信息的传递。
本文档来自技高网...【技术保护点】
1.一种敏感词的判别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述将所述待判别字符串和预设的敏感词判别数据库中的敏感词字符树进行匹配,得到所述待判别文本的敏感词匹配结果之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述首字符相同的敏感词字符串,确定所述首字符对应的敏感词字符树,包括:
4.根据权利要求2所述的方法,其特征在于,在所述将所述敏感词字符树存储至所述预设的敏感词判别数据库中,得到所述预设的敏感词判别数据库中的敏感词字符树之后,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述将所述新增字符串的首字符与所述预设的敏感词判别数据库中的敏感词字符树的根字符进行匹配,并根据匹配结果,将所述新增字符串存储至所述敏感词判别数据库中,包括:
6.根据权利要求1所述的方法,其特征在于,所述将所述待判别字符串和预设的敏感词判别数据库中的敏感词字符树进行匹配,得到所述待判别文本的敏感词匹配结果,包括:
7.根据权利要求6所述的方法,其特征在于
8.一种敏感词的判别装置,其特征在于,所述装置包括:
9.一种设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。
...【技术特征摘要】
1.一种敏感词的判别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述将所述待判别字符串和预设的敏感词判别数据库中的敏感词字符树进行匹配,得到所述待判别文本的敏感词匹配结果之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述首字符相同的敏感词字符串,确定所述首字符对应的敏感词字符树,包括:
4.根据权利要求2所述的方法,其特征在于,在所述将所述敏感词字符树存储至所述预设的敏感词判别数据库中,得到所述预设的敏感词判别数据库中的敏感词字符树之后,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述将所述新增字符串的首字符与所述预设的敏感词判别数据库中的敏...
【专利技术属性】
技术研发人员:郭健,冯毅,朱立军,杨帆,郝岩,王孟哲,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。