一种违法关键词库的更新方法、装置、设备及存储介质制造方法及图纸

技术编号:28503400 阅读:26 留言:0更新日期:2021-05-19 22:51
本申请公开了一种违法关键词库的更新方法,包括:获取待检象形文字,并确定出与待检象形文字对应的待检字符串;计算待检字符串与各违法关键词对应的违法字符串的相似度;从待检象形文字中确定出相似度超过预设阈值的目标违法关键词,并将目标违法关键词添加到预设的违法关键词库中。可见,利用本方法能够实现从待检象形文字中确定出目标违法关键词并利用违法关键词更新违法关键词库,因此能够提高违法关键词库中违法关键词的全面性和丰富性,进而提高检测网络违法行为的全面性和准确性。本申请还公开了一种违法关键词库的更新装置、设备及计算机可读存储介质,均具有上述有益效果。果。果。

【技术实现步骤摘要】
一种违法关键词库的更新方法、装置、设备及存储介质


[0001]本专利技术涉及网络安全领域,特别涉及一种违法关键词库的更新方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]近年来,随着网络技术的快速发展,检测网络中的网络违法行为也逐渐成为网络安全的工作重点之一。目前,一般是利用预设的违法关键词库进行检测,违法关键词库中预设有大量的已知的违法关键词,当检测到与违法关键词库中的违法关键词相匹配的网络词语时,即表示可能存在网络违法行为。并且,在实际应用过程中,需要根据信息系统、大数据系统中数据量不断膨胀的发展趋势不断更新违法关键词库。
[0003]现有技术中,更新违法关键词库的方式一般是计算各待检字符数据与已知的违法关键词的相似度,并将与已知的违法关键词相似度较高的待检字符数据确定为目标违法关键词并添加到预设的违法关键词库中,从而实现违法关键词库的更新。但是,现有技术中,仅仅是从字符串类型的待检字符数据中确定出目标违法关键词以更新违法关键词库,即违法关键词库中仅包括字符串类型的违法关键词;而在网络中也存在大量的如中文等象形文字,因此,利用现有技术中的仅包括字符串类型的违法关键词的违法关键词库进行网络违法行为的检测,将存在检测遗漏和检测不准确的情况。
[0004]因此,如何根据象形文字更新违法关键词库,提高违法关键词库中违法关键词的全面性和丰富性,进而提高检测网络违法行为的全面性和准确性,是本领域技术人员目前需要解决的技术问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种违法关键词库的更新方法,能够根据象形文字更新违法关键词库,提高违法关键词库中违法关键词的全面性和丰富性,进而提高检测网络违法行为的全面性和准确性;本专利技术的另一目的是提供一种违法关键词库的更新装置、设备及计算机可读存储介质,均具有上述有益效果。
[0006]为解决上述技术问题,本专利技术提供一种违法关键词库的更新方法,包括:
[0007]获取待检象形文字,并确定出与所述待检象形文字对应的待检字符串;
[0008]计算所述待检字符串与各违法关键词对应的违法字符串的相似度;
[0009]从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中。
[0010]优选地,所述获取待检象形文字,并确定出与所述待检象形文字对应的待检字符串的过程,具体包括:
[0011]获取所述待检象形文字;
[0012]当所述待检象形文字与所述违法关键词为同音字时,将所述待检象形文字的拼音设置为所述待检字符串;
[0013]当所述待检象形文字与所述违法关键词为方言易混肴发音字时,获取所述待检象形文字的拼音,并将所述拼音中的预设易混肴音标进行转换,得出所述待检字符串;
[0014]当所述待检象形文字与所述违法关键词为字形相似时,根据所述待检象形文字的文字特征计算出所述待检字符串。
[0015]优选地,当所述待检象形文字与所述违法关键词为方言易混肴发音字时,所述计算所述待检字符串与各违法关键词对应的违法字符串的相似度的过程,具体包括:
[0016]分别为各所述预设易混肴音标设置对应的权重;
[0017]利用预设相似度算法和所述权重计算所述待检字符串与各所述违法关键词对应的违法字符串的所述相似度。
[0018]优选地,所述获取所述待检象形文字的过程,具体包括:
[0019]获取待检象形文字片段;
[0020]对所述待检象形文字片段进行分词处理,得到多个分词;
[0021]去除多个所述分词中的停用词,并将剩余的所述分词设置为所述待检象形文字。
[0022]优选地,在所述从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中之后,进一步包括:
[0023]确定出所述待检象形文字片段中的各所述目标违法关键词之间的相互联系,并根据所述相互联系确定出与所述待检象形文字片段对应的目标网络违法行为。
[0024]优选地,在所述从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中之后,进一步包括:
[0025]对所述目标违法关键词进行显示。
[0026]优选地,所述计算所述待检字符串与各违法关键词对应的违法字符串的相似度的过程,具体包括:
[0027]利用编辑距离算法或N

Gram算法或JaroWinkler算法或Soundex算法计算所述待检字符串与各所述违法关键词对应的违法字符串的所述相似度。
[0028]为解决上述技术问题,本专利技术还提供一种违法关键词库的更新装置,包括:
[0029]确定模块,用于获取待检象形文字,并确定出与所述待检象形文字对应的待检字符串;
[0030]计算模块,用于计算所述待检字符串与各违法关键词对应的违法字符串的相似度;
[0031]更新模块,用于从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中。
[0032]为解决上述技术问题,本专利技术还提供一种违法关键词库的更新设备,包括:
[0033]存储器,用于存储计算机程序;
[0034]处理器,用于执行所述计算机程序时实现上述任一种违法关键词库的更新方法的步骤。
[0035]为解决上述技术问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种违法关键词库的更新方法的步骤。
[0036]本专利技术提供的一种违法关键词库的更新方法,包括:获取待检象形文字,并确定出
与待检象形文字对应的待检字符串;计算待检字符串与各违法关键词对应的违法字符串的相似度;从待检象形文字中确定出相似度超过预设阈值的目标违法关键词,并将目标违法关键词添加到预设的违法关键词库中。可见,本方法通过将待检形文字转换为对应的待检字符串,进而依据待检字符串与违法字符串的相似度确定出待检象形文字中的目标违法关键词;利用本方法能够实现从待检象形文字中确定出目标违法关键词并利用违法关键词更新违法关键词库,因此能够提高违法关键词库中违法关键词的全面性和丰富性,进而提高检测网络违法行为的全面性和准确性。
[0037]为解决上述技术问题,本专利技术还提供了一种违法关键词库的更新装置、设备及计算机可读存储介质,均具有上述有益效果。
附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0039]图1为本专利技术实施例提供的一种违法关键词库的更新方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种违法关键词库的更新方法,其特征在于,包括:获取待检象形文字,并确定出与所述待检象形文字对应的待检字符串;计算所述待检字符串与各违法关键词对应的违法字符串的相似度;从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,并将所述目标违法关键词添加到预设的违法关键词库中。2.根据权利要求1所述的方法,其特征在于,所述获取待检象形文字,并确定出与所述待检象形文字对应的待检字符串的过程,具体包括:获取所述待检象形文字;当所述待检象形文字与所述违法关键词为同音字时,将所述待检象形文字的拼音设置为所述待检字符串;当所述待检象形文字与所述违法关键词为方言易混肴发音字时,获取所述待检象形文字的拼音,并将所述拼音中的预设易混肴音标进行转换,得出所述待检字符串;当所述待检象形文字与所述违法关键词为字形相似时,根据所述待检象形文字的文字特征计算出所述待检字符串。3.根据权利要求2所述的方法,其特征在于,当所述待检象形文字与所述违法关键词为方言易混肴发音字时,所述计算所述待检字符串与各违法关键词对应的违法字符串的相似度的过程,具体包括:分别为各所述预设易混肴音标设置对应的权重;利用预设相似度算法和所述权重计算所述待检字符串与各所述违法关键词对应的违法字符串的所述相似度。4.根据权利要求2所述的方法,其特征在于,所述获取所述待检象形文字的过程,具体包括:获取待检象形文字片段;对所述待检象形文字片段进行分词处理,得到多个分词;去除多个所述分词中的停用词,并将剩余的所述分词设置为所述待检象形文字。5.根据权利要求4所述的方法,其特征在于,在所述从所述待检象形文字中确定出所述相似度超过预设阈值的目标违法关键词,...

【专利技术属性】
技术研发人员:汪出范渊黄进
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1